言語資源開発センター -Center for Language Resource Development-
English 国立国語研究所
 

『日本語話し言葉コーパス』第1刷に関する問題点

 『日本語話し言葉コーパス』第1刷に関して判明した問題点を報告しています。第2刷ではこれらの問題点は全て修正されています。

(公開:2004.06.01: 最終修正2008.05.02)

 

1.DVD-ROMの枚数

『日本語話し言葉コーパス』Volume1の /DOC ディレクトリに格納されている「『日本語話し言葉コーパス』の概観」 (overview.pdf)マニュアルでは、『日本語話し言葉コーパス』はDVD17枚組としていますが(p. 18)、実際には18枚組です。

Volume1からVolume17までの内容は上記マニュアルに記載されているとおりですが、上記マニュアルの執筆後に情報通信研究機構(旧通信総合研究所)で作成された「節単位XML文書」および「文編集データ」と専用ビューワーをVolume 18として公開対象に加えました。Volume18の内容については、同ディスクの /DOC ディレクトリに格納されている解説文書(cuxml.pdf等)をご参照ください。(2004.06.01)

2.節単位情報の不具合

「『日本語話し言葉コーパス』の概観」マニュアルには、すべての講演(3302ファイル)に対して「節単位情報」を付与している旨の記述がなされていますが(p.10)、今回お送りした『日本語話し言葉コーパス』では、XML文書生成時の手違いによって、情報が付与されているのは、コアおよびテストセットに含まれるモノローグ講演(合計199ファイル)に対してだけとなっております(コアのうち対話と再朗読には付与されていません)。深くお詫び申しあげます。

*現在修正データを作成中です。追って差し替えデータを公開いたします。(2004.06.01)

⇒ 2005年4月以降は上記のバグを修正したXMLデータを格納したDVD1枚を添えて出荷しています。

3.節単位情報の不具合によるマニュアルの読み替え(1)

上記2の結果、Volume1の/DATAディレクトリに格納されているtalk_data.datの内容にも修正が必要となりました。現在、同ファイルの第66フィールドには、節単位データの種別を表す情報として、「自動」ないし「手動」という値が記入されています。この値が「手動」となっているファイルにだけ節単位情報が付与されていますので、差し替えデータ公開までの間は、「自動」を「節単位情報なし」、「手動」を「節単位情報あり」と読み替えていただきますよう、お願いいたします。(2004.06.01)

⇒ 2005年4月以降は上記のバグを修正したXML文書を格納したDVD1枚を添えて出荷しています。 修正XML文書を利用していただければ上記の読み替えは必要なくなります。

4.節単位情報の不具合よるマニュアルの読み替え(2)

上記2の結果、Volume1の/DOCディレクトリ中の「記録票データ・対話記録票データ・講演者属性データ・対話参加講演者の講演一覧の解説」(data_attribute.pdf)マニュアルの節単位情報に関する記述内容(p. 6)にも上記3と同様の読み替えをお願いいたします。(2004.06.01)

⇒ 2005年4月以降は上記のバグを修正したXML文書を格納したDVD1枚を添えて出荷しています。修正XML文書を利用していただければ上記の読み替えは必要なくなります。

5.節単位情報マニュアルの誤植

Volume1の/DOCディレクトリ中の「『日本語話し言葉コーパス』における節単位認定」マニュアル(clause.pdf)p. 6の「主題の共有+」の最初の例文に以下の誤植があります。(2004.06.01)

(誤): 私は旅行が大好きで/並列節デ/ + 今までもあちこち行きましたけれども<P>/並列節ケレドモ/;主題の共有

(正): 私は旅行が大好きで<並列節デ>今までもあちこち行きましたけれども<P>/並列節ケレドモ/+その中で一番楽しかった旅行をこれからお話しいたします<P>[文末];主題の共有

6.XML文書におけるエクステンダー記号

X-JToBIで用いられているエクステンダー記号">;"は、XML文書中では記号"]"によって置換されています。その旨の説明がマニュアルに抜けておりました。なお、この措置はXML文書中では">;"がタグ付のために利用されることによるものです。(2004.06.01)

*エクステンダーについてはVolume1/DOCの「『日本語話し言葉コーパス』のイントネーションラベリング」intonation.pdfに説明があります。

7.印象評定データに関する誤植

Volume1の/DOCディレクトリに格納されている「印象評定データの概要」マニュアル(impression.pdf)に誤植がありました。p. 7冒頭の「3.4データファイル」中のデータファイル名が誤っていました。(2004.07.13)

(誤): rating.csv

(正): impression.csv

以下も印象評定データに関する誤植です

impression.pdf, p. 2の「2.2.3 段階評定式印象評定項目」の「講演の自発性」に関する記述で「ただし、記録票Ver.1.0のものでは」のすぐ下の表が誤っています。data_attribute.pdfのp. 4の「2.6.1 講演の自発性」にも同じ誤りがあります。(2004.08.12)

(誤)

1 ほぼすべて自発的
2 多くの部分自発的
4 多くの部分朗読
5 ほぼすべて朗読

(正)

1 ほぼすべて朗読
2 多くの部分朗読
4 多くの部分自発的
5 ほぼすべて自発的

8.XML関連スクリプト(XSL)のバグ

Voumue1の/TOOL/XSLディレクトリに格納されている三つのXML関連スクリプト(XSL)に不具合がありました。それぞれの修正方法〔(誤)→(正)〕と不具合の内容を以下に記します。(2004.08.16)

(1) xml2seg.xsl (23行目)
修正:<xsl:if test="@Channel='L:'"> → <xsl:if test="@Channel='L'">
不具合:チャンネル識別子のコロンが不要。

(2) xml2trn.xsl (1行目)
修正:<;?xml version="1.0" encoding="UTF-8"?> →  <?xml version="1.0" encoding="EUC-JP"?>
不具合:スクリプト内部で利用されている漢字コードとXML宣言の不一致。

(3) iputrn2xsl.xsl (1行目)
修正:<?xml version="1.0" ?> →  <?xml version="1.0" encoding="Shift_JIS"?>
不具合:スクリプト内部で利用されている漢字コードとXML宣言の不一致。

 

リンク Links