『日本語話し言葉コーパス』第３刷における主要な変更点

第３刷における主要な変更点を以下に記します。

１．解説文書の改訂

解説文書のうち、改訂したのは以下の四つの文書となる。

２．音声ラベルのエラー修正

第３刷では、音声ラベルのエラー修正を大規模に行った。また基準についても一部変更した。この修正内容は、音声ラベルデータ（Xwaves、Praatの両形式）のほか、各種情報を統合したXML文書にも反映されている。修正の詳細については、以下を参照のこと。

参照：音声ラベルのエラー修正（第３刷）

３．Praat用音声ラベルデータの修正

第２刷から提供されたPraat用の音声ラベルデータに固有の問題が幾つか生じていたため、Praat用ラベルデータについては上記２に加えて修正を施した。また転記基本単位毎に発話内容を記した転記テキスト層を追加した。修正の詳細については、以下を参照のこと。

参照：Praat用音声ラベルデータの修正（第３刷）

４．タグ"<FV>", "(?)" の一部削除

コアを対象に次の二種類のタグの音を再度聞き直し、実際に音が存在しないものや極めて音が小さく聞き取りが難しいものを削除した。

タグ"<FV>"：転記テキストにおいて、ボーカルフライ等で母音が同定できない場合に用いられるタグ
タグ"(?)"：上記以外で音の聞き取りが一切できない場合に用いられるタグ

この修正内容は、タグ"<FV>", "(?)"を含む全てのデータに反映されている。具体的には、転記テキスト、短単位長単位混合形式データ、長単位形式形態論データ、音声ラベルデータ、XML文書である。

実際に削除した<FV>,(?)のリスト

参照：タグ"<FV>", "(?)" 削除リスト（第３刷）

５．XML文書の修正

転記テキスト、短単位、音声ラベル等の種々の研究用付加情報の修正をXML文書に反映させた。種々の研究用付加情報の修正については上記２．および４．を参照のこと。

また、XML文書のバグをできる限り修正した。さらにXML文書の仕様を一部変更し、各XML文書を修正した。修正の詳細については、以下を参照のこと。

参照：「『日本語話し言葉コーパス』節単位XML文書について」（xml.pdf）の「７．第三刷における変更点」（p.34）

修正内容はコアと非コアで以下のように異なる。

コア：仕様の変更、研究用付加情報の修正の反映、XML文書のバグの修正
非コア：仕様の変更

なお、上記修正に伴い、分節音ラベルを生成するためのXSLを修正した。ただし、融合ラベルの復元については、多様なケースが存在し、変換処理が複雑になるため、XSLでは簡単な処理を施すにとどめ、必要に応じてスクリプト言語による後処理で対応することを想定している。今回のxml2seg.xslでは36行目から46行目に簡単な処理を記述しているので、参考にされたい。

６．節単位XML文書の再生成

CSJでは、各種ラベル情報を統合したXML文書のほかに、これをベースに節単位を構成要素に持つ形式に変換したXML文書（以下、節単位XML）も提供している。５の変更に伴い、節単位XMLについても再生成した。また、ベースとなるXMLから節単位XMLを生成するためのxsl（mkCUXML.xsl）についても修正を加えた。