「現代日本語書き言葉均衡コーパス」文字表・表記表解説 2023.03.31 言語資源開発センター 文責:山崎 誠 1.概要 「現代日本語書き言葉均衡コーパス」(以下、BCCWJ)に含まれるすべての サンプルから作成した文字頻度表、表記頻度表です。本データの作成には、 BCCWJ-DVD版(Version 1.1)のDISC4OTにある、TSV_SUW_OTの各ファイルを 使用しました。本データは以下の4つの表から構成されています。 (1)BCCWJ文字表 (2)BCCWJ文字表(レジスター別) (3)BCCWJ表記表 (4)BCCWJ表記表(レジスター別) 2.ファイルの説明 (1)BCCWJ文字表 BCCWJ_CharacterTable.xlsx 短単位のTSVファイルの原文文字列に現れるすべての文字を集計した。 表には、各文字のコード(UTF-8)、字種(平仮名、カタカナ、漢字、 記号等の別)、出現頻度、100万字あたりの頻度、表記例(漢字の 場合のみ)を挙げた。 (2)BCCWJ文字表(レジスター別) BCCWJ_CharacterTable_byRegister.xlsx 短単位のTSVファイルの原文文字列に現れるすべての文字をレジスター 別に集計した。表には、各文字のコード(UTF-8)、字種(平仮名、 カタカナ、漢字、記号等の別)、レジスター、出現頻度、100万字あた りの頻度、表記例(漢字の場合のみ)を挙げた。 (3)BCCWJ表記表 BCCWJ_WritingFormTable.xlsx 短単位のTSVファイルにある、語彙素、語彙素読み、語彙素ID、 品詞を使って語を特定し、集計した。ただし、動詞に限っては、 語彙素読みの代わりに語形を用いた。 表には、語彙素読み(動詞の場合は語形)、語彙素、品詞、 品詞2(大分類のみ)、語種、語彙素ID、合計頻度、書字形数、 書字形例を挙げた。 (4)BCCWJ表記表(レジスター別)BCCWJ_WritingFormTable_byRegister.xlsx 短単位のTSVファイルにある、語彙素、語彙素読み、語彙素ID、 品詞を使って語を特定し、レジスター別に集計した。ただし、動詞に 限っては、語彙素読みの代わりに語形を用いた。 表には、語彙素読み(動詞の場合は語形)、語彙素、品詞、 品詞2(大分類のみ)、語種、語彙素ID、レジスター、合計頻度、書字形数、 書字形例を挙げた。 3.ライセンス 本データは クリエイティブ・コモンズ・ライセンス CC BY-NC-SA 4.0(表示-非営利-継承 4.0 国際)で公開します。 4.本データの問い合わせ先 国立国語研究所 言語資源開発センター kotonoha@ninjal.ac.jp 以上