国立国語研究所
 
 

語彙統計:バージョン1.0

『日本語歴史コーパス』バージョン1.0の語彙統計は以下の通りです。

作品別短単位数

※下記の表中の語数には、空白・記号・補助記号は含んでいません。

サブコーパス作品名延べ語数
平安時代編竹取物語10317
古今和歌集31288
伊勢物語13824
土佐日記6685
大和物語23090
平中物語12403
落窪物語54583
枕草子66044
源氏物語445675
和泉式部日記10891
紫式部日記17440
堤中納言物語15699
更級日記14659
讃岐典侍日記15555
合計738153

作品別長単位数

※下記の表中の語数には、空白・記号・補助記号は含んでいません。

サブコーパス作品延べ語数
平安時代編竹取物語9440
古今和歌集29300
伊勢物語13049
土佐日記6292
大和物語21155
平中物語11773
落窪物語48430
枕草子60161
源氏物語387789
和泉式部日記10060
紫式部日記14980
堤中納言物語14046
更級日記13536
讃岐典侍日記13324
合計653335

各種データ

  • 延べ語数(ジャンル・作品名・成立年・巻名等・本文種別別)
  • 延べ語数比率(品詞別)
  • 延べ語数(語種別)
  • 高頻度上位10語(作品別)
  • 語彙統計
 
 
event
unidic_bnr

日本語をはじめとする言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したものです。