KOTONOHA:国語研究所のコーパス開発計画

国立国語研究所では、1948年の創立以来、現代日本語の実態を科学的に明らかにするための大規模な調査研究を実施してきました。

現在はそのために日本語データベースの長期整備計画である「KOTONOHA」計画(以下、KOTONOHA)を立案し、書き言葉と話し言葉の両方について、平安時代から現代にいたる日本語のデータを幅広く蓄積することに取り組んでいます。KOTONOHAは日本語の全体像を把握するための一連のコーパスの総称であり、複数のコーパスから構成されています。

以下の図はKOTONOHAの全体像を示しています。
横軸は時間軸で、平安から現代までを示しています。縦軸は言葉のジャンルを示しており、上が書き言葉、下が話し言葉に該当します。

KOTONOHAは図中の全領域を対象としますが、全体を単一のコーパスとして一気に実現することはできませんので、いくつかのまとまりごとに要素となるコーパスを構築することによって、段階的に整備を進めています。

KOTONOHA

中ほどの「近代雑誌」(太陽・女性雑誌・明六雑誌)の三つのコーパス、右の「CSJ(日本語話し言葉コーパス)」、「BCCWJ(現代日本語書き言葉均衡コーパス)」、「国語研日本語ウェブコーパス(旧名称:超大規模コーパス)」は、すでに構築を完了し、一般に公開しています。現在は、「日本語歴史コーパス(CHJ)」の構築を進めています。

これらすべてのコーパスが完成しても、上の図にはまだ多くの空白部分が残されています。例えば、1925年までをカバーしている太陽コーパスと現代日本語書き言葉均衡コーパスとの間には50年以上の空白期間があります。またCSJは主にモノローグを対象としていますので、現代の話し言葉のうち、対話や雑談についても空白があります。

これらの空白を埋めていくことは、大切な課題です。また、書き言葉均衡コーパスも将来にわたって定期的に拡張していく必要があります。今後も従来にない規模と品質の日本語コーパスを一般に提供していきます。

 

リンク Links