Edge, Chrome, Safari, Firefox推奨
UniDicのロゴ コーパス開発センターのロゴ
UniDicとは? (2019年現在)

UniDicとは、国立国語研究所の規定した斉一(せいいつ)な言語単位(短単位)と、 階層的見出し構造に基づく電子化辞書の

① 設計方針

および、その実装としてのリレーショナルデータベース

② UniDicデータベース

と、そのデータベースからエクスポートされた短単位をエントリ(見出し語)とする、形態素解析器MeCab用の解析用辞書

③ 解析用UniDic

の総称です。

本サイトでは 解析用UniDic を公開・配布しています。

解析用UniDicは短単位をMeCab辞書のエントリとしているため、 UniDicを使った形態素解析は「短単位(自動)解析」とも呼ばれます。

UniDicの概略
UniDicの目的
UniDicデータベースの目的

UniDicの第一の目的は、国語研で構築しているコーパスアノテーションを支援することです。

国語研所内にあるUniDicデータベースは、同じく所内のコーパスのデータベースと参照関係にあり、 完成したコーパスデータベース中の短単位は、

  • UniDicデータベースに登録されており、
  • UniDicデータベース中の一意のエントリを参照する(リンク付けられている)状態になっています。
UniDicDBとコーパスDBの関係

こうしたコーパスと辞書を統合したシステム運営の利点として、以下の2点が挙げられます。

  1. コーパスへの短単位情報アノテーションの際、作業は、 「コーパスに出現した各短単位がUniDicデータベースのどのエントリであるかを選択していけばいいだけ」なので、 コーパス中の異なる位置に出現した同一の短単位に対して、活用など、一部の情報を異なって付与してしまうミスを防ぎ、 コーパス中に不整合が生じる可能性を少なくできる。
  2. 現時点のUniDicデータベースに存在しない情報・属性(項目)が、新たにUniDicデータベースへ追加された場合でも、 データベース間のリンクでコーパスへの反映(新項目の追加)は瞬時に行える。

またコーパスデータベースとの参照関係の最大の利点は、UniDicデータベースの1エントリからコーパス中の膨大な用例を一度に引き出せる 用例索引の能力にあります。 下図に示す『UniDicExplorer』というUniDicデータベース用の操作ツールを使うと、 データベース中の短単位エントリを指定して用例列挙のボタンを押すだけで、 そのエントリに対応する用例を、コーパスデータベースから、 語彙素・語形・書字形の段階ごとに一覧して取得する事ができます。

UniDicExplolerでの用例検索

残念ながら現在、研究所外部のユーザに対して、 UniDicExplorerを使った所内コーパスデータベースへの直接アクセスサービスは提供していません。 しかし公開済みのコーパスならば、コーパス検索システム『中納言』を使うことで、 共起や連接の指定など、より柔軟かつ簡単な用例検索を行うことができます。

中納言での用例検索

またUniDicDBではありませんが、解析用UniDic内蔵の語彙ファイル(lex.csv)を検索するサービスとしてCradleExpressがあります(2019年11月現在、unidic-cwj-2.3.0のlex.csvを検索可能)。

CradleExpress検索画面
CradleExpress検索結果画面
解析用UniDicの目的

上述の通り、UniDicの第一の目的は国語研で構築するコーパスアノテーションを促進することです。 解析用UniDicも元々は『日本語話し言葉コーパス(CSJ)』の (i) 短単位自動アノテーションデータ(非コアデータ)を作成するために 構築されたのが始まりです。 『現代日本語書き言葉均衡コーパス(BCCWJ)』構築時からは 「解析用辞書を使った短単位自動解析の結果を人手修正していく」 という作業方針が採られるようになり、 現在では (ii)人手アノテーション作業のコスト削減ツールとしても利用されています。

本サイトで公開している解析用UniDicも、上記2つの用途 (i、ii)を意図しています。 下の参考文献「解析器用UniDicに関する論文」中に記載の解析性能も、 自動アノテーションで作ったコーパスの精度および、解析用UniDicのユーザが同様のコーパスを作ろうとしたときの 参考値(=どのくらい同じようなものが再現できるかの度合い)として掲載されています。

また短単位は、漏れの少ない 用例検索を重視した設計(単位の長さ、可能性に基づく品詞体系語源主義に基づく脱文脈化) となっているため、自然言語処理分野の統語解析や意味解析に向いていません。

統語解析には、構文機能に着目し、文節からトップダウンに認定する長単位の使用を推奨しています。

反面、用例検索に向けた斉一な単位であるため、文脈の有無や、文脈の違いによらず、一貫した自動解析を実現でき、 検索エンジンのような情報検索システム上で有効性があるとの報告もあります[高橋+, 16]。

UniDicを使った所外Webサービス/成果物(2021/07 現在)
名称URL参考URL
Bing https://www.bing.com/ https://help.bing.microsoft.com/apex/index/18/ja/10018
形態素解析ウェブアプリUniDic-MeCab(複合名詞判定,サ変動詞判定ver付き) http://www4414uj.sakura.ne.jp/Yasanichi1/unicheck/ http://www4414uj.sakura.ne.jp/Tools_unicheck.html
形態素解析ウェブアプリUniDic-MeCab中学校教科書まとめ表現登録版 http://www4414uj.sakura.ne.jp/Yasanichi1/sumex/ http://www4414uj.sakura.ne.jp/Tools_sumex.html
Sudachi https://github.com/WorksApplications/Sudachi
mecab-unidic-NEologd https://github.com/neologd/mecab-unidic-neologd
UniDic Lite https://pypi.org/project/unidic-lite/
UniDic2UD https://pypi.org/project/unidic2ud/
konoha https://github.com/himkt/konoha/ https://github.com/himkt/konoha/releases/tag/v4.6.5
参考文献
UniDicの設計と実装全体に関係する文献
UniDicデータベースに関する文献
UniDicデータベースからのエクスポートに関係する文献
解析用UniDicに関係する文献
UniDicを使った日本語研究のケーススタディ
情報検索への応用例