まとめて検索『KOTONOHA』マニュアル(応用編:検索対象を設定する)

KOTONOHAにデフォルトで実装されている検索対象は、 「コーパス毎」「書き言葉・話し言葉」「時代」の3種類でした。
ここではまず、これらの3つの検索対象が、それぞれどのコーパスを検索に使っており、その中でどのようにカテゴリ分けしているのか確認する方法を説明します。

検索対象を確認する

検索対象内で使用されているコーパスと、 それらの属するカテゴリ(「書き言葉」「話し言葉」のようなグループ。棒グラフ表示における「棒1本」に当たるまとまり)を 確認する方法は非常に簡単です。
検索対象の下部、 「検索対象を設定する」ボタンを押すと、下のような「検索対象を設定」ポップアップが現れます。

adv_1

adv_2

例えば検索対象「書き言葉・話し言葉」の右にある「表示する」ボタンを押します。
すると下のような表が現れ、「コーパス」列にこの検索で使用するコーパスが一覧されます。 そしてその左の「カテゴリ」列でそれぞれのコーパスがどのカテゴリに属しているかを確認できます。

adv_3

ここでは、

カテゴリ:書き言葉
 ・BCCWJ
 ・NWJC

カテゴリ:話し言葉
 ・CSJ
 ・CEJC
 ・NUCC
 ・職場コーパス

となっていることがわかります。

また学習者の書き言葉・話し言葉はいずれもI-JASを使っていますが、 I-JAS内部の区分でさらに細かく検索に使う個所が指定されており、 その設定の解説が「説明」列に記載されています。



検索対象「コーパス毎」では名前の通り、 各コーパスがそのままカテゴリとして設定されています。

adv_4




検索対象「時代」を見ると、 検索に使用するコーパスはCHJとBCCWJのみですが、CHJの内部を時代ごとに区分しカテゴリ化を行っています。

adv_5


検索対象をカスタマイズする

「検索対象を設定する」ポップアップの中では、ユーザ自身が「まとめて検索」したいコーパスやその下位区分を任意に選択してカテゴリ化でき、 そのカテゴリを使って検索を実行することができます。

ケーススタディ1では、CSJに模擬講演・学会講演のデータが含まれているため、検索対象「書き言葉・話し言葉」のカテゴリ「話し言葉」でも 「で|ある」が多く現れる結果になりました。
そこで、ここではカテゴリ「話し言葉」からCSJを取り除いた「話し言葉(w/o CSJ)」という新しいカテゴリを持った 新しい検索対象「書き言葉・話し言葉(w/o CSJ)」を作成してみます。

まず、「検索対象を設定」ポップアップで「新規作成する」を選びます。

adv_6


「検索対象の編集」ポップアップが表示されるので、「カテゴリを追加する」を押します。

adv_7


「カテゴリ名」を「書き言葉」とし、「現代日本語書き言葉均衡コーパス」と「国語研日本語ウェブコーパス」にチェックを入れ、最後に右下の「保存する」を押します。

adv_8


同様に「カテゴリを追加する」で、今度は「カテゴリ名」を「話し言葉(w/o CSJ)」として、 「日本語日常会話コーパス」「名大会話コーパス」「現日研・職場談話コーパス」にチェックを入れ、保存します。

adv_9


CSJにはチェックを入れていないので、当然この新しい「話し言葉」カテゴリにCSJは含まれません。
「日本語話し言葉コーパス」の下の「詳細を設定する」ボタンを押せば、 下図のようにさらに細かい区分で使用する・しないを設定できますが、 ここでは単純にCSJ(日本語話し言葉コーパス)を丸ごと使わないことにしました。

adv_10


これで「書き言葉」と「話し言葉(w/o CSJ)」の2つのカテゴリが用意できたので、「検索対象名」を「書き言葉・話し言葉(w/o CSJ)」として「保存する」を押します。
あとから各カテゴリの中身を編集したくなった場合は、各カテゴリの一番上の行右側の「編集する」を押せば、「カテゴリの編集」に戻れます。 またその隣の「削除する」で、当該カテゴリを削除します。

adv_11


保存した検索対象 「書き言葉・話し言葉(w/o CSJ)」が既存の3つの検索対象の 下に新たに追加されました。

adv_12


またポップアップ右上「×」で閉じてみると検索対象ラジオボタンにも 「書き言葉・話し言葉(w/o CSJ)」が追加されています。

adv_13




作成した検索対象「書き言葉・話し言葉(w/o CSJ)」を使って、 さっそくケーススタディ1の「で|ある」検索を行なってみます。

adv_14




結果は次のようになりました。

adv_15

adv_16

adv_17

CSJを話し言葉のカテゴリから取り除くと、「で|ある」は圧倒的に書き言葉で出現していることが確認できました。



< 検索結果の見かた

 

リンク Links