中納言マニュアル:検索条件指定

検索フォームで検索

短単位検索/長単位検索における条件の指定

短単位検索/長単位検索では、キーや共起条件を記述することでコーパス内を検索することができます。

キーを指定して検索

共起条件のキーには以下のものが指定できます。

キーの種類 指定方法
書字形出現形 文字列を入力
語彙素 文字列を入力
語彙素読み 文字列を入力(全角カナのみ)
語形 文字列を入力(全角カナのみ)
品詞 大分類/中分類/小分類による選択式
活用型 大分類/中分類/小分類による選択式
活用形 大分類/小分類による選択式
書字形 文字列を入力
発音形出現形 文字列を入力(全角カナのみ)
語種 選択式
WHERE句 文字列を入力

キーは「条件の追加」ボタンを押下することで複数組み合わせて指定することができます。これにより、詳細な設定を行うことが可能です。 追加した条件の削除は btAdd_delete.gif ボタンで行えます。

form02.PNG

また、文中でのキーの出現位置を絞り込むことができます。出現位置の指定は文頭/文末からの距離で、1~10語の範囲で指定が可能です。

前方共起/後方共起

キーと結合して表示

検索結果を表示する際に、検索結果のキー欄に共起条件まで含めて表示します。

form02.PNG
画面:検索例(キーと結合して表示部分)
form030.PNG
画面:キーと結合して表示のチェックによる違いの例(短単位検索)

キーとの間にほかの共起条件を挟む場合には、挟まれる共起条件すべてでチェックが ついている場合に限り、指定が有効です。

キーの変更

前方共起/後方共起として指定されている条件をキーとして設定しなおすことができます。

共起条件のbtCondition.PNG をクリックすることでその条件がキーとなり、 前後の共起条件やキーに対する条件はもともとのキーとの語数分シフトした共起条件に移動します。 ただし、この移動によりキーからの語数が10を超える共起条件が発生する場合には、キーの移動はできません。

キーなしでの検索

原則として検索の際にキーの指定は必須ですが、例外としてキーから3語以内の共起条件、もしくはキーからの語数が指定された共起条件がある場合に、キーの条件を指定せずに検索をすることが可能です。 キーを指定しないで検索をする場合には、上の条件を満たす共起条件を設定し、キーの「キーの条件を指定しない」のチェックボックスにチェックを入れてください。

form04.PNG
画面:キーの条件を指定しない

文字列検索における条件の指定

文字列検索では短単位、長単位の区切りを意識せずに検索することができます。

form05.PNG
画面:フォーム検索画面(文字列検索)

文字列検索の際の検索条件の適用範囲は同一文中(同一sentenceタグ内)に限られます。 例えば「国語研究所」で検索した場合、「...国語 研究所... 」のようなものは検索にヒットしません。

また、検索結果に表示されるキーは検索語がマッチした部分の最後の短単位(長単位)になります。

対象文字列

検索に校訂本文を使用するか、原文を使用するかを選択します。CHJ のみ選択できます。

options018.png
画面:対象文字列

結果表示単位

検索に短単位データを使用するか、長単位データを使用するかを選択します。CSJ, 名大会話コーパスは短単位データのみのため、長単位データは選択できません。

options018.png
画面:検索単位

キー表示形式

検索結果に表示するキーを語のみにするか、検索した文字列全体にするかを選択します。

options015.png
画面:キーの表示形式

ワイルドカード

検索する文字列の指定にはワイルドカードを使用することができます。使用できるワイルドカードは下記の通りです。

ワイルドカード 説明 入力例 ヒット例
% 0個以上の文字で構成される任意の文字列 国立%所 「国立療養所」「国立国語研究所」「国立社会保障・人口問題研究所」など
_ 任意の1文字 日_友好 「日米友好」「日中友好」「日台友好」「日蘭友好」「日韓友好」など
[] 指定した範囲(たとえば[a-f])またはセット(たとえば [abcdef])内の任意の1文字 日本[人国語産] 「日本人」「日本国」「日本語」「日本産」のいずれか
[^] 指定した範囲 (たとえば [^a-f]) またはセット (たとえば [^abcdef]) 内にない任意の1文字 日本[^ぁ-ヴ] 「日本人」「日本国」「日本語」「日本産」「日本政府」「日本中」「日本銀行」など

検索条件式で検索

フォームで指定する内容と同等の内容を、条件式で記述することができます。 条件式では、フォームでは指定できない細かな条件を指定することも可能です。

中納言内部では、フォームで指定された内容を条件式に変換して検索しており、検索履歴にはこの条件式が記録されます。

条件の指定

検索条件式の記述方法の詳細は 検索条件式 を参照してください。

検索対象の指定

検索対象 画面で設定した内容との優先順位は以下のルールで決まります。

  • 条件式に 検索対象や、検索動作、ダウンロードオプションの記述があれば条件式の内容を使用します。 (画面上のフォームの設定は無視) それぞれ記述がなければ画面上のフォームの設定を使用します。
  • 例外として、WITH OPTIONS の unit で指定される検索種別(短単位検索、長単位検索、文字列検索)は、現在使用している画面と異なる種別を入力された場合にはエラーを返します。

履歴で検索

中納言では、過去に検索した履歴から再度同じ条件で検索することができます。 保存された履歴は最新の400件まで確認することができます。

history01.PNG
画面:履歴検索画面(短単位検索)

条件の指定

検索したい履歴のチェックボックスにチェックを入れ「検索」ボタンを押下します。 複数のチェックボックスにチェックを入れて検索することも可能です。

「検索」ボタンを押すと画面下部に結果が表示され、履歴には今回の検索条件式が追加されます。 「検索結果をダウンロード」ボタンの場合も、結果がCSV形式のファイルとして得られる以外は同様です。

履歴をチェックして「編集して検索」ボタンを押下すると、その条件式が入力された状態で検索条件式の検索画面に遷移します。 過去の履歴の一部分のみを編集して再度検索したい場合に便利です。 単一の履歴を編集しなおしたい場合には履歴右の「編集」を押下しても同じです。

履歴の管理

不要な履歴はチェックボックスにチェックを入れ、削除ボタンを押下することで削除することができます。 確認画面でOKを押すと削除されます。 一度削除した履歴は戻すことはできませんので、ご注意ください。

history03.PNG
画面:履歴の削除確認画面

履歴のダウンロード

「検索履歴をダウンロード」ボタンを押下することで、今までの検索履歴を全件まとめてCSV形式でダウンロードすることができます。*1 ダウンロードは、検索方法単位のほか、すべての検索履歴をまとめてダウンロードすることも可能です。

history04.PNG
画面:履歴のダウンロードボタン(短単位検索)

ダウンロードしたファイルには以下の項目がタブ区切りで格納されます。

項目名 説明
検索履歴ID 検索条件式のID
検索方法 短単位検索/長単位検索/文字列検索/位置検索 のいずれか
検索日時 検索が実行された時の、サーバ上の日時
検索条件式 検索された内容を表す検索条件式か

*1 削除した履歴は含まれません。

コーパス利用申込

「中納言」利用申込

copusmenu_title

  • 現代日本語書き言葉均衡コーパス
  • 日本語話し言葉コーパス
  • 日本語歴史コーパス
  • 近代語のコーパス
  • 国語研日本語ウェブコーパス
 
 

event

unidic_btn

wlsp_btn

chunagon_btn

chamame_btn