中納言マニュアル:検索方法

検索方法の選択

検索画面の上部にあるタブにより、検索方法を切り替えることができます。 検索方法を変更すると、検索条件の入力部分が切り替わります。

画面:検索方法の選択

検索方法の詳細

検索方法として、三種類の検索方法があります。各ページを参照してください

  • 短単位検索/長単位検索
    単位ごとに区切ったデータを使い、品詞や語彙素など、様々な条件を指定して検索することができます。
  • 文字列検索
    検索したい文字列を指定することで、単位の境界を意識せずに文字列を検索することができます。
  • 位置検索
    コーパスに対する一意の情報を指定することによって、指定位置の文を検索することができます。

各検索方法では検索条件の指定方法として、フォームでの検索のほか、検索条件式での検索、履歴からの検索を行うことができます。 検索条件の指定の記述方法は以下を参照してください。

検索条件の指定方法

短単位検索/長単位検索

短単位検索/長単位検索では単位ごとに区切ったデータを使い、文字列だけではなく品詞や語彙素など、様々な条件を指定して検索することができます。

キーを指定して検索

検索したい言葉の情報をキーとして指定します。 キーとして使用できる情報は以下の通りです。

キーの種類 指定方法
書字形出現形 文字列を入力
語彙素 文字列を入力
語彙素読み 文字列を入力(全角カナのみ)
語形 文字列を入力(全角カナのみ)
品詞 大分類/中分類/小分類による選択式
活用型 大分類/中分類/小分類による選択式
活用形 大分類/小分類による選択式
書字形 文字列を入力
発音形出現形 文字列を入力(全角カナのみ)
語種 選択式
WHERE句 文字列を入力

他にも、文中でのキーの出現位置を絞り込むことができます。出現位置の指定は 文頭/文末 から ○語/○語以内 という形式です。

また、原則としてキーの指定は必須ですが、共起条件を指定によってはキーなしでの検索も可能です。

前方共起/後方共起を指定して検索

キーと組み合わせて、共起条件を指定することができます。 共起条件は、キーと前方共起/後方共起を合わせて10個までとなります。

指定できる内容はキーとほぼ同じで、出現位置の指定が前方共起では 文頭/キー から、後方共起では キー/文末 からとなっているところのみが異なります。

文字列検索

文字列検索では検索したい文字列を指定することで、単位の境界を意識せずに文字列を検索することができます。

したがって、短単位の区切りが分からない場合に、まずは文字列検索によって短単位の区切りを調べ、 次に行う短単位検索での語の検索条件指定を行いやすくする、といった短単位検索の補助的な使い方をすることもできます。

ワイルドカード

検索する文字列の指定にはワイルドカードを使用することもできます。使用できるワイルドカードは下記の通りです。

ワイルドカード 説明 入力例 ヒット例
表:使用できるワイルドカード
% 0個以上の文字で構成される任意の文字列 国立%所 「国立療養所」「国立国語研究所」「国立社会保障・人口問題研究所」など
_ 任意の1文字 日_友好 「日米友好」「日中友好」「日台友好」「日蘭友好」「日韓友好」など
[] 指定した範囲(たとえば[a-f])またはセット(たとえば [abcdef])内の任意の1文字 日本[人国語産] 「日本人」「日本国」「日本語」「日本産」のいずれか
[^] 指定した範囲 (たとえば [^a-f]) またはセット (たとえば [^abcdef]) 内にない任意の1文字 日本[^ぁ-ヴ] 「日本人」「日本国」「日本語」「日本産」「日本政府」「日本中」「日本銀行」など

なお、文字列検索の際の検索条件の適用範囲は同一文中(同一sentenceタグ内)に限られます。例えば「国語研究所」で検索した場合、「...国語 研究所... 」のようなものは検索にヒットしません。 また、検索結果に表示されるキーは検索語がマッチした部分の最後の短単位(長単位)になります。

位置検索

位置検索では、コーパスに対する一意の情報を指定することで、検索することができます。 指定する一意の情報は、BCCWJ, CHJ ではサンプル ID と開始位置、CSJ では講演 ID と開始位置、名大会話コーパスでは会話 ID と開始位置です。

他の検索方法の検索結果の内、特定の結果を後日再度表示したい場合に有用です。

コーパス利用申込

「中納言」利用申込

copusmenu_title

  • 現代日本語書き言葉均衡コーパス
  • 日本語話し言葉コーパス
  • 日本語歴史コーパス
  • 近代語のコーパス
  • 国語研日本語ウェブコーパス
 
 

event

unidic_btn

wlsp_btn

chunagon_btn

chamame_btn