全文検索システム『ひまわり』/利用者マニュアル/1_3/４．詳細な検索を行う

国語研究所の施設整備に伴い，関連のサービスを次の期間，停止します。

期間：2024年4月27日（土）9:00～2024年4月29日（月・祝）17:30
対象：Web用例データベース（複合動詞，サ変動詞，形容詞）・『ひまわり』＆関連資料（ダウンロードもできません），FishWatchr & FishWatchr Miniなど

４．詳細な条件で検索する†

　ここでは，詳細な検索条件を指定するために，次の事柄について扱います。はじめて『ひまわり』をお使いになる方は，まず，「３．検索してみよう」をご覧ください。

検索文字列の指定
フィルタ（絞込み検索）
コーパスの選択
検索オプション

↑

4.1 検索文字列の指定†

　検索条件として指定できるのは，次の三つの項目です。

検索対象
検索文字列
絞込み条件(フィルタ)

↑

検索対象†

　検索対象は，「検索文字列」欄の左のプルダウンメニューで指定します。

　上の例は，『太陽コーパス』（サンプル）の例ですが，次に示すように，資料のどの部分を検索対象とするかを設定することができます。

本文：「太陽」の本文(「太陽」XML の「記事」要素)を検索対象とします。
本文（正規表現）：「太陽」の本文(「太陽」XML の「記事」要素)を検索対象とします。正規表現で検索文字列を指定することができます。
ルビ(rt)完全一致：「太陽」のルビ(r 要素の rt 属性)を検索対象とします。検索文字列との照合は，「完全一致」で行われます。
ルビ(rt)部分一致：「太陽」のルビ(r 要素の rt 属性)を検索対象とします。検索文字列との照合は，「部分一致」で行われます。

↑

検索文字列†

　検索文字列は，三つの部分から構成されており，『ひまわり』では，次の三つの欄から入力します。この三つの欄は，検索結果の「前文脈」，「キー」，「後文脈」列に対応しており，三つの欄で指定した文字列と一致するものだけが，検索結果に含まれることになります。ただし，「前文脈」，「後文脈」欄は，資料や「検索対象」メニューの選択対象によって，インターフェイスが変わる可能性があります。詳しくは，この後述べます。

　例えば，下の例では，「キー」列が「來」で，「後文脈」列が「た」で終わるものだけが検索されていることがわかります。

検索文字列（キー）：
- この欄は，検索時に必ず指定しなければなりません。
- 「キー」に指定できる文字列は，「來」などのように普通の文字列の他に，制限つきの文字クラスを含めることができます。「制限つきの文字クラス」とは，下の例の [国國] や [ばびぶべぼ] のように，文字の候補を列挙したものです。 [国國]語 は「国語」，もしくは，「國語」を意味します。遊[ばびぶべぼ] は，「遊ば」，「遊び」，「遊ぶ」，「遊べ」，「遊ぼ」を表します。[] は半角文字です。[] の中には，1個以上の文字を列挙することができます。
```
[国國]語　　遊[ばびぶべぼ]
```
- ver.1.3 から，設定によっては，「キー」にも正規表現が利用できるようになりました。正規表現が利用できるかは，お使いの資料のマニュアルをごらんください。『太陽コーパス』（サンプル）では，検索対象のメニューで「本文（正規表現）」を選択すると，正規表現が利用できます。なお，『ひまわり』で使用できる正規表現は，Java の実行環境に依存します。詳細は，Java のマニュアルなどをご覧ください。
前文脈，後文脈：
- この二つの欄に対する文字列の指定は，任意です。
- ここで指定した文字列は，検索結果の「前文脈」列と「後文脈」列の内容を制約します。
- 欄の右側の選択メニューでは，指定した文字列の照合方法を指定することができます。照合方法には，次の五つの方法と，それぞれの否定条件を合わせて，計10通りがあります。
  - で始まる，で終る
  - と一致する，を含む
  - 正規表現

　すでに述べたように，資料によっては，「前文脈」，「後文脈」欄が，次のようなインターフェイスになっている場合があります。このようになるのは，辞書の見出しを検索する場合のように，前後の文脈を考慮しないで，見出し単独で検索する場合です。詳しい説明は，各資料のマニュアルを参照してください。

　このようなインターフェイスとなっている場合，「正規表現（前）」，「キー」，「正規表現（後）」欄の文字列をこの順序で連結したものが，（正規表現での）検索文字列になります。上の例では，『分類語彙表』の「表記」（見出し）に対して，正規表現の「^国語$」で検索を行っています。なお，^ は文字列の先頭を，$ は文字列の末尾を表します。これにより，「国語」の見出しだけを検索し，「母国語」や「外国語」は検索されなくなります。

↑

4.2 絞込み条件(フィルタ)†

　「検索文字列」タブの隣の「フィルタ」タブをクリックすると，次のように，検索時のフィルタ用の欄が現れます。フィルタでは，下の例のように，検索結果を絞り込むための条件を指定することができます。

絞り込む対象は，各欄の左にある選択メニューで選択します。選択肢は，検索結果の列の名前と対応しています。
文字列の照合方法は，各欄の右側の選択メニューで選択することができます。この部分は，前文脈，後文脈欄と同様です。

↑

4.3 コーパスの選択†

　検索対象のコーパスが複数あるときは，次のように，「コーパス」タブに複数のコーパス名が表示されます。図の左側が現在，検索対象となっているコーパスで，右側が検索対象外になっているコーパスです。

　「検索対象外」欄のコーパスを選択し，「追加」ボタンを押すと，検索対象となります。逆に，「検索対象」欄のコーパスを選択し，「除外」ボタンを押すと検索対象外になります。

↑

4.4 検索オプション†

↑

「文脈」タブ†

　ここでは，検索時に文脈に関係するオプションを設定します。

前後文脈長: 検索結果に含まれる前後文脈の長さを指定します。
検索範囲: 前後文脈を検索条件としたときに，絞込みの対象となる文脈の範囲を設定します。
キー範囲: このオプションをチェックすると，前後文脈欄で指定した文字列にマッチした文字列を検索結果の「キー」欄に含めることができます。

↑

「抽出」タブ†

　このタブでは，検索条件に一致した結果の出力を制御します。

全数： 一致した結果をすべて「検索結果」欄に出力します。ただし，「抽出数上限」欄で数値を指定することにより，出力数の上限を設定することができます。「抽出数上限」欄が空欄の場合は，全部の結果が「検索結果」欄に出力されます。
ランダム： すべての検索結果から，ランダムに検索結果を抽出します。抽出数は，「サンプル数」欄で指定します。
頻度計測のみ： 検索結果を「検索結果」欄に出力しないで，検索結果の数だけ出力します。検索数が多すぎると，メモリに結果を格納できなくなり，エラーとなりますが，そのような場合に，この機能を使います。