4.詳細な条件で検索する

 ここでは,詳細な検索条件を指定するために,次の事柄について扱います。はじめて『ひまわり』をお使いになる方は,まず,「3.検索してみよう」をご覧ください。

4.1 検索文字列の指定

 検索条件として指定できるのは,次の三つの項目です。

  • 検索対象
  • 検索文字列
  • 絞込み条件(フィルタ)

検索対象

 検索対象は,「検索文字列」欄の左のプルダウンメニューで指定します。

himawari_man_target.png

 上の例は,『太陽コーパス』(サンプル)の例ですが,次に示すように,資料のどの部分を検索対象とするかを設定することができます。

  • 本文: 「太陽」の本文(「太陽」XML の「記事」要素)を検索対象とします。
  • 本文(正規表現): 「太陽」の本文(「太陽」XML の「記事」要素)を検索対象とします。正規表現で検索文字列を指定することができます。
  • ルビ(rt)完全一致: 「太陽」のルビ(r 要素の rt 属性)を検索対象とします。検索文字列との照合は,「完全一致」で行われます。
  • ルビ(rt)部分一致: 「太陽」のルビ(r 要素の rt 属性)を検索対象とします。検索文字列との照合は,「部分一致」で行われます。

検索文字列

 検索文字列は,三つの部分から構成されており,『ひまわり』では,次の三つの欄から入力します。この三つの欄は,検索結果の「前文脈」,「キー」,「後文脈」列に対応しており,三つの欄で指定した文字列と一致するものだけが,検索結果に含まれることになります。ただし,「前文脈」,「後文脈」欄は,資料や「検索対象」メニューの選択対象によって,インターフェイスが変わる可能性があります。詳しくは,この後述べます。

 例えば,下の例では,「キー」列が「來」で,「後文脈」列が「た」で終わるものだけが検索されていることがわかります。

himawari_man_str.png
  • 検索文字列(キー):
    • この欄は,検索時に必ず指定しなければなりません。
    • 「キー」に指定できる文字列は,「來」などのように普通の文字列の他に,制限つきの文字クラスを含めることができます。「制限つきの文字クラス」とは,下の例の [国國] や [ばびぶべぼ] のように,文字の候補を列挙したものです。 [国國]語 は「国語」,もしくは,「國語」を意味します。遊[ばびぶべぼ] は,「遊ば」,「遊び」,「遊ぶ」,「遊べ」,「遊ぼ」を表します。[] は半角文字です。[] の中には,1個以上の文字を列挙することができます。
      [国國]語  遊[ばびぶべぼ]
    • ver.1.3 から,設定によっては,「キー」にも正規表現が利用できるようになりました。正規表現が利用できるかは,お使いの資料のマニュアルをごらんください。『太陽コーパス』(サンプル)では,検索対象のメニューで「本文(正規表現)」を選択すると,正規表現が利用できます。なお,『ひまわり』で使用できる正規表現は,Java の実行環境に依存します。詳細は,Java のマニュアルなどをご覧ください。
  • 前文脈,後文脈:
    • この二つの欄に対する文字列の指定は,任意です。
    • ここで指定した文字列は,検索結果の「前文脈」列と「後文脈」列の内容を制約します。
    • 欄の右側の選択メニューでは,指定した文字列の照合方法を指定することができます。照合方法には,次の五つの方法と,それぞれの否定条件を合わせて,計10通りがあります。
      • で始まる,で終る
      • と一致する,を含む
      • 正規表現

 すでに述べたように,資料によっては,「前文脈」,「後文脈」欄が,次のようなインターフェイスになっている場合があります。このようになるのは,辞書の見出しを検索する場合のように,前後の文脈を考慮しないで,見出し単独で検索する場合です。詳しい説明は,各資料のマニュアルを参照してください。

himawari_man_str2.png

 このようなインターフェイスとなっている場合,「正規表現(前)」,「キー」,「正規表現(後)」欄の文字列をこの順序で連結したものが,(正規表現での)検索文字列になります。上の例では,『分類語彙表』の「表記」(見出し)に対して,正規表現の「^国語$」で検索を行っています。なお,^ は文字列の先頭を,$ は文字列の末尾を表します。これにより,「国語」の見出しだけを検索し,「母国語」や「外国語」は検索されなくなります。

4.2 絞込み条件(フィルタ)

 「検索文字列」タブの隣の「フィルタ」タブをクリックすると,次のように,検索時のフィルタ用の欄が現れます。フィルタでは,下の例のように,検索結果を絞り込むための条件を指定することができます。

himawari_man_filter.png
  • 絞り込む対象は,各欄の左にある選択メニューで選択します。選択肢は,検索結果の列の名前と対応しています。
  • 文字列の照合方法は,各欄の右側の選択メニューで選択することができます。この部分は,前文脈,後文脈欄と同様です。

4.3 コーパスの選択

 検索対象のコーパスが複数あるときは,次のように,「コーパス」タブに複数のコーパス名が表示されます。図の左側が現在,検索対象となっているコーパスで,右側が検索対象外になっているコーパスです。

 「検索対象外」欄のコーパスを選択し,「追加」ボタンを押すと,検索対象となります。逆に,「検索対象」欄のコーパスを選択し,「除外」ボタンを押すと検索対象外になります。

himawari_man_corpus.png

4.4 検索オプション

「文脈」タブ

 ここでは,検索時に文脈に関係するオプションを設定します。

  • 前後文脈長: 検索結果に含まれる前後文脈の長さを指定します。
  • 検索範囲: 前後文脈を検索条件としたときに,絞込みの対象となる文脈の範囲を設定します。
  • キー範囲: このオプションをチェックすると,前後文脈欄で指定した文字列にマッチした文字列を検索結果の「キー」欄に含めることができます。
himawari_man_option1.png

「抽出」タブ

 このタブでは,検索条件に一致した結果の出力を制御します。

  • 全数: 一致した結果をすべて「検索結果」欄に出力します。ただし,「抽出数上限」欄で数値を指定することにより,出力数の上限を設定することができます。「抽出数上限」欄が空欄の場合は,全部の結果が「検索結果」欄に出力されます。
  • ランダム: すべての検索結果から,ランダムに検索結果を抽出します。抽出数は,「サンプル数」欄で指定します。
  • 頻度計測のみ: 検索結果を「検索結果」欄に出力しないで,検索結果の数だけ出力します。検索数が多すぎると,メモリに結果を格納できなくなり,エラーとなりますが,そのような場合に,この機能を使います。
himawari_man_extraction.png

「字体」タブ

 このタブでは,字体変換におけるオプションを設定します。字体変換機能が提供されていない資料では,表示されません。どのような字体に変換されるかは,資料ごとに異なりますので,詳しい内容については,個々の資料のマニュアルを参照してください。

himawari_man_option2.png
  • 等価字体: このオプションをチェックすると,検索対象の資料において異体字として等価的に使用される字体を変換後の字体に含めます。
  • 参考字体: このオプションをチェックすると,検索対象の資料において異体字として等価的に使用されることのない字体を変換後の字体に含めます。

 なお,標準添付される字体辞書は,常用漢字の新旧字体を記述したものです。したがって,「等価字体」「参考字体」の区別はありません。さらに,単純に異体字の関係にある字体に変換するだけであり,検索対象の資料において,「等価字体」「参考字体」の関係にあるとは限りません。



トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-01-18 (月) 00:00:00 (3563d)