全文検索システム『ひまわり』


注意:

『日本語話し言葉コーパス』(CSJ)は,第4刷から『ひまわり』用CSJパッケージを同梱して配布されています。すでに,第1〜3刷を購入されている方は,無料で差分ファイルが提供されますので,そちらもご検討下さい。詳しくは,申し込み手順のページをご覧ください。


1.はじめに

  • 『日本語話し言葉コーパス』(CSJ)に含まれる形態論情報を『ひまわり』で検索する方法について説明します。
  • 今回は,人手形態素解析を行った 396 講演を検索の対象とします。
  • Windows環境を想定して,説明します。なお,本資料の内容をお試しいただく場合は,自己責任でお願いいたします。

2.準備

  • CSJ第1刷をお持ちの方は「修正版 XML 文書」DVD をご用意ください。また第2刷・第3刷をお持ちの方は,2枚目のDVD(Volume2)をご用意ください。CSJ の入手方法については,『日本語話し言葉コーパス』のホームーページ をご覧ください。なお,『日本語話し言葉コーパス』サンプルデータを配布しておりますので,CSJ をまだお持ちでない方はお試しください。
  • 『ひまわり』(ver.1.3以降) をインストールしてください。
  • CSJ→ひまわり変換パッケージ(csj2himawari_1.1.1.zip)をダウンロードしてください。
    • Windows をお使いの方は,ダウンロードしたファイルを右クリックし,[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。
    • なお,本ページでは,GPL ライセンスに基づいて,このパッケージを配布しています。

3.変換手順

  1. csj2himawari_1.1.1.zip を解凍してください。解凍すると,CSJ2Himawari フォルダが現れるはずです。
  2. 解凍された CSJ2Himawari フォルダを『ひまわり』がインストールされているフォルダ(以後,『ひまわり』フォルダと表記)の中に移動してください。
  3. CSJ データのコピー
    • 第1刷・第2刷をお持ちの方は,「修正版 XML 文書」DVD(第1刷の方)あるいは2枚目の DVD (第2刷の方)の XML フォルダーを,CSJ2Himawariフォルダの中にコピーしてください。
    • 第3刷をお持ちの方は,まず, CSJ2Himawari フォルダにXMLフォルダを新規に作成してください。その上で,DVDセットの2枚目のXMLフォルダーのcoreフォルダの下にあるすべてのXMLファイル,および noncoreフォルダの下にあるすべてのXMLファイルを,CSJ2Himawariに新規に作成したXMLフォルダの中にコピーしてください。
  4. 変換の実行
    • CSJ2Himawari フォルダに含まれる xml2him.bat をダブルクリックしてください。CSJ 形式の XML ファイルを『ひまわり』形式の XML ファイルへの変換処理が開始します。この処理には,15分程度(CPU: Intel Core2 Duo 2.4MHz, Memory: 4GB, WindowsVista の場合)かかります。なお,処理の途中で,警告(例:Warning: at xsl:stylesheet on line 11 column 80 of cat.xsl など)がでますが,問題ありません。
    • 変換が終了すると,コマンドプロンプトのウィンドウ(黒い画面のウィンドウ)に「変換が終了しました。」と表示されます。
    • 変換が終了したら,『ひまわり』フォルダの中の Corpora/CSJ/Manual フォルダに, corpus.xml が作成されていることを確認してください。約190MBです。
    • さらに,『ひまわり』フォルダに,config_csj_manual.xml があるか確認してください。このファイルは,xmh2him.bat を実行したときに,コピーされます。
    • コマンドプロンプトのウィンドウで,何か,キーを押すと,『ひまわり』が起動しますので,4章の「索引付け」に進んでください。

4.索引付け

 次に,作成した corpus.xml に対して,「索引付け」を行います。「索引付け」は,高速に全文検索するために必要な処理です。

 索引付けの手順は,次のとおりです。

  1. 『ひまわり』が起動していることを確認してください。
  2. [ファイル]→[新規] で,『ひまわり』フォルダ中にある config_csj_manual.xml を読み込んでください。CSJ2Himawari フォルダの中の config_csj_manual.xml ではないことに注意してください。
  3. [ツール]→[インデックス生成]を実行してください。この処理には,20分程度かかります。
  4. 「インデックス生成が終了しました。」と表示されれば,索引付けは終了です。
    なお,なんらかの理由で,インデックス生成を再度行うときは,『ひまわり』フォルダの中の Corpora/CSJ/Manual フォルダに含まれる索引ファイル(拡張子が,.cix, .eix, .aix のファイル)をすべて削除してください。

 以上で,検索用データ作成は終了です。CSJ2Himawari フォルダは削除してもかまいません。

5.使い方

 ここでは,『日本語話し言葉コーパス』サンプルデータに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,利用者マニュアルをご覧ください。また,検索結果のデータの見方については,次のマニュアルを参照してください。なお,閲覧には,Adobe 社の Adobe Reader が必要です。Adobe 社の Web ページで無償配布しています

5.1『日本語話し言葉コーパス』サンプルデータを検索対象にするには

 インストールしたデータを検索対象とするには,『ひまわり』を起動し,[ファイル]→[新規]で config_csj_manual.xml を読み込んでください。

5.2 検索対象の詳細

 次の項目を対象として,検索することができます。利用者マニュアルの4.1 節もあわせてご覧ください。

  • 全文:
    形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される品詞などの短単位に関する情報は,検索文字列の先頭の文字列を内部に含む短単位のものです。
  • 短単位(要素単位):
    • 短単位のレベルで検索します。
    • 例えば,上記の「全文」を選択し,「国語」を検索すると,「中国/語」のように,複数の単位にまたがる単位が検索されますが(/ は,短単位の切れ目を表す),「短単位(要素単位)」では,短単位内に限定して,文字列の照合を行います。したがって,「中国/語」のような例を排除して,検索することができます。
  • 品詞(属性):
    品詞をキーとして検索します。文字列の照合には,正規表現を使います。
  • 代表形(属性):
    代表形をキーとして検索します。文字列の照合には,正規表現を使います。
  • 節境界(属性):
    節境界情報をキーとして検索します。文字列の照合には,正規表現を使います。

5.3 転記テキストの閲覧

 検索結果をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。

  • / : 短単位の区切り
  • | : 長単位の区切り
  • $ : 節境界
  • 検索文字列は,赤色で表示されます。
  • 個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。
  • 長単位の区切り(|)にマウスカーソルを合わせると,長単位の各種属性が表示されます。
  • 節境界($)にマウスカーソルを合わせると,節境界の情報が表示されます。
 
csj_manual_sample_browse.png

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-12-07 (水) 00:00:00 (2875d)