全文検索システム『ひまわり』


注意:

『日本語話し言葉コーパス』(CSJ)は,第4刷から『ひまわり』用CSJパッケージを同梱して配布されています。すでに,第1〜3刷を購入されている方は,無料で差分ファイルが提供されますので,そちらもご検討下さい。詳しくは,申し込み手順のページをご覧ください。

 

1.はじめに

  • 『日本語話し言葉コーパス』(CSJ)に含まれる形態論情報を『ひまわり』で検索する方法について説明します。なお,本資料の内容を実行する場合は,自己責任でお願いいたします。
  • メモリ上の問題から,64bit版の OS の利用を前提といたします。
  • 公開中の「『日本語話し言葉コーパス』を『ひまわり』で利用する方法」とは,主に次の点で異なります。
    • CSJの全データが対象となります。
    • (上記の制限はありますが)Java が動作する OS 上で動作します。
    • 正規表現検索の設定を追加しました。

2.準備

3.ファイルのインポート

 『日本語話し言葉コーパス』のXMLデータを『ひまわり』にインポートします。以下の手順で実行して下さい。

  1. csj2himawari_2.0.zip を解凍してください。解凍すると,CSJ2Himawari フォルダが現れるはずです。
  2. CSJ データのコピー
    • 第1刷・第2刷をお持ちの方は,「修正版 XML 文書」DVD(第1刷の方)あるいは2枚目の DVD (第2刷の方)の XML フォルダー中のファイルを,CSJ2Himawariフォルダ中の src フォルダにコピーしてください。
    • 第3刷をお持ちの方は,DVDセットの2枚目のXMLフォルダーのcoreフォルダの下にあるすべてのXMLファイル,および noncoreフォルダの下にあるすべてのXMLファイルを,CSJ2Himawari 中の src フォルダの中にコピーしてください。
  3. 配置コマンドの実行
    • 複数のサブコーパスに分割するために,コピーしたXMLファイルを適切なフォルダに配置します。分割は,次の基準で行いました。
      • 形態論情報の解析方法(人手/自動)
      • 音声タイプ (例:学会講演,模擬講演など)
      • 音声タイプの詳細情報(例:学会の別,模擬講演テーマの別など)
    • 次のファイルをダブルクリックして下さい。
      setup.bat ... Windows の場合
      setup.command ... MacOS X の場合
      setup.sh ... その他の場合(bash を利用)
    • コマンドが正常に終了すると,CSJ2Himawari/CSJ フォルダの中に合計27フォルダが作成され,該当する XML ファイルが配置されます。
      • Manual ... 人手形態論情報解析分用のフォルダ
      • AutomaticA01〜A11 ... 自動形態論情報解析分のフォルダ(音声タイプAの01〜11の11フォルダ)
      • AutomaticD, M, R ... 自動形態論情報解析分のフォルダ(音声タイプD, M,R の3フォルダ)
      • AutomaticS00〜S11 ... 自動形態論情報解析分のフォルダ(音声タイプSの00〜11の12フォルダ)
  4. インポートの実行
    1. 『ひまわり』を起動してください。
      • 『ひまわり』がインストールされているフォルダに移動し,コマンドラインから次のコマンドを実行して下さい。
        java -jar himawari.jar
      • コマンドラインからの実行方法がわからない場合は,CSJ2Himawari フォルダから次のファイルを『ひまわり』フォルダにコピーし,ダブルクリックして下さい。
        himawari_exec.bat ... Windows の場合
        himawari_exec.command ... MacOS X の場合
        himawari_exec.sh ... その他の場合(bash を利用)
    2. [ファイル]→[インポート]を実行すると,ウィンドウが現れますので,「変換対象データのフォルダ」欄に CSJ2Himawari フォルダを指定してください。
    3. [インポート]ボタンを押してください。1〜2時間程度で変換が終了します。

 以上で,データのインポートは終了です。『ひまわり』での動作が確認されれば,CSJ2Himawari フォルダは削除してもかまいません。

4.使い方

 ここでは,『日本語話し言葉コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,利用者マニュアルをご覧ください。また,検索結果のデータの見方については,次のマニュアルを参照してください。なお,閲覧には,Adobe 社の Adobe Reader が必要です。Adobe 社の Web ページで無償配布しています

4.1『日本語話し言葉コーパス』を検索対象にするには

 『日本語話し言葉コーパス』用の設定ファイルは,config_csj_all.xml です。このファイルを[ファイル]→[新規]で読み込むと,『日本語話し言葉コーパス』が検索対象になります。なお,インポートした直後は,『日本語話し言葉コーパス』が検索対象になっています。

4.2 サブコーパスの選択

 コーパス選択機能を用いて,サブコーパスを選択します。ここに表示されるサブコーパスは,3節で配置したフォルダ構造と対応します。なお,サブコーパス名の略号(例:「A01」)については,『日本語話し言葉コーパス』の概観の「2.8 ファイルの命名」,および,音声収録作業の概要をご覧ください。

4.3 検索対象の詳細

 次の項目を対象として,検索することができます。利用者マニュアルの4.1 節もあわせてご覧ください。

  • 全文:
    形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される品詞などの短単位に関する情報は,検索文字列の先頭の文字列を内部に含む短単位のものです。
  • 全文(正規表現):
    形態論情報を考慮せずに,全文検索します。「全文」との相違点は,検索文字列に正規表現が使用できることです。ただし,「全文」と比較して,低速です。
  • 短単位(要素単位):
    • 短単位のレベルで検索します。
    • 例えば,上記の「全文」を選択し,「国語」を検索すると,「中国/語」のように,複数の単位にまたがる単位が検索されますが(/ は,短単位の切れ目を表す),「短単位(要素単位)」では,短単位内に限定して,文字列の照合を行います。したがって,「中国/語」のような例を排除して,検索することができます。
  • 品詞(属性):
    品詞をキーとして検索します。文字列の照合には,正規表現を使います。
  • 代表形(属性):
    代表形をキーとして検索します。文字列の照合には,正規表現を使います。
  • 節境界(属性):
    節境界情報をキーとして検索します。文字列の照合には,正規表現を使います。

4.4 転記テキストの閲覧

 検索結果をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。

  • / : 短単位の区切り
  • | : 長単位の区切り
  • $ : 節境界
  • 検索文字列は,赤色で表示されます。
  • 個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。
  • 長単位の区切り(|)にマウスカーソルを合わせると,長単位の各種属性が表示されます。
  • 節境界($)にマウスカーソルを合わせると,節境界の情報が表示されます。
 
csj_manual_sample_browse.png
 

アンケート

 よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。

所属
大学・高専等 小中高・専門学校等 研究機関 企業 個人 その他
身分
教職員 研究員 学生 その他
専門分野
日本語(国語)学 英語学 言語学 言語教育 自然言語処理・人工知能 その他(人文社会系) その他(理工系)
母国語
日本語 日本語以外
年齢
10代未満 10代 20代 30代 40代 50代 60代 70代以上
使用OS
Windows Mac Linux その他
コンピュータ使用歴
1年未満 1年以上3年未満 3年以上
ご意見・ご感想

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2014-11-12 (水) 00:00:00 (1746d)