全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2015-06-01
 

1.はじめに

 『日本語話し言葉コーパス』(CSJ)は,第4刷から『ひまわり』用CSJパッケージを同梱して配布されています。本ページでは,『ひまわり』用CSJパッケージの利用方法を説明します。本パッケージの特徴は,次のとおりです。

  • 全転記テキストの全文検索
  • 形態素解析結果(短単位,長単位)を利用した検索,形態素解析結果の表示
  • 検索結果から転記テキスト全体の表示
  • 検索結果から音声データの再生

注意: すでに,第1〜3刷を購入されている方は,無料で差分ファイルが提供されますので,入手をご検討下さい。詳しくは,申し込み手順のページをご覧ください。また,これまで『ひまわり』にインポートする方法を提供していましたが,第4刷同梱のパッケージよりも機能は劣るため,現在サポートを停止しています

2.インストール

  1. CSJの USB メモリを用意して下さい。
  2. TOOL フォルダの中にある Himawari フォルダを使いやすい場所にコピーして下さい。
  3. (任意) 音声データの再生機能(3.7節参照)を利用する場合
    1. 次のフォルダに含まれる wav ファイルを Himawari/Corpora/CSJ/soundfiles フォルダにコピーして下さい。
      • SPEECH/core
      • SPEECH/noncore
    2. VLC media player をインストールして下さい。
  4. 以上でインストールは終了です。
  5. (注意・お願い) CSJ第4刷のパッケージに収録されている『ひまわり』(ver.1.5.1)には不具合がありました。以下のとおり,更新をお願いします。第5刷では修正されています。
    1. 『ひまわり』(ver.1.5系列)の最新版をダウンロードし,解凍して下さい。
    2. 解凍したフォルダの中から,次のファイルを探し,(CSJ用の『ひまわり』の)インストール先の Himawari フォルダに上書きコピーして下さい。
      • himawari.exe
      • himawari_debug.exe
      • himawari.jar

3.使用方法

3.1 準備

 ここでは,『日本語話し言葉コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,利用者マニュアルをご覧ください。また,検索結果のデータの見方については,次のマニュアルを参照してください。なお,閲覧には,Adobe 社の Adobe Reader が必要です。Adobe 社の Web ページで無償配布しています。

3.2 『ひまわり』の起動

 マニュアル(2.3節)を参照して,『ひまわり』を起動して下さい。

 『ひまわり』を起動すると,すぐに『日本語話し言葉コーパス』が検索対象となります。

 『日本語話し言葉コーパス』用の設定ファイルは,config.xml (config_csj_all.xml と同一) です。このファイルを[ファイル]→[新規]で読み込むと,『日本語話し言葉コーパス』が検索対象になります。

3.3 サブコーパスの選択

 コーパス選択機能を用いて,サブコーパスを選択します。なお,サブコーパス名の略号(例:「A01」)については,『日本語話し言葉コーパス』の概観の「2.8 ファイルの命名」,および,音声収録作業の概要をご覧ください。

3.4 検索対象の詳細

検索対象

 次の項目を対象として,検索することができます。利用者マニュアルの4.1 節もあわせてご覧ください。

全文

  • 形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される,品詞などの短単位・長単位に関する情報は,検索文字列の先頭の文字列を内部に含む単位のものです。
  • 検索例
    • 検索例1a:「国語」で全文検索します。
    • 検索例1b:「国語」で全文検索し,その後文脈が「の」で始まる場合にマッチします。
検索例1a検索例1b
full_text_simple.pngfull_text_fc.png

出現形(短単位),出現形(長単位)

  • 短単位,長単位の出現形で検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例2a:出現形(長単位)に「国語」を含む場合にマッチします。
    • 検索例2b:出現形(長単位)が「国語」の場合にマッチします。
    • 検索例2c:出現形(長単位)が「国語」を含み,その末尾が「所」の場合にマッチします。
検索例2a検索例2b検索例2c
search_example1.pngsearch_example2.pngsearch_example3.png

品詞(短単位),品詞(長単位)

  • 品詞をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例3a:出現形(短単位)に「名詞」を含む場合にマッチします(「代名詞」にもマッチします)。
    • 検索例3b:出現形(短単位)が「名詞」の場合にマッチします。
検索例3a検索例3b
pos_simple.pngpos_pf.png

代表形(短単位),代表形(長単位)

  • 代表形をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例4a:代表形(長単位)に「タベル」を含む場合にマッチします。
    • 検索例4b:代表形(長単位)が「ゼン」で始まる場合にマッチします。
    • 検索例4c:代表形(長単位)が「ゴ」で終わる場合にマッチします。
検索例4a検索例4b検索例4c
daihyo_simple.pngdaihyo_p.pngdaihyo_pf.png

節境界

  • 節境界情報をキーとして検索します。文字列の照合には,正規表現を使うことができます。
  • 当該の節境界情報を持つ短単位が検索されます。
  • 検索例
    • 検索例5a:節境界が「文末」の場合にマッチします。
    • 検索例5b:節境界が「並列節」を含む場合にマッチします。
検索例5a検索例5b
setu_simple.pngsetu_pf.png

3.5 検索結果

 検索結果には,次の情報が含まれます。「短単位・長単位データマニュアル」の3.2節も合わせて参照して下さい。

列名備考
前文脈
出現形(検索文字列)
後文脈
代表表記短単位の情報

「活用型」「その他1」〜「その他3」は,短単位・長単位データマニュアル」の「活用の種類」,「その他の情報1」〜「その他の情報3」に対応
代表形
品詞
活用形
活用型
その他1
その他2
その他3
発音形
代表表記(長)長単位の情報
代表形(長)
品詞(長)
活用形(長)
活用型(長)
その他1(長)
その他2(長)
その他3(長)
出現形(後)後続する短単位の情報
代表表記(後)
代表形(後)
その他1(後)
出現形(前)前接する短単位の情報
代表表記(前)
代表形(前)
その他1(前)
講演ID当該の転記基本単位の情報
開始時間
終了時間
コア当該の転記テキストがコアに含まれるか否かを表すフラグ
T: 含む場合T,F:含まない場合

3.6 転記テキストの閲覧

 検索結果(「品詞」「活用形」欄を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。

  • / : 短単位の区切り
  • | : 長単位の区切り
  • $ : 節境界
  • 検索文字列は,赤色で表示されます。
  • 個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。
  • 長単位の区切り(|)にマウスカーソルを合わせると,長単位の各種属性が表示されます。
  • 節境界($)にマウスカーソルを合わせると,節境界の情報が表示されます。
 
csj_manual_sample_browse.png
 

3.7 音声データの再生

 インストール時に音声データを『ひまわり』のフォルダにコピーしている場合,検索結果をダブルクリック(下記参照)すると,当該の検索文字列を含んだ転記単位の音声データを再生することができます。

  • Windows の場合: 「品詞」欄
  • Mac の場合: 「活用形」欄
  • Linux の場合: 「品詞」欄
    • ただし,Linux の場合は,設定ファイル(config.xml,または,config_csj_all.xml)を次のように一部修正する必要があります。
      1. "<access_command1" で始まる行を削除して下さい。
      2. "<access_command3" で始まる行を探し,"<access_command1" として下さい。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-06-08 (水) 00:00:00 (1172d)