全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2018-12-14
 

お知らせ


目次

 

1.はじめに

 『日本語日常会話コーパス』モニター公開版(以後,CEJC)の配布ハードディスクには,全文検索システム『ひまわり』を用いた検索環境(以後,「CEJCパッケージ」)が同梱されています。このページでは,CEJCパッケージの利用方法を説明します。特徴は,次のとおりです。

  • 全転記テキストの全文検索
  • 形態素解析結果(短単位)を利用した検索,形態素解析結果の表示
  • 検索結果からの転記テキスト全体の表示
  • 検索結果からの動画ファイルの再生(FishWatchrを利用,アノテーションも可)
  • CEJCに同梱されるメタデータ(会話情報,話者情報)の閲覧

 なお,CEJCパッケージは,配布ハードディスクに同梱される各種コーパスファイル,メタデータを『ひまわり』,FishWatchrにインポートする形で構築しています。構築時は,基本的にオリジナルのデータに変更を加えることなく利用していますが,それぞれの発話末に発話区切りを表す「語」(長さ0,品詞:himawari_発話末)を追加しています。長さ0なので本文には影響を与えず,また,全文検索にも影響を与えませんが,語数などを計測する際は,注意して下さい。

 
全文検索『ひまわり』での転記テキストの検索観察支援システムFishWatchrによる動画ファイルの再生
cejc_himawari.pngcejc_fw.png
 

2.動作環境

 CEJCパッケージは,次の環境で動作します。

  • Windows (Windows7以降)
  • macOS (Webブラウザは,ChromeもしくはFirefoxを推奨)
  • その他(Java および VLCが動作する環境)

3.準備

3.1 使用機器の準備

  • 配布されたCEJCのハードディスクを利用する場合
    • ハードディスクをPCに接続する以外,機器の設定は必要ありません。
  • PC内臓のハードディスクなど,別のディスクを利用したい場合
    • 配布ハードディスクの内容をすべてコピーして利用して下さい。
    • コピー時には,フォルダの構成は変更しないで下さい。
  • Windows,macOS以外のPCを利用している場合
    • Linux,FreeBSDなど,Java,VLCが動作する環境では,CEJCパッケージも動作する可能性があります。
    • 各自の環境に合わせて,JavaとVLCをインストールして下さい。参考のため,配布サイトの例を示します。
      • Java (AdoptOpenJDK)
      • VLC (VideoLAN Organization)
    • Android,iOSでは,動作しません。

3.2 各種ドキュメント

 本ページでは,CEJCパッケージに固有の事柄について説明します。CEJCや『ひまわり』,FishWatchr自体の一般的な使い方については,それぞれのマニュアルを参照して下さい。

3.3 『ひまわり』の起動の確認

  1. 配布ハードディスクの「Himawari_CEJC」フォルダを開いて下さい。場所は,次のとおりです。
    tool → Himawari_CEJC
  2. 『ひまわり』を実行
    • Windowsの場合: himawari.exe をダブルクリックして下さい。
       
      himawari_folder_win.png
       
    • macOSの場合: Himawari をダブルクリックして下さい。
       
      himawari_folder_mac.png
       
    • その他の場合
      1. シェルを起動し,カレントディレクトリを「Himawari_CEJC」フォルダにして下さい。
      2. 次のコマンドを実行して下さい。
        % java -jar himawari.jar

3.4 検索できることの確認

 『ひまわり』が起動したら,検索できるかどうか,確認してください。検索するには,検索欄に適当な文字列を入力し,「検索」ボタンを押します。次の例では,「学校」を検索した結果です。

himawari_search_test.png

4.転記テキストの検索:『ひまわり』

4.1 検索結果

 検索結果の各列の説明は,次のとおりです。CEJCマニュアルもあわせて,参照して下さい。

列名備考
前文脈キーの前文脈
キー検索文字列
後文脈キーの後文脈
会話IDキーが出現した会話のID
話者ラベルキーの先頭文字を含む発話(発話単位)の話者情報
話者ID
性別
年齢
出身地
職業
話者間の関係性
品詞キーの先頭文字を含む語(短単位)の情報
活用型
活用形
語彙素
語彙素読み
発音形出現形
発音
書字形
タグ付き書字形
語彙素-2当該語の2語前の語彙素
語彙素-1当該語の1語前の語彙素
語彙素1当該語の1語後の語彙素
語彙素2当該語の2語後の語彙素
開始時刻当該発話(発話単位)の開始時刻
終了時刻当該発話(発話単位)の終了時刻
コメント当該発話(発話単位)に付与されているコメント
仮名キーの先頭文字が仮名の一部か否かを表すフラグ
仮名の場合は「仮名」,そうでない場合は空欄

4.2 検索対象の詳細

検索対象

 検索文字列欄の左のメニューから,検索対象を選択することができます。『ひまわり』利用者マニュアルの4.1 節もあわせてご覧ください。

全文,全文(正規表現)

  • 転記テキストを全文検索します。ただし,複数の発話(発話単位)をまたいだ検索はできません。
  • 検索結果の「キー」欄には,マッチした文字列が表示されます。
  • 全文(正規表現)では,検索文字列に正規表現が利用できますが,通常の全文検索よりも低速です。
  • 検索結果として表示される,短単位,発話に関する情報は,検索文字列の先頭の文字に付与されている情報です。例えば,「を食べる」を検索した場合,「を」に付与されている情報が表示されます。
  • 検索例
    • 検索例1a:「国語」で全文検索します。
    • 検索例1b:「国語」で全文検索し,その後文脈が「の」で始まる場合にマッチします。
検索例1a検索例1b
himawari_zenbun1a.pnghimawari_zenbun2a.png

書字形,書字形(タグ付),書字形(正規表現)

  • 短単位の書字形,タグ付き書字形で検索します。
    • 書字形,書字形(タグ付)の場合
      • 「検索文字列」欄で指定した文字列で部分一致検索します。
      • 検索結果の「キー」欄には,マッチした語が表示されます。
      • 「検索文字列」欄では正規表現は利用できませんが,「正規表現(前)」「正規表現(後)」欄と組み合わせて,制限付きの正規表現を使えます。
      • 前後文脈は「フィルタ」タブで指定して下さい。
    • 書字形(正規表現)の場合
      • 「検索文字列」欄で正規表現が使えます。
      • ただし,「書字形」検索よりも低速です。
      • 検索結果の「キー」欄には,マッチした文字列(語ではないことに注意)が表示されます。
  • 「全文」の場合と異なり,検索結果のキー欄は,短単位で表示されます。
 
  • 検索例(「書字形」「書字形(タグ付)」)
    • 検索例2a:書字形に「国語」を含む場合にマッチします。
    • 検索例2b:書字形が「国語」で始まる場合にマッチします。
    • 検索例2c:書字形が「国語」の場合にマッチします。
       
      検索例2a検索例2b検索例2c
      himawari_su1a.pnghimawari_su2a.pnghimawari_su3a.png
       
  • 検索例(「書字形(正規表現)」)
    • 検索例3a:書字形に「国語」を含む場合にマッチします。
    • 検索例3b:書字形が「国」で始まる場合にマッチします。
    • 検索例3c:書字形が「国語」の場合にマッチします。
       
      検索例3a検索例3b検索例3c
      himawari_su7a.pnghimawari_su8a.pnghimawari_su9a.png
       

語彙素,語彙素読み,品詞

  • 短単位の語彙素,語彙素読み,品詞で検索します。
  • 検索結果の「キー」欄には,マッチした語が表示されます。
  • 文字列の照合には,正規表現(前),正規表現(後)欄で,正規表現を使うことができます。
  • 前後文脈は,「フィルタ」タブで指定して下さい。
 
  • 検索例
    • 検索例4a:語彙素読みに「コクゴ」を含む場合にマッチします。
    • 検索例4b:語彙素読みが「ゴ」で終わる場合にマッチします。
    • 検索例4c:語彙素読みが「タベル」の場合にマッチします。
       
      検索例4a検索例4b検索例4c
      himawari_su4a.pnghimawari_su5a.pnghimawari_su6a.png
       

話者ID

  • 話者IDをキーとして検索します。
  • 検索結果の「キー」欄には,当該の発話IDを持つ発話が検索されます。
  • 文字列の照合には,正規表現(前),正規表現(後)欄で,正規表現を使うことができます。
  • 検索例
    • 検索例5a:話者IDが「T005_032」を含む場合にマッチします。
    • 検索例5b:話者IDが「T005」で始まる場合にマッチします。
       
      検索例5a検索例5b
      himawari_speaker1a.pnghimawari_speaker2a.png
       

4.3 データの閲覧

4.3.1 会話データベースの閲覧

  • 検索結果の「会話ID」列の値をダブルクリックすることにより,当該行の会話の情報を会話データベースから検索し,表示します。
     
    himawari_conversation_db.png
     
  • すべての会話のデータを表示するには,[ツール]⇒[一覧]⇒会話DBを実行して下さい。

4.3.2 話者データベースの閲覧

  • 検索結果の「話者ID」列の値をダブルクリックすることにより,当該行の話者の情報を話者データベースから検索し,表示します。
     
    himawari_speaker_db.png
     
  • すべての話者のデータを表示するには,[ツール]⇒[一覧]⇒話者DBを実行して下さい。

4.3.3 動画ファイルの閲覧

  • 検索結果の「性別」列もしくは「年齢」列の値をダブルクリックすることにより,当該行の会話の動画ファイルをFishWatchrで閲覧することができます。
  • FishWatchrについては,5章を参照して下さい。

4.3.4 転記テキストの閲覧

 検索結果(「会話ID」「話者ID」「性別」「年齢」列を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。

  • 検索文字列は,赤色で表示されます。
  • 「/」は,短単位の区切りを表します。
  • 個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。
  • ブラウザは,[オプション]⇒[ブラウザ]で選択することができます。
    • なお,macOSではセキュリティ上,デフォルトの設定ではSafariは利用できません。FirefoxもしくはChromeをインストールするか,対処方法を参照して下さい。
 
himawari_browse_transcript.png
 

4.4 分析のための機能

4.4.1 検索結果の集計

  • 検索結果に対して,選択した列に含まれる値の頻度を集計します。
    • 列の選択は,選択したい列のセル(どこでもよい)を選択することにより行います。
    • 複数の列を選択してもかまいません。
  • 選択後,右クリック⇒[統計]を実行すると,集計が実行されます。
     
  • 例:会話IDごとの頻度を集計する例
     
    選択例実行結果
    himawari_stat_conv_id1.pnghimawari_stat_conv_id2.png
     

4.4.2 コーパスの基本情報の取得

  • [ツール]⇒[一覧]⇒[ユーザ入力]により,CEJCの転記テキストに付与されている,さまざまなタグの内容を集計することができます。この機能の詳細は,『ひまわり』利用者マニュアル(「6.アノテーション内容を集計する」)をご覧ください。
  • 集計できるタグは,次のとおりです。
タグ名説明付与されている属性例
cejc転記テキスト全体に対して付与されている情報会話ID,話者間の関係
u発話に付与されている情報話者ID,年齢,職業,出身地
s単語に付与されている情報品詞,語彙素,発音
  • 例1:単語頻度(品詞別)
    • 第1階層タグをsにし,属性設定(右側のメニュー)で「品詞」を選択
    • 「頻度」をチェック
 
himawari_list_pos1.pnghimawari_list_pos2.png
 
  • 例2:単語頻度(語彙素別)
    • 第1階層タグをsにし,属性設定(右側のメニュー)で「活用型」「語彙素」「語彙素読み」「品詞」を選択
    • 「頻度」をチェック
 
himawari_list_pos1.pnghimawari_list_pos3.png
 
  • 例3:会話データごとの発話数
    • 第1階層タグをcejcにし,属性設定(右側のメニュー)で「発話ID」を選択
    • 第2階層タグをuにする。属性設定(右側のメニュー)は「選択なし」
    • 「頻度」をチェック
 
himawari_list_conv1.pnghimawari_list_conv2.png
 
  • 例4:会話データごとの単語数
    • 第1階層タグをcejcにし,属性設定(右側のメニュー)で「発話ID」を選択
    • 第2階層タグをsにする。属性設定(右側のメニュー)は「品詞」を選択
    • 「頻度」をチェック
       
    • (1) まず,会話データごとの各品詞の頻度を計測
    • (2) 計測したくない品詞の語を取り除くため,「品詞」列を右クリックし,フィルタを設定
      • ここでは,「himawari_発話末」「形態論情報付与対象外」します。
      • 「文字列指定」で次の正規表現を指定(「himawari」「形態論」で始まる品詞を除外)
        ^(?!himawari|形態論).+$
 
(1)の計測の設定(1)の結果(2)のフィルタ設定
himawari_list_pos4.pnghimawari_list_pos5.pnghimawari_list_pos6.png
 
  • (3) 最後に「会話ID」列の値のどれかを選択し,右クリック⇒「統計」で,各会話ごとの単語数を求めます。「現在の「頻度」欄の値を考慮して,新しい頻度を計測しますか?」には,「はい」と答えて下さい。
     
    himawari_list_pos7.png
     

5.動画の閲覧とアノテーション:FishWatchr

5.1 動画の閲覧

 『ひまわり』の検索結果の「性別」もしくは「年齢」列の値をダブルクリックすると,当該行の検索結果の動画を観察支援システムFishWatchrで閲覧することができます。

 FishWatchrの機能のうち,よく使うものを次に挙げておきます。詳細は,FishWatchrのマニュアルを参照して下さい。

  • 動画の再生,停止,早送り
    • 画面中央の操作パネル(fw_control.png)を使用します。
    • 再生位置は,次の三つの方法で指定することができます。
      • 画面中央のスライダ(下図 
      • 画面左側のグラフのダブルクリック(グラフの横軸は再生経過時間,下図△遼誓は再生位置)
      • 発話リストの時間列の値(下図)のダブルクリック
    • 画面中央の「注記連動」(下図ぁ砲鬟船Д奪すると,再生位置と同期して,発話リストがスクロールします。
    • 再生速度は,Ctrl+「.」,Ctrl+「,」で上下します。Ctrl+「/」でリセットです。
  • 画面左上のグラフの使い方
    • 発話の存在を時間軸上にプロットしています。
    • 「表示」メニュー(下図ァ砲派充対象(「話者」「ラベル」)を選択できます。
    • グラフ下部の棒グラフは,起点とする時刻において,前後10秒間(デフォルト)に存在する発話数です。
    • 横方向にドラッグすると,その範囲を詳細に表示することができます。
      • 元の範囲に戻すには,グラフ上部の「リセット」ボタンを押して下さい。

cejc_fw2.png

5.2 アノテーション

  • アノテーションボタン(上図Α砲魏,垢函ず得鍵銘屬肪躰瓠僻話リストに1行追加されます)をつけることができます。
    • 追加した注釈を削除するには,削除する行のいずれかの列で右クリックし,「行の削除」を実施して下さい。なお,発話の行も削除できるので,注意して下さい。
    • 「番号」「時間」「コメント」列以外は,ダブルクリックすると,編集が可能です。
  • 既存の発話の「補助情報」列には,追加のコメントを記入することができます。
  • アノテーションボタン,追加する注釈の「注釈者」名は,ウィンドウ上部の「注釈」メニューから変更できます。詳細は,マニュアルを参照して下さい。

6.トラブルシューティング

7.お問い合わせ

 『ひまわり』もしくは本パッケージに関するお問い合わせは,himawari_mail_ninjal.pngにお願いします。ただし,お問い合わせ前には,必ず,『ひまわり』利用者マニュアルFishWatchr利用者マニュアル『ひまわり』FAQを確認して下さい。

 なお,CECJの仕様やそのデータに関しては,モニター公開版のページを参照下さい。

謝辞

 全文検索システム『ひまわり』および観察支援システムFishWatchrの作成にあたっては,次のJSPS科研費の助成を受けています。

  • 「ビデオアノテーションを利用した協同型実習活動支援システムに関する研究」(17K01105
  • 「昭和話し言葉コーパス」の構築による話し言葉の経年変化に関する実証的研究」(16H03426

 CEJCパッケージ作成にあたっては,小磯花絵氏,西川賢哉氏にオリジナルのコーパスデータ・メタデータ,および,その構造情報の提供,データ構造のすり合わせをしていただきました。また,居關友里子氏,川端良子氏にパッケージ・本ページに対するコメントをいただきました。深く感謝いたします。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2019-05-08 (水) 13:13:58 (132d)