全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2019-05-09
 

目次

 

1.はじめに

 『昭和話し言葉コーパス』のモニター公開データ(以後,SSC)の配布DVDには,全文検索システム『ひまわり』を用いた検索環境が同梱されています(入手方法)。このページでは,SSCパッケージの利用方法を説明します。特徴は,次のとおりです。

  • 全転記テキストの全文検索
  • 検索結果からの転記テキスト全体の表示
  • 検索結果からの音声ファイルの再生(VLCを利用)
  • SSCに同梱されるメタデータ(講演情報,話者情報)の閲覧

 なお,SSCパッケージは,配布DVDに同梱される転記テキスト,メタデータを『ひまわり』にインポートする形で構築しています。

2.動作環境

 SSCパッケージは,次の環境で動作します。

  • Windows (Windows7以降)
  • macOS (Webブラウザは,ChromeもしくはFirefoxを推奨)
  • その他(Java および VLCが動作する環境)

3.準備

3.1 使用機器の準備

  1. 配布DVDの内容を,PCのハードディスクにコピーしてください。
    • コピー時には,フォルダの構成は変更しないで下さい。
  2. Windows,macOSを利用している場合は,以上で終了です。
  3. Windows,macOS以外のOSを利用している場合,Java,VLCが動作する環境では,SSCパッケージも動作する可能性があります。
    • 各自の環境に合わせて,JavaとVLCをインストールして下さい。参考のため,配布サイトの例を示します。
      • Java (AdoptOpenJDK)
      • VLC (VideoLAN Organization)
    • なお,Android,iOSでは,動作しません。

3.2 『ひまわり』の起動の確認

  1. PCにコピーした「Himawari_Showa」フォルダを開いて下さい。
  2. 『ひまわり』を実行
    • Windowsの場合: himawari.exe をダブルクリックして下さい。
       
      himawari_showa_folder_win.png
       
    • macOSの場合: Himawari をダブルクリックして下さい。
       
      himawari_showa_folder_mac.png
       
    • その他の場合
      1. シェルを起動し,カレントディレクトリを「Himawari_Showa」フォルダにして下さい。
      2. 次のコマンドを実行して下さい。
         % java -jar himawari.jar

3.3 検索できることの確認

 『ひまわり』が起動したら,検索できるかどうか,確認してください。検索するには,検索欄に適当な文字列を入力し,「検索」ボタンを押します。次の例は,「言葉」を検索した結果です。

 
himawari_search_test.png
 

4.転記テキストの検索:『ひまわり』

4.1 検索結果

 検索結果の各列の説明は,次のとおりです。SSCのマニュアルもあわせて,参照して下さい。

列名備考
前文脈キーの前文脈
キー検索文字列
後文脈キーの後文脈
ファイルIDキーが出現したファイルのID
話者IDキーの発話者のID
話者当該発話の話者情報
性別
年齢
出身地
タイプ当該ファイルの情報
タイトル
収録日
開始時刻当該発話の開始時刻
終了時刻当該発話の終了時刻

4.2 検索対象の詳細

検索対象

 検索文字列欄の左のメニューから,検索対象を選択することができます。『ひまわり』利用者マニュアルの4.1 節もあわせてご覧ください。

全文,全文(正規表現)

  • 転記テキストを全文検索します。ただし,複数の発話(発話単位)をまたいだ検索はできません。
  • 検索結果の「キー」欄には,マッチした文字列が表示されます。
  • 全文(正規表現)では,検索文字列に正規表現が利用できますが,通常の全文検索よりも低速です。

話者ID

  • 指定した話者IDにマッチ(部分一致)します。
  • 検索結果の「キー」欄には,マッチした話者IDの1発話が表示されます。

4.3 データの閲覧

4.3.1 ファイルデータベースの閲覧

  • 検索結果の「ファイルID」列の値をダブルクリックすることにより,当該行のファイルの情報をファイルデータベースから検索し,表示します。
     
    himawari_file_db.png
     
  • すべてのファイルのデータを表示するには,[ツール]⇒[一覧]⇒ファイルDBを実行して下さい。

4.3.2 話者データベースの閲覧

  • 検索結果の「話者ID」列の値をダブルクリックすることにより,当該行の話者の情報を話者データベースから検索し,表示します。
     
    himawari_speaker_db.png
     
  • すべての話者のデータを表示するには,[ツール]⇒[一覧]⇒話者DBを実行して下さい。

4.3.3 音声ファイルの再生

  • 検索結果の「話者」「性別」列もしくは「年齢」列の値をダブルクリックすることにより,当該行から始まる音声を,VLCで再生することができます。
  • Windows,macOSの場合,パッケージに同梱されているVLCが使用されます。

4.3.4 転記テキストの閲覧

 検索結果(「ファイルID」「話者ID」「話者」「性別」「年齢」列を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。

  • 検索文字列は,赤色で表示されます。
  • 転記テキスト中で使用されているタグは,次のように表示されます。
     
    タグ名表示方法
    読みタグ付けされたテキストにルビとして表示
    転訛タグ付けされたテキストにルビ(括弧つき)として表示
    他話者,引用タグ付けされたテキスト強調表示(ボールド)
    咳,笑,板書タグを青色で表示
    録音途切れ,録音途切れ
    他音声混入,ノイズ混入
    講演開始までのやり取り(転記なし)
    F, D, Mタグ付けされたテキストをそのまま表示
     
  • ブラウザは,[オプション]⇒[ブラウザ]で選択することができます。
    • なお,macOSではセキュリティ上,デフォルトの設定ではSafariは利用できません。FirefoxもしくはChromeをインストールするか,対処方法を参照して下さい。
 
himawari_browse_transcript.png
 

5.トラブルシューティング

6.お問い合わせ

  • SSC本体に関するお問合わせは,showa_corpus [at] ninjal.ac.jp ( [at] は @ に変換してください) にお願いします。
  • 『ひまわり』もしくは本パッケージに関するお問い合わせは,himawari_mail_ninjal.pngにお願いします。ただし,お問い合わせ前には,必ず,『ひまわり』利用者マニュアル『ひまわり』FAQを確認して下さい。

謝辞

 全文検索システム『ひまわり』の作成にあたっては,次のJSPS科研費の助成を受けています。

  • 「昭和話し言葉コーパス」の構築による話し言葉の経年変化に関する実証的研究」(16H03426

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2019-05-09 (木) 18:59:02 (13d)