全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2017-08-10更新(2016-10-12作成)
 

1.パッケージの概要

2.収録データの内容

  • 原資料:『名大会話コーパス』のテキストデータ
  • 原資料からの変更点
    • 原資料の発話部分には,基本的に変更を加えていません。ただし,検索の利便性を考慮し,以下のような処理を行っています。
      • 主として,形式上の誤りの修正を行っています。詳細は,「テキスト整形と形態素解析」を参照してください。
      • 発話冒頭の発話者名は,全文検索対象から除外し,発話の属性として記述しています。また,原資料には相づちの話者情報が表示されていませんが,話者が特定できる場合(会話参加者が二人の場合)にはその発話者IDを,特定できない場合(会話参加者が三人以上の場合)には"unknown"という情報を記述しています。
      • 相づちなどの挿入要素は,包含する発話から独立させ,本来の発話場所とは異なる位置に記述しています。そのため,『ひまわり』の検索結果の前後文脈欄では,挿入句が本来と異なる位置に表示される場合があります。
      • <笑い>など,原資料に付与されている独自タグは,全文検索対象から除外し,付属情報として記述しています。
    • 機械的に形態素解析を行い,一部手修正を行った後,結果をタグ付けしています。詳細は,「テキスト整形と形態素解析」を参照してください。
    • 原資料の各データファイルは,パッケージ化する際に,連結しています。そのため,データファイルの先頭,もしくは,末尾の文字列を検索すると,その前後文脈として,別のデータファイルの文字列が表示される場合があります。

3.パッケージのダウンロード

  • 『名大会話コーパス』パッケージ(2017-08-02,約85MB, 履歴
  • 本パッケージの使用条件
    • 本パッケージの複製,改変は,個人の利用の範囲内で行なうことが可能です。ただし,再配布は禁止いたします。
    • 本パッケージを利用したことにより直接的,間接的に生じる,いかなる損害も保証しません。

4.利用方法

4.1 インストール

  1. 『ひまわり』 (ver.1.5.4以上)をインストールしてください(インストール方法)。
  2. パッケージをダウンロードしてください。
  3. 『ひまわり』を起動し,ダウンロードした zip ファイルを(起動した)『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい(「インポート」ではありません)。
  4. 「インストールが終了しました」というメッセージが出れば,インストールは完了です。すぐに検索できる状態になります。
  5. 次回以降は,『ひまわり』がインストールされているフォルダにある config_meidai.xml を『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[新規]で指定すれば,本コーパスを検索できる状態になります。

4.2 検索対象の詳細

 ここでは,『名大会話コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,利用者マニュアルをご覧ください。

検索対象

 本パッケージでは,次の項目を対象として,検索することができます。利用者マニュアルの4.1 節もあわせてご覧ください。

全文

  • 形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される,品詞などの短単位に関する情報は,検索文字列の先頭の文字列を規準にしています。
  • 検索例
    • 検索例1a:「日常」で全文検索します。
    • 検索例1b:「日常」で全文検索し,その後文脈が「の」で始まる場合にマッチします。
検索例1a検索例1b
full_text_simple.pngfull_text_fc.png

全文(正規表現,短単位),全文(正規表現,発話)

  • 短単位(出現形),発話(原資料の1行に相当)の範囲内で,正規表現検索します。検索結果の「キー」欄には,検索式と一致した部分のみが表示されます。インデックスを用いないため,「全文」「出現形(短単位)」よりも検索速度は低下します。
  • 検索例
    • 検索例2a:短単位に「日」を含む場合にマッチします。
    • 検索例2b:短単位の先頭が「日」の場合にマッチします(正規表現「^日」)。
    • 検索例2c:短単位の「日」を含む場合にマッチします(正規表現「^.*日.*」)。2aと異なり,「キー」欄には,短単位全体が表示されます。
検索例2a検索例2b検索例2c
full_text_reg_simple.pngfull_text_reg_head.pngfull_text_reg_incl.png

出現形(短単位)

  • 短単位の出現形をキーとして,部分一致検索を行います。文字列の照合には,部分的に正規表現を使うことができます。検索結果の「キー」欄には,検索式と一致した短単位(出現形)全体が表示されます。
  • 検索例
    • 検索例3a:短単位の出現形に「日」を含む場合にマッチします。
    • 検索例3b:短単位の出現形が「日」の場合にマッチします。
検索例3a検索例3b
short_simple.pngshort_em.png

品詞(短単位)

  • 短単位の品詞をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。検索結果の「キー」欄には,検索式と一致した短単位(出現形)全体が表示されます。
  • 検索例
    • 検索例4a:短単位の品詞が「名詞」を含む場合にマッチします(「代名詞」にもマッチします)。
    • 検索例4b:短単位の品詞が「名詞-数詞」の場合にマッチします。
検索例4a検索例4b
pos_simple.pngpos_em.png

語彙素(短単位)

  • 短単位の語彙素をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例5a:短単位の語彙素に「食べる」を含む場合にマッチします。
    • 検索例5b:短単位の語彙素の先頭が「日」の場合にマッチします。
    • 検索例5c:短単位の語彙素が「日」の場合にマッチします。
検索例5a検索例5b検索例5c
lem_simple.pnglem_head.pnglem_em.png

語彙素読み(短単位)

  • 短単位の語彙素の読み(カタカナ)をキーとして部分一致検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例6a:短単位の語彙素の読みに「ノム」を含む場合にマッチします。
    • 検索例6b:短単位の語彙素の読みが「ノム」の場合にマッチします。
検索例6a検索例6b
read_simple.pngread_em.png

4.3 検索結果

検索結果には,次の情報が含まれます。

列名備考
前文脈検索文字列の前文脈
キー検索文字列
後文脈検索文字列の後文脈
データ名検索文字列を含む会話データの名前(原資料のファイル名と対応)
話者検索文字列を包含する発話の話者
話者性別話者の性別
話者年齢話者の年齢
話者出身地話者の出身地
話者居住地話者の居住地
話者情報話者に関するその他の情報
品詞当該キー(先頭文字を包含する短単位の)の品詞
活用型当該キー(先頭文字を包含する短単位の)の活用型
活用形当該キー(先頭文字を包含する短単位の)の活用形
語彙素当該キー(先頭文字を包含する短単位の)の語彙素
読み当該キー(先頭文字を包含する短単位の)の語彙素の読み
語彙素-2当該キー(先頭文字を包含する短単位の)の二つ前に前出する短単位の語彙素
語彙素-1当該キー(先頭文字を包含する短単位の)の一つ前に前出する短単位の語彙素
語彙素1当該キー(先頭文字を包含する短単位の)の一つ後に後続する短単位の語彙素
語彙素2当該キー(先頭文字を包含する短単位の)の二つ後に後続する短単位の語彙素
全話者当該の会話に参加しているすべての話者(「,」で区切られる)
収録時間当該の会話の収録時間
収録年月日当該の会話の収録年月日
収録場所当該の会話の収録場所
話者関係当該の会話の話者間の関係
補足情報当該の会話の補足情報
短単位数当該の会話データに含まれる総短単位数
相づちキーが挿入要素(相づちなど)の一部の場合1,そうでない場合0

4.4 会話データ全体の閲覧

 検索結果をダブルクリックすると,当該のキーを含んだ会話データ全体を閲覧することができます。

  • 当該のキーは,赤色で表示されます。
  • 縦棒(|)は,短単位の区切りを表します。
  • 個々の短単位にマウスカーソルを合わせると,短単位の各種属性が表示されます。
 
browse.png
 

4.4 会話データ一覧

 会話データの一覧を作成するには,[ツール]⇒[一覧]⇒[データ名]を実行して下さい。各会話データに付与されている情報を閲覧することができます。

 
datalist.png
 

アンケート

 よろしければ,アンケートにもお答えください。なお,このアンケートは,本パッケージをどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。

所属
大学・高専等 小中高・専門学校等 研究機関 企業 個人 その他
身分
教職員 研究員 学生 その他
専門分野
日本語(国語)学 英語学 言語学 言語教育 自然言語処理・人工知能 その他(人文社会系) その他(理工系)
母国語
日本語 日本語以外
年齢
10代未満 10代 20代 30代 40代 50代 60代 70代以上
使用OS
Windows Mac Linux その他
コンピュータ使用歴
1年未満 1年以上3年未満 3年以上
ご意見・ご感想

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2017-08-10 (木) 17:49:18 (12d)