『名大会話コーパス』検索システム

更新情報


  • 人手修正を行い『中納言』版・『ひまわり』版を再公開しました(2023,3,24)
  • メタ情報を拡張して『中納言』で再公開しました(2018,3,18)

『名大会話コーパス』とは

『名大会話コーパス』は,科学研究費基盤研究(B)(2)「日本語学習辞書編纂に向けた電子化コーパス利用によるコロケーション研究」(平成13年度~15年度 研究代表者 大曽美恵子)の一環として作成された,129会話,合計約100時間の日本語母語話者同士の雑談を文字化したコーパスです。現在は国立国語研究所に移管され,文字化テキストなどを公開しています。テキストはこちらのページからダウンロードできます。

◆ コーパスの名称について ◆
本コーパスが国語研究所に移管された際,一時的に『日本語自然会話書き起こしコーパス』という名称で公開していましたが,現在では『名大会話コーパス』という名称に戻しています。 同じコーパスですのでご注意ください。


文献

『名大会話コーパス』を利用した研究成果等を発表される際は,必ず以下のいずれかの文献の情報を明記してください。

  • 藤村逸子・大曽美恵子・大島ディヴィッド義和、2011「会話コーパスの構築によるコミュニケーション研究」 藤村逸子、滝沢直宏編『言語研究の技法:データの収集と分析』p. 43-72、ひつじ書房
  • Fujimura,Itsuko, Shoju Chiba, Mieko Ohso, 2012, Lexical and Grammatical Features of Spoken and Written Japanese in Contrast: Exploring a lexical profiling approach to comparing spoken and Written corpora, Proceedings of the VIIth GSCP International Conference. Speech and Corpora, 393-398.

検索システム

本プロジェクトでは,『名大会話コーパス』の文字化テキストに形態論情報を付与した上で,以下の二つの方法で公開しています。

オンラインコーパス検索アプリケーション『中納言』   ※コーパス開発センターと共同して構築
全文検索システム『ひまわり』

検索システム公開に伴うデータ整備の概要

  • 形態論情報は,形態素解析器MeCab(ver.0.98)および形態素解析辞書UniDicを用いて自動で付与しました。また,一部の解析結果に対して人手で修正を行っています。
  • 「F063さん」のように発話中に出現した発話者IDについては,「伏字化人名」という品詞を付与しています。
  • 原資料の個々の会話ファイルの冒頭に記されているメタ情報(収録場所や話者の性別などの情報)は,原則として情報の変更はせず適宜形式を整形した上で,検索結果に出力しています。
  • 発話冒頭の発話者名は,全文検索対象から除外し,発話の属性として記述しています。
  • <笑い>など,原資料に付与されている言語情報以外の要素については,検索対象から除外しています。
  • 相づちなどの挿入要素は,包含する発話から独立させ,本来の発話場所とは異なる位置に記述しています。
  • 原資料には相づちの話者情報は表示されていませんが,話者が特定できる場合(会話参加者が二人の場合)にはその発話者IDを,特定できない場合(会話参加者が三人以上の場合)には"unknown"という情報を記述しています。