『日本語日常会話コーパス』の概要

コーパスの特徴

『日本語日常会話コーパス』(Corpus of Everyday Japanese Conversation, CEJC)の特徴は、 以下の3点です。

  • 日常場面の中で当事者たち自身の動機や目的によって自然に生じる会話を対象とする
  • 多様な場面の会話をバランスよく集める
  • 音声だけでなく映像まで含めて収録・公開

どのように収録したか

■ 個人密着法

性別・年齢などの観点からバランスを考慮して選別された協力者40名(20代・30代・40代・50代・60歳以上の男女、各4名)に機材機器等を2-3か月ほど貸し出し、 協力者の日常生活で自然に生じる会話を協力者自身に記録してもらいました。 できるだけ多様な場面・多様な話者との会話を対象にするようお願いしました。 プロジェクトのメンバーは収録に立ち合いません。 コーパス200時間のうち185時間をこの方法で収録しました。収録時期は2016〜2019年です。


■ 特定場面法

個人密着法で収録された会話のバランスを検証し、不足する会話の種別を特定した上で、その不足を補うために、 仕事中の会議会合を約10時間、中高生の雑談・打合せ等を約5時間、 計15時間を追加で収集しました。収録時期は2019〜2020年です。


コーパス格納データの選定方針

多様な会話をバランスよく集めるために、 予備調査として会話行動の実態調査を行いました。 この結果を一つの目安として、コーパスに格納するデータの選定を進めています。 モニター公開対象についても、構築状況を見ながらできるだけ多様な会話が含まれるように選定しました。

採用した収録方法では、収録を始める前に、 協力者自身が、機材の設定や他の話者への主旨説明などをする必要があるため、 話題が進んだところから収録が開始されることもあります。 また1回の収録は最大でも1時間程度としており、会話の途中で収録が切れることもあります。 そのため、協力者が1回に収録したもの(これをセッションと呼びます)から、 ある程度のまとまりをもった範囲を「会話」として切り出し、 コーパスに格納するデータを決めています。 倫理的・法的な問題や会話者の希望などを考慮し、問題のある部分をカットした結果、 一つの収録データが複数の会話に分かれることもあります。

用語

  • 調査協力者(協力者):個人密着法に基づき会話の収録を主導した人

      ▶ 協力者ID: 例)C001, K004, T015

  • セッション:協力者が1回の収録セッションで記録した会話のまとまり

      ▶ セッションID:例)T015_008  ... 協力者T015による8回目の収録セッション

  • 会話:収録された範囲から、ある程度のまとまりをもった範囲を「会話」として切り出す。
       公開不可の部分等をカットした結果、1つの「セッション」が複数の「会話」に分かれることがある。

      ▶ 会話ID:例)T015_008a, T015_008b ... セッションT015_008を2つの会話に分割

  • 話者:収録した会話に参加した人(協力者を含む)


コーパスの構成

200時間に対して、映像データ、音声データ、転記テキスト、短単位情報(人手修正)、長単位情報(自動解析)を提供します。また、個人密着法で収録した会話185時間の中から20時間を選別して「コア」とし、人手修正・付与した複数のアノテーションを提供します。

コーパス全体 コア 「中納言」版の対象 仕様
映像データ × こちら
音声データ 検索箇所前後の再生 こちら
転記テキスト × こちら
形態論情報(短単位情報) こちら
形態論情報(長単位情報) こちら
談話行為情報 × × こちら
韻律情報 × × こちら
会話・話者に関するメタ情報 △(備考等除く) こちら

また、データの規模は次の通りです。

コーパス全体うち「コア」
時間数200時間20時間
セッション数461セッション52セッション
会話数577会話52会話
延べ話者数1675名169名
異なり話者数862名135名
語数(短単位)約240万語約25万語

データ公開方針

『日本語日常会話コーパス』は、 実際の日常場面の会話を、映像・音声データまで含めて公開しますが、 その中には、公開の承諾を得ていない第三者の顔や テレビなどの著作物の写り込みなどが多く見られます。 そこで本プロジェクトでは、 これまでに収録した多様な会話データをもとに具体的な問題を洗い出し、 肖像権や個人情報保護、著作権などの観点からデータの公開方針を定めました。 本コーパスはこの方針に従ってデータを整備しています。 データの公開方針の詳細は以下の文献をご覧ください。