モニター公開データの概要

モニター公開データの概要については【こちら】の文献もご覧ください。


コーパスの特徴

『日本語日常会話コーパス』(Corpus of Everyday Japanese Conversation, CEJC)の特徴は、 以下の三点です。

  • 日常場面の中で当事者たち自身の動機や目的によって自然に生じる会話を対象とする
  • 多様な場面の会話をバランスよく集める
  • 音声だけでなく映像まで含めて収録・公開

どのように収録したか

性別・年齢などの観点からバランスを考慮して選別された協力者に機材機器等を2-3か月ほど貸し出し、 協力者の日常生活で自然に生じる会話を協力者自身に記録してもらいました。 プロジェクトのメンバーは収録に立ち合いません。 この方法を「個人密着法」と呼びます。 モニター公開で対象とするのは、このうち20名の協力者が収録した会話(の一部)です。


コーパス格納データの選定方針

多様な会話をバランスよく集めるために、 予備調査として会話行動の実態調査を行いました。 この結果を一つの目安として、コーパスに格納するデータの選定を進めています。 モニター公開対象についても、構築状況を見ながらできるだけ多様な会話が含まれるように選定しました。

採用した収録方法では、収録を始める前に、 協力者自身が、機材の設定や他の話者への主旨説明などをする必要があるため、 話題が進んだところから収録が開始されることもあります。 また1回の収録は最大でも1時間程度としており、会話の途中で収録が切れることもあります。 そのため、協力者が1回に収録したもの(これをセッションと呼びます)から、 ある程度のまとまりをもった範囲を「会話」として切り出し、 コーパスに格納するデータを決めています。 倫理的・法的な問題や会話者の希望などを考慮し、問題のある部分をカットした結果、 一つの収録データが複数の会話に分かれることもあります。

用語

  • 調査協力者(協力者):個人密着法に基づき会話の収録を主導した人

      ▶ 協力者ID: 例)C001, K004, T015

  • セッション:協力者が1回の収録セッションで記録した会話のまとまり

      ▶ セッションID:例)T015_008  ... 協力者T015による8回目の収録セッション

  • 会話:収録された範囲から、ある程度のまとまりをもった範囲を「会話」として切り出す。
       公開不可の部分等をカットした結果、1つの「セッション」が複数の「会話」に分かれることがある。

      ▶ 会話ID:例)T015_008a, T015_008b ... セッションT015_008を2つの会話に分割

  • 話者:収録した会話に参加した人(協力者を含む)


コーパスの規模

時間数 50時間
会話数 126会話
セッション数 116セッション
話者数(異なり)* 237人
話者数(延べ)* 392人
ディスクサイズ 286.3ギガバイト
* 一時的に会話の場に加わる人(店員など)を除く話者の数


提供するデータの種類

データ種別 中納言 ハードディスク版
転記テキスト ×
短単位情報
映像音声データ ×
話者・会話に関するメタ情報 △(備考情報など一部を除く)


データ公開方針

『日本語日常会話コーパス』は、 実際の日常場面の会話を、映像・音声データまで含めて公開しますが、 その中には、公開の承諾を得ていない第三者の顔や テレビなどの著作物の写り込みなどが多く見られます。 そこで本プロジェクトでは、 これまでに収録した多様な会話データをもとに具体的な問題を洗い出し、 肖像権や個人情報保護、著作権などの観点からデータの公開方針を定めました。 モニター公開版はこの方針に従ってデータを整備しています。 データの公開方針の詳細は以下の文献をご覧ください。