CEJC-Childモニター版の概要

コーパスの特徴

『子ども版日本語日常会話コーパス』(CEJC-Child)は、成人中心の『日本語日常会話コーパス』(CEJC)と同様、(1)日常生活の中で自然に生じる会話を対象とすること、(2)多様な場面の会話を集めること、(3)音声だけでなく映像まで含めて収録・公開することを目指したコーパスです。 成人を中心とするCEJCと子ども中心のCEJC-Childを合わせることによって、 乳幼児から高齢者までの多世代に渡る言葉の変化を分析することが可能な研究基盤の構築を目指しています。


どのように収録したか

調査協力世帯8世帯の協力を得て、子どもを中心とする多様な場面の会話を1〜4年程度の期間に渡り収録してもらいました。モニター公開で対象とするのは、このうち7世帯が収録した10児(主たる調査協力児)を中心とする会話(の一部)です。


コーパスの規模

時間数 52.6時間
セッション数*1 157セッション
会話数*2 126会話
延べ話者数*3 518人
異なり話者数*3 49人

*1 協力世帯が1回の収録セッションで記録した会話のまとまり
*2 収録された範囲からある程度のまとまりをもった範囲を「会話」として切り出す
*3 一時的に会話の場に加わる人(店員など)も含む

提供するデータの種類

データ種別 中納言 ハードディスク版
転記テキスト ×
短単位情報
映像音声データ ×
話者・会話に関するメタ情報 △(備考情報など一部を除く)


データ公開方針

CEJC-ChildはCEJCと同様、実際の日常場面の会話を映像・音声データまで含めて公開しますが、その中には、公開の承諾を得ていない第三者の顔などが多く見られます。そこで本プロジェクトでは、CEJC構築時に整備したデータ公開方針に従いデータを整備しています。詳細は以下の文献をご覧ください。