『日本語日常会話コーパス』CEJC

モニター版公開のご案内

2018年12月に50時間分のデータをモニター公開します。詳細は【こちら】

コーパスの概要

日常会話の実態を多角的に検討するには、さまざまな場面における日常会話を収録した話し言葉コーパスが不可欠です。これまで、いくつかの日本語会話コーパスが作られてきましたが、話者や場面などに偏りがあり、多様な日常会話をカバーする会話コーパスは存在しませんでした。

そこで本プロジェクトでは、さまざまなタイプの日常会話200時間をバランス良く納めた大規模な『日本語日常会話コーパス』(Corpus of Everyday Japanese Conversation, CEJC)を構築します。調査者は立ち会わず、生活の中で生じる会話を会話者自身に収録してもらうことで、日常会話をより自然な形で記録する点に特色があります。

収録した会話音声は、文字化した上で、形態論情報や係り受け情報、発話単位などのアノテーション(情報付与)を行い、検索可能な形に整備して、平成33年度末の一般公開を目指します。また、平成30年12月に50時間分のデータをモニター公開する予定です。

収録の方法

日常場面において、当事者たちの動機・目的に基づき自発的に生じたリアルな活動を記録するために、次の二つの方法で会話を収録することを計画しています。

個人密着法

  • 性別・年齢などの観点からバランスを考慮して選別された協力者に収録依頼
    (男女×年齢5世代×各4人=40人、職業偏らないよう配慮)
  • 機材機器等を2-3か月ほど貸し出し,協力者の日常生活で自発的に生じるリアルな会話(15時間程度)を記録
  • コーパス構成比や倫理的問題等を考慮してコーパスに含める会話を選別
  • 1協力者あたり約4-5時間を選択,計180時間程度をコーパスとして整備

特定場面法

  • 職場・学校での会議や授業,店舗での店員とのやりとりなど、個人密着法では技術的・倫理的に収録が難しいと思われる場面を特定し,調査者が主体となり収録する方法。
  • 調査者は介在するが,日常場面の中で自然に生じる会話を対象。

現在は個人密着法に基づく収録を進めています。

収録風景
2018年3月31日現在、33名の協力者の調査が終了し、約492時間のデータが集まっています。

アノテーション

収録した会話データは、文字化した上で、形態論情報(短単位・長単位)・係り受け・発話単位を自動で付与します。 また一部のデータについては、上記自動アノテーションを人手修正すると同時に、 談話行為や韻律情報などのアノテーションを人手で行います。

データ公開の予定

整備したコーパスは、平成33年度末に一般公開する予定です。 また平成30年12月に、50時間程度のデータをモニター公開します。 公開対象となるのは、50時間分 の会話の映像・音声・転記テキスト・短単位情報です。モニター公開の情報については【こちら】をご覧ください。

会話行動調査

日常の言語生活を反映したコーパスを作成するには、私たちが普段、どのような会話をどの程度行っているのか、その実態を知る必要があります。 そこで、約250名を対象に、起床から就寝までの間に行った全ての会話について、いつ、どこで、誰と、何をしながら、どのような種類の会話を、どのくらいの長さ行ったか、などを問う調査をしました。 この結果を参考に、多様な場面の日常会話を収録します。

調査の詳細はこちらをご覧ください。

関連文献