国立国語研究所 〒190-8561 東京都立川市緑町10-2 Tel. 0570-08-8595 (ナビダイヤル)
© National Institute for Japanese Language and Linguistics
モニター公開データの概要については【こちら】の文献もご覧ください。
『日本語日常会話コーパス』(Corpus of Everyday Japanese Conversation, CEJC)の特徴は、 以下の三点です。
性別・年齢などの観点からバランスを考慮して選別された協力者40名に機材機器等を2-3か月ほど貸し出し、 協力者の日常生活で自然に生じる会話を協力者自身に記録してもらいました。 プロジェクトのメンバーは収録に立ち合いません。 この方法を「個人密着法」と呼びます。 モニター公開で対象とするのは、このうち20名の協力者が収録した会話(の一部)です。
多様な会話をバランスよく集めるために、 予備調査として会話行動の実態調査を行いました。 この結果を一つの目安として、コーパスに格納するデータの選定を進めています。 モニター公開対象についても、構築状況を見ながらできるだけ多様な会話が含まれるように選定しました。
採用した収録方法では、収録を始める前に、 協力者自身が、機材の設定や他の話者への主旨説明などをする必要があるため、 話題が進んだところから収録が開始されることもあります。 また1回の収録は最大でも1時間程度としており、会話の途中で収録が切れることもあります。 そのため、協力者が1回に収録したもの(これをセッションと呼びます)から、 ある程度のまとまりをもった範囲を「会話」として切り出し、 コーパスに格納するデータを決めています。 倫理的・法的な問題や会話者の希望などを考慮し、問題のある部分をカットした結果、 一つの収録データが複数の会話に分かれることもあります。
用語
2018年度版 | 2020年度版 | |
---|---|---|
時間数 | 50時間 | 50時間 |
会話数 | 126会話 | 141会話 |
セッション数 | 116セッション | 108セッション |
ディスクサイズ | 286.3ギガバイト | (HDDによる提供なし) |
『日本語日常会話コーパス』は、 実際の日常場面の会話を、映像・音声データまで含めて公開しますが、 その中には、公開の承諾を得ていない第三者の顔や テレビなどの著作物の写り込みなどが多く見られます。 そこで本プロジェクトでは、 これまでに収録した多様な会話データをもとに具体的な問題を洗い出し、 肖像権や個人情報保護、著作権などの観点からデータの公開方針を定めました。 モニター公開版はこの方針に従ってデータを整備しています。 データの公開方針の詳細は以下の文献をご覧ください。