日本語日常会話コーパス | 大規模日常会話コーパスに基づく話し言葉の多角的研究

バグ報告・更新情報

CEJC ver.202303 (2023年03月24日)

以下の一連の問題を修正し、Ver.202303 として関連データをアップデートしました。

ICと話者の対応の誤り: ICと話者の対応の一部に誤りがありました。またT004_010abの「IC03_由里子」の話者ラベルは「IC03_八重子」の誤りです。

会話ID
C002_006a,b,c IC03_美佳IC02_美佳 IC02_遥IC03_遥
K003_017 IC03_詩織IC02_詩織 IC02_由佳IC03_由佳
K004_001 IC01_島村IC02_島村 IC02_母IC01_母
T013_006 IC02_須賀IC04_須賀 IC04_草野IC02_草野

韻律ラベリングの更新: 韻律ラベリングのアノテーションを更新しました。これに伴い転記テキストなどの時間情報を一部修正しました。

談話行為の参照先の重複: 参照先の重複を修正しました

時間情報 韻律ラベリングのアノテーションの更新に伴い、転記テキストや形態論情報などに含まれる時間情報を一部修正しました。


係り受け情報の公開(2023年1月1日)

  • 係り受け情報を新たに公開しました。

音声ファイルの設定(2022年10月4日)

  • 音声ファイルは「個人IC:16kHz・モノラル、それ以外:16kHz・ステレオ」の設定で提供していますが、一部のファイルに関して高い設定(個人IC:48kHz・ステレオ、それ以外:48kHz)となっていたため、配布サイトの音声を更新しました【対象ファイルリスト】。なお、更新前の音声ファイルでも再生に問題はありません。

T009_011b 転記テキスト(2022年7月15日)

  • 会話 T009_011b について、映像・音声は9分10秒ありますが、2022年3月31日に提供した転記テキスト・短単位情報・長単位情報につきましては、3分24秒までしかありませんでした。このうち転記テキストについては、有償版契約者に対して9分10分まで書き起こしたものを配布サイトから提供します。【こちら】からダウンロードできます(中納言へのログインが必要です。有償版契約者に限ります)。