転記テキスト

CEJC-Childモニター版の転記テキストは、CEJCで採用した基準に準拠しています。


2種類の単位

次の2つの単位で区切られた転記テキストを提供しています。 いずれも(1)話者ラベル、(2)開始時刻、(3)終了時刻、(4)発話内容の4つの情報が単位ごとに記されています。

①発話単位

  • 統語的・談話的・相互行為的なまとまりをもった単位で、話し手と聞き手が行為や情報を交換する際の基本単位として定義されています。
  • 詳細は【こちら】をご覧ください。
話者ラベル  開始時刻  終了時刻  発話
000_ゆか 422.012 429.224 なんか(0.220)じゃんけんで(D マ) (D サ) 一番最後まで負けたら:(0.416)(F あの:)(0.410)手伝う?。
002_母 426.591 427.060 うん。
002_母 429.545 429.951 うん。
001_父 429.720 430.100 うん。
000_ゆか 430.064 431.725 班長の手伝いをする。
000_ゆか 431.948 436.053 そして なんか(0.537)すごい攻撃して わーってなって。
000_ゆか 436.053 440.743 そして三年女子とか四年女子とかが(0.103)引き離そうとしてた。

②転記単位

  • 発話単位を、知覚可能なポーズや異なる音種(笑いなど)によって更に細かく切った単位です。
  • 音声との対応を細かく取りたい場合に適した単位です。
話者ラベル  開始時刻  終了時刻  発話
000_ゆか 422.012 422.715 なんか
000_ゆか 422.935 426.764 じゃんけんで(D マ) (D サ) 一番最後まで負けたら:
002_母 426.591 427.060 うん。
000_ゆか 427.180 427.938 (F あの:)
000_ゆか 428.348 429.224 手伝う?。
002_母 429.545 429.951 うん。
001_父 429.720 430.100 うん。
000_ゆか 430.064 431.725 班長の手伝いをする。
000_ゆか 431.948 432.890 そして なんか
000_ゆか 433.427 436.053 すごい攻撃して わーってなって。
000_ゆか 436.053 438.939 そして三年女子とか四年女子とかが
000_ゆか 439.042 440.743 引き離そうとしてた。

転記テキストのファイル形式

転記テキストは2種類の単位(発話単位・転記単位)ごとに以下の3つのファイル形式で提供されます。

ファイル形式  対応アプリケーション アプリケーションのサイト
CSVファイル  Excelやテキストエディタなど
EAFファイル  映像解析ソフトウェアELAN 【外部サイト】
TextGridファイル  音声分析ソフトウェアPraat 【外部サイト】



転記に使われるタグ一覧

タグ一覧

個人情報などに関わる仮名・伏字処理

本コーパスでは、 話者の名前、所属組織名、自宅・所属組織の住所・電話番号、旅券番号やマイナンバーなどの個人識別符号、 および本人が公開を希望しない箇所を、 仮名 かめい あるいは「*」(全角アスタリスク)で伏せ字化しています。