転記テキスト

2種類の単位

次の2つの単位で区切られた転記テキストを提供しています。 いずれも(1)話者ラベル、(2)開始時刻、(3)終了時刻、(4)発話内容の4つの情報が単位ごとに記されています。

①発話単位

  • 統語的・談話的・相互行為的なまとまりをもった単位で、話し手と聞き手が行為や情報を交換する際の基本単位として定義されています。
  • 詳細は【こちら】をご覧ください。
話者ラベル  開始時刻  終了時刻  発話
IC03_さとし  855.867  858.202  こっち(W (D ライ)|ライフ) スーパーと言えばライフだと思ってたけど:。
IC03_さとし  859.195  860.782  案外そうでも:(0.275)ないの?。
IC01_一ノ宮 860.330 860.722 うん。
IC01_一ノ宮 860.919 861.947 案外そうでもない。
IC03_さとし 861.944 862.237 うん。
IC03_さとし 862.320 864.359 サミット(0.641)もあるし。

②転記単位

  • 発話単位を、知覚可能なポーズや異なる音種(笑いなど)によって更に細かく切った単位です。
  • 音声との対応を細かく取りたい場合に適した単位です。
話者ラベル  開始時刻  終了時刻  発話
IC03_さとし  855.867  858.202  こっち(W (D ライ)|ライフ)スーパーと言えばライフだと思ってたけど:。
IC03_さとし  859.195  860.112  案外そうでも:
IC01_一ノ宮 860.330 860.722 うん。
IC03_さとし 860.387 860.782 ないの?。
IC01_一ノ宮 860.919 861.947 案外そうでもない。
IC03_さとし 861.944 862.237 うん。
IC03_さとし 862.320 862.896 サミット
IC03_さとし 863.537 864.359 もあるし。

転記テキストのファイル形式

転記テキストは2種類の単位(発話単位・転記単位)ごとに以下の3つのファイル形式で提供されます。

ファイル形式  対応アプリケーション アプリケーションのサイト
CSVファイル  Excelやテキストエディタなど
EAFファイル  映像解析ソフトウェアELAN 【外部サイト】
TextGridファイル  音声分析ソフトウェアPraat 【外部サイト】



転記に使われるタグ一覧

タグ一覧

話者ラベルについて

「IC01_一ノ宮」などの話者ラベル(speakerID)は、各話者が装着したICの番号と、各話者の愛称に相当するラベル(仮名)の組合せで構成されています。このうち愛称に相当するラベル(仮名)は、同じ協力者が集めた会話の中では全て同じものが使われています。IC番号の部分については、ICから開始するもの、NあるいはZから開始するものがあります。それぞれ次の通りです。


個人情報などに関わる仮名・伏字処理

本コーパスでは、 話者の名前、所属組織名、自宅・所属組織の住所・電話番号、旅券番号やマイナンバーなどの個人識別符号、 および本人が公開を希望しない箇所を、 仮名 かめい あるいは「*」(全角アスタリスク)で伏せ字化しています。