転記テキスト

2種類の単位

有償版では、次の2つの単位で区切られた転記テキストを提供しています。 いずれも(1)話者ラベル、(2)開始時刻、(3)終了時刻、(4)発話内容の4つの情報が単位ごとに記されています。

①発話単位

  • 統語的・談話的・相互行為的なまとまりをもった単位で、話し手と聞き手が行為や情報を交換する際の基本単位として定義されています。
  • 詳細は【こちら】をご覧ください。
話者ラベル  開始時刻  終了時刻  発話
IC03_さとし  855.867  858.194  こっち(D ライ) スーパーと言えばライフだと思ってたけど:。
IC03_さとし  859.203  860.728  案外そうでも:(0.382)ないの?。
IC01_一ノ宮 860.33 860.722 うん。
IC01_一ノ宮 860.958 861.88 案外そうでもない。
IC03_さとし 861.944 8862.237 うん。
IC03_さとし 862.322 864.244 サミット(0.736)もあるし。

②転記単位

  • 発話単位を、知覚可能なポーズや異なる音種(笑いなど)によって更に細かく切った単位です。
  • 音声との対応を細かく取りたい場合に適した単位です。
話者ラベル  開始時刻  終了時刻  発話
IC03_さとし  855.867  858.194  こっち(D ライ) スーパーと言えばライフだと思ってたけど:。
IC03_さとし  859.203  860.026  案外そうでも:
IC01_一ノ宮 860.33 860.722 うん。
IC03_さとし 860.408 860.728 ないの?。
IC01_一ノ宮 860.958 861.88 案外そうでもない。
IC03_さとし 861.944 862.237 うん。
IC03_さとし 862.322 862.869 サミット
IC03_さとし 863.605 864.244 もあるし。

転記テキストのファイル形式

転記テキストは2種類の単位(発話単位・転記単位)ごとに以下の3つのファイル形式で提供されます。

対応アプリケーション ファイル名:発話単位 ファイル名:転記単位 関連資料
Excelやテキストエディタなど 会話ID-luu.csv 会話ID-transUnit.csv
映像解析ソフトウェアELAN * 会話ID-luu.eaf 会話ID-transUnit.eaf モニター公開版講習会資料
音声分析ソフトウェアPraat 会話ID-luu.TextGrid 会話ID-transUnit.TextGrid モニター公開版講習会資料

* eafファイルは映像・音声データと同じフォルダに置くと eafの起動と合わせて映像・音声ファイルを自動で読み込むことができます




転記タグ一覧

タグ 概要
: 非語彙的な母音の引き延ばし すご:い,けれども:
% 非語彙的な音の詰まり す%ごい,解%析
(W) 言い誤り・発音の怠け等の一時的な発音エラー (W コエ|これ),(W ギーツ|技術)
(D) 語の言いさし (D コ)明日から,(D #)
? 疑問型上昇調(強調型上昇調は除く) 行きます?,コップ?
(T) 小さい声で発話している箇所 (T これじゃないのか)
(L) 笑いが生じている箇所,あるいは単独の笑い (L なんですけど),(L)
(C) 泣きながら発話している,あるいは単独の泣き (C なにが),(C)
(S) 歌いながら発話している,あるいは歌詞を伴わない歌 (S ヘイヘイホー),(S)
<> 発音に類する行為のうち会話の流れに関わるもの <舌打ち>,<咳>,<口笛>
(U) 聞き取りや語の判断が不確かな箇所 (U ジャック)に,(U 国産/特産)
(X) 語が不明な箇所 (X フンジン)中に,(X ###)
(K) タグ等のために漢字表記できず可読性が落ちる箇所 (K シ:ツ|質)問,(K ナ%シ|梨)
(M) 音や言葉自体が言及の対象とされており(W)などで対応すると把握しづらい箇所,設問や解答の番号もしくは音自体について言及している箇所 すごいを(M すっごい)と発音する
(O) 一般的に理解が難しい外国語・方言が用いられる箇所 (O ボッソワー),(O ###)
(B) 喃語。乳児の音声に対してのみ付与する (B アー),(B バ###)
(Y) 漢字表記の一般的な読みと発音が異なる箇所 (Y ゼツ|舌),(Y センゲン|浅間)
(G) 可読性が低い口語表現 (G 嫌|や:),(G もう|も)
(F) 「あの」「その」等がフィラーとして用いられる場合 (F あの),(F そーの:)
(I) 「あ」「え」等の感動詞が挿入構造の内部にあり発話単位として分割されていない箇所 最近 (I あっ) 付いてるみたいな。
発話単位末 食べます。,やったけど。,うん。
+ 知覚可能な休止により1短単位が分割される箇所 す+ ごい ,神+ 田川
(R) 個人情報などに関わる仮名・伏字処理を行った箇所 (R 国語)大学の(R 佐藤)さん
@ 転記に対するコメント * お願いしま:す。@店員への応答
(時間) or (.) [発話単位のみ] 知覚可能なポーズ長(秒)。0.1秒より短いポーズは . (ピリオド)で表す。 サミット(0.736)もあるし。,今(.)えーっと。

* コメントにおいて [[ ]] に囲まれた8桁の英数記号は話者IDを示している (例: @(R 岩)は[[K001_021]]の夫の愛称)。

話者ラベルについて

「IC01_一ノ宮」などの話者ラベル(speakerID)は、各話者が装着したICの番号と、各話者の愛称に相当するラベル(仮名)の組合せで構成されています。このうち愛称に相当するラベル(仮名)は、同じ協力者が集めた会話の中では全て同じものが使われています。IC番号の部分については、ICから開始するもの、NあるいはZから開始するものがあります。それぞれ次の通りです。


個人情報などに関わる仮名・伏字処理

本コーパスでは、 話者の名前、所属組織名、自宅・所属組織の住所・電話番号、旅券番号やマイナンバーなどの個人識別符号、 および本人が公開を希望しない箇所を、 仮名 かめい あるいは「*」(全角アスタリスク)で伏せ字化しています。


「コア」に対する転記の詳細化

「コア」20時間に対しては、以下の情報を付与するなどして情報を詳細化した転記テキストも提供しています。

特徴 タグ 概要
時間 [ 発話の重なり始め A: 違う[よね.。[たぶん.。[これたぶん.。
B: [う[ーん.。[たぶん.。
= 発話が途切れなく密着 A: 実験の話しね?=。
B: =うん.。
笑い (L ) 呼気:母音あり 聞き取れるもののみ (L hahahahh)
吸気:母音なし (L .hhhh)
音調 , 継続音調 カレンダー作ってくれたけどさ:,。(0.9)パソコンないと見れないじゃ:ん?。
_ 平坦音調 それ貸す:_。え.。何.。スペースを貸してくれるってこと?。
. 下降音調 代わってくれたの.。
? 上昇調(疑問) 痩せてたのね?。
^ 上昇調(疑問以外) ふーん^。
- 言いさし じゃ定期は 定期はいら-。
: 母音の引き延ばし ふー::ん.。

転記テキストは以下の3つのファイル形式で提供されます。

対応アプリケーション ファイル名:転記単位
Excelやテキストエディタなど 会話ID-transUnit2.csv
映像解析ソフトウェアELAN 会話ID-transUnit2.eaf
音声分析ソフトウェアPraat 会話ID-transUnit2.TextGrid