国立国語研究所 〒190-8561 東京都立川市緑町10-2 Tel. 0570-08-8595 (ナビダイヤル)
© National Institute for Japanese Language and Linguistics
有償版では、次の2つの単位で区切られた転記テキストを提供しています。 いずれも(1)話者ラベル、(2)開始時刻、(3)終了時刻、(4)発話内容の4つの情報が単位ごとに記されています。
①発話単位
話者ラベル | 開始時刻 | 終了時刻 | 発話 |
---|---|---|---|
IC03_さとし | 855.867 | 858.194 | こっち(D ライ) スーパーと言えばライフだと思ってたけど:。 |
IC03_さとし | 859.203 | 860.728 | 案外そうでも:(0.382)ないの?。 |
IC01_一ノ宮 | 860.33 | 860.722 | うん。 |
IC01_一ノ宮 | 860.958 | 861.88 | 案外そうでもない。 |
IC03_さとし | 861.944 | 8862.237 | うん。 |
IC03_さとし | 862.322 | 864.244 | サミット(0.736)もあるし。 |
②転記単位
話者ラベル | 開始時刻 | 終了時刻 | 発話 |
---|---|---|---|
IC03_さとし | 855.867 | 858.194 | こっち(D ライ) スーパーと言えばライフだと思ってたけど:。 |
IC03_さとし | 859.203 | 860.026 | 案外そうでも: |
IC01_一ノ宮 | 860.33 | 860.722 | うん。 |
IC03_さとし | 860.408 | 860.728 | ないの?。 |
IC01_一ノ宮 | 860.958 | 861.88 | 案外そうでもない。 |
IC03_さとし | 861.944 | 862.237 | うん。 |
IC03_さとし | 862.322 | 862.869 | サミット |
IC03_さとし | 863.605 | 864.244 | もあるし。 |
転記テキストは2種類の単位(発話単位・転記単位)ごとに以下の3つのファイル形式で提供されます。
対応アプリケーション | ファイル名:発話単位 | ファイル名:転記単位 | 関連資料 |
---|---|---|---|
Excelやテキストエディタなど | 会話ID-luu.csv | 会話ID-transUnit.csv | |
映像解析ソフトウェアELAN * | 会話ID-luu.eaf | 会話ID-transUnit.eaf | モニター公開版講習会資料 |
音声分析ソフトウェアPraat | 会話ID-luu.TextGrid | 会話ID-transUnit.TextGrid | モニター公開版講習会資料 |
* eafファイルは映像・音声データと同じフォルダに置くと eafの起動と合わせて映像・音声ファイルを自動で読み込むことができます
タグ | 概要 | 例 |
---|---|---|
: | 非語彙的な母音の引き延ばし | すご:い,けれども: |
% | 非語彙的な音の詰まり | す%ごい,解%析 |
(W) | 言い誤り・発音の怠け等の一時的な発音エラー | (W コエ|これ),(W ギーツ|技術) |
(D) | 語の言いさし | (D コ)明日から,(D #) |
? | 疑問型上昇調(強調型上昇調は除く) | 行きます?,コップ? |
(T) | 小さい声で発話している箇所 | (T これじゃないのか) |
(L) | 笑いが生じている箇所,あるいは単独の笑い | (L なんですけど),(L) |
(C) | 泣きながら発話している,あるいは単独の泣き | (C なにが),(C) |
(S) | 歌いながら発話している,あるいは歌詞を伴わない歌 | (S ヘイヘイホー),(S) |
<> | 発音に類する行為のうち会話の流れに関わるもの | <舌打ち>,<咳>,<口笛> |
(U) | 聞き取りや語の判断が不確かな箇所 | (U ジャック)に,(U 国産/特産) |
(X) | 語が不明な箇所 | (X フンジン)中に,(X ###) |
(K) | タグ等のために漢字表記できず可読性が落ちる箇所 | (K シ:ツ|質)問,(K ナ%シ|梨) |
(M) | 音や言葉自体が言及の対象とされており(W)などで対応すると把握しづらい箇所,設問や解答の番号もしくは音自体について言及している箇所 | すごいを(M すっごい)と発音する |
(O) | 一般的に理解が難しい外国語・方言が用いられる箇所 | (O ボッソワー),(O ###) |
(B) | 喃語。乳児の音声に対してのみ付与する | (B アー),(B バ###) |
(Y) | 漢字表記の一般的な読みと発音が異なる箇所 | (Y ゼツ|舌),(Y センゲン|浅間) |
(G) | 可読性が低い口語表現 | (G 嫌|や:),(G もう|も) |
(F) | 「あの」「その」等がフィラーとして用いられる場合 | (F あの),(F そーの:) |
(I) | 「あ」「え」等の感動詞が挿入構造の内部にあり発話単位として分割されていない箇所 | 最近 (I あっ) 付いてるみたいな。 |
。 | 発話単位末 | 食べます。,やったけど。,うん。 |
+ | 知覚可能な休止により1短単位が分割される箇所 | す+ ごい ,神+ 田川 |
(R) | 個人情報などに関わる仮名・伏字処理を行った箇所 | (R 国語)大学の(R 佐藤)さん |
@ | 転記に対するコメント * | お願いしま:す。@店員への応答 |
(時間) or (.) | [発話単位のみ] 知覚可能なポーズ長(秒)。0.1秒より短いポーズは . (ピリオド)で表す。 | サミット(0.736)もあるし。,今(.)えーっと。 |
* コメントにおいて [[ ]] に囲まれた8桁の英数記号は話者IDを示している (例: @(R 岩)は[[K001_021]]の夫の愛称)。
「IC01_一ノ宮」などの話者ラベル(speakerID)は、各話者が装着したICの番号と、各話者の愛称に相当するラベル(仮名)の組合せで構成されています。このうち愛称に相当するラベル(仮名)は、同じ協力者が集めた会話の中では全て同じものが使われています。IC番号の部分については、ICから開始するもの、NあるいはZから開始するものがあります。それぞれ次の通りです。
本コーパスでは、 話者の名前、所属組織名、自宅・所属組織の住所・電話番号、旅券番号やマイナンバーなどの個人識別符号、 および本人が公開を希望しない箇所を、 仮名 あるいは「*」(全角アスタリスク)で伏せ字化しています。
「コア」20時間に対しては、以下の情報を付与するなどして情報を詳細化した転記テキストも提供しています。
特徴 | タグ | 概要 | 例 |
---|---|---|---|
時間 | [ | 発話の重なり始め |
A: 違う[よね.。[たぶん.。[これたぶん.。 B: [う[ーん.。[たぶん.。 |
= | 発話が途切れなく密着 | A: 実験の話しね?=。 B: =うん.。 | |
笑い | (L ) | 呼気:母音あり 聞き取れるもののみ | (L hahahahh) |
吸気:母音なし | (L .hhhh) | ||
音調 | , | 継続音調 | カレンダー作ってくれたけどさ:,。(0.9)パソコンないと見れないじゃ:ん?。 |
_ | 平坦音調 | それ貸す:_。え.。何.。スペースを貸してくれるってこと?。 | |
. | 下降音調 | 代わってくれたの.。 | |
? | 上昇調(疑問) | 痩せてたのね?。 | |
^ | 上昇調(疑問以外) | ふーん^。 | |
- | 言いさし | じゃ定期は 定期はいら-。 | |
: | 母音の引き延ばし | ふー::ん.。 |
転記テキストは以下の3つのファイル形式で提供されます。
対応アプリケーション | ファイル名:転記単位 |
---|---|
Excelやテキストエディタなど | 会話ID-transUnit2.csv |
映像解析ソフトウェアELAN | 会話ID-transUnit2.eaf |
音声分析ソフトウェアPraat | 会話ID-transUnit2.TextGrid |