国立国語研究所 〒190-8561 東京都立川市緑町10-2 Tel. 0570-08-8595 (ナビダイヤル)
© National Institute for Japanese Language and Linguistics
200時間に対して、映像データ、音声データ、転記テキスト、短単位情報(人手修正)、長単位情報(自動解析)を提供します。また、個人密着法で収録した会話185時間の中から20時間を選別して「コア」とし、人手修正・ 付与した複数のアノテーションを提供します。
情報の種類 | コーパス全体 | コア | 中納言 | ファイル名(エンコーディング) | 仕様 |
---|---|---|---|---|---|
短単位情報 | ○ 人手修正 | ○ | ○ | 会話ID-morphSUW.csv(Shift_JIS) | ☞ こちら |
長単位情報 | ○ 自動解析 | ○ | ○ | 会話ID-morphLUW.csv(Shift_JIS) | ☞ こちら |
係り受け情報 | × | ○ | × | 【詳細はこちらのサイト】 | ☞ こちら |
談話行為情報 | × | ○ | × | 会話ID-dialogAct.csv(Shift_JIS) | ☞ こちら |
韻律情報 | × | ○ | × | 会話ID_IC番号-xjtobi.TextGrid(UTF-8) | ☞ こちら |
形態論情報のうち短単位は、言語の形態的側面に着目して規定した言語単位です。現代語において意味を持つ最小の単位(最小単位)を規定し、その上で、最小単位を文節の範囲内で短単位の認定規定に基づいて結合させる(又は結合させない)ことにより、短単位を認定します。また長単位は、文節を基にした単位です。文節を認定した上で、各文節の内部を規則に従って自立語部分と付属語部分に分割することにより、長単位を認定します。形態論情報の詳細や短単位情報付与の流れは以下をご覧ください。
有償版で提供される短単位・長単位には次の情報が含まれています。
列 | 短単位 | 長単位 | 補足 |
---|---|---|---|
1 | 会話ID | 会話ID | |
2 | 短単位連番 | 長単位連番 | |
3 | 文頭フラグ | 文頭フラグ | 発話単位の冒頭(B)か否(I)か |
4 | 話者ラベル | 話者ラベル | |
5 | 書字形 | 書字形 | 同じ語形に所属するものとして表記の変異を区別したもの |
6 | 語彙素読み | 語彙素読み | 語彙素の読みの情報 |
7 | 語彙素 | 語彙素 | 国語辞書の見出しに相当 |
8 | 品詞 | 品詞 | 品詞の情報 |
9 | 活用型 | 活用型 | 動詞・形容詞・助動詞・一部の接尾辞の活用型 |
10 | 活用形 | 活用形 | 動詞・形容詞・助動詞・一部の接尾辞の活用形 |
11 | 語種 | 語種 | 和語・漢語・外来語・混種語・記号の別 |
12 | 語彙素細分類 | 語彙素細分類 | |
13 | 語形 | 語形 | 同じ語彙素に所属するものとして語形の変異を区別したもの |
14 | タグ付き書字形 | タグ付き書字形 | 書字形に転記テキストのタグを付与したもの |
15 | 発音形出現形 | 発音形出現形 | 語形に対応する発音の形 |
16 | 発音 | 発音 | 言い誤りなどを含む実際の発音の形 |
17 | 発話単位の開始時刻 | 発話単位の開始時刻 | 当該単語を含む発話単位の開始時刻 |
18 | 発話単位の終了時刻 | 発話単位の終了時刻 | 当該単語を含む発話単位の終了時刻 |
19 | 転記単位の開始時刻 | 転記単位の開始時刻 | 当該単語を含む転記単位の開始時刻 |
20 | 転記単位の終了時刻 | 転記単位の終了時刻 | 当該単語を含む転記単位の終了時刻 |
21 | 仮名 | 仮名 | 人名等を仮名(カメイ)にしているか(1)していないか(0) |
22 | 文節頭フラグ | 文節の冒頭(B)か否(I)か |
短単位の語彙表は 【こちら】 をご覧ください。
コアを対象に発話単位を範囲に認定した文節間の係り受け関係の情報を提供します。BCCWJ-DepParaの基準に準じていますが、以下に示すように、通常の係り受けの "D",フィラーや言いよどみなど係り先が決められないものの"F"などのラベルを付与しています。
ラベル | 説明 |
---|---|
D | 通常の係り受け |
Z | 文境界相当 |
B | 係り受けを付与するうえで後続文節と連結 |
F | 係り先が不定 |
係り受け情報については、【こちらのサイト】、および以下の文献を参照してください。
コアを対象に、ISO 24617-2 をベースに日常会話用に整備した基準に基づき、発話単位ごとに人手で付与しています。
レベル1タグ:基本的な談話機能
タイプ | ラベルの例 |
---|---|
タスク | 情報提供・情報要求・依頼系・申し出・申し出への対処・注意獲得など |
社会的付き合い管理 | 挨拶・謝罪・感謝・謝罪への対処など |
フィードバック(FB) | FB肯定・FB了承・FB反復・FB語彙的反応など |
その他 | 非言語行動など |
レベル2タグ:談話の展開や会話の調整に関わる情報(該当する場合に付与)
タイプ | ラベルの例 |
---|---|
順番管理 | 順番取得・順番維持など |
修復 | 修復開始・修復操作など |
談話構造化 | 談話開始・談話終了など |
回収 | 回収・補完など |
準備 | 準備・準備への対処など |
メタ発話情報 | 読み上げ・冗談など |
依存関係:発話間で結ばれる関係(該当する場合に付与)
ラベル | 説明 |
---|---|
予測的 | 1つ目の行為が特定の行為を要求するタイプのつながり |
遡及的 | 2つ目の行為が1つ目の行為に対する任意の反応を担うタイプのつながり |
外部予測的 | 発話以外でなされた1つ目の行為が特定の行為を要求するタイプのつながり |
外部遡及的 | 2つ目の行為が発話以外でなされた1つ目の行為に対する任意の反応を担うタイプのつながり |
談話行為情報については以下を参照してください。
コアに含まれる157名の主たる話者(店員など一時的に会話に参加するものを除く)のうち、方言の使用状況や音声の質を考慮して152名を選別した上で(対象の詳細は【こちら】)、『日本語話し言葉コーパス』用に整備したX-JToBIの簡略版に準拠して韻律情報を付与しました。次に示す情報を含む TextGrid ファイル(音声分析ソフトPraat用のファイル)を提供します。
層名 | 表現する情報 | ラベルの例 |
---|---|---|
単語層 | 語境界と語の音形、アクセント核 | |
Break Index (BI) 層 | イントネーション境界の強さ | 2 (アクセント句境界)、3 (イントネーション句境界) |
トーン層 | 句末音調句末境界音調 | L%, (L%)H%, (L%)HL%, (L%)HLH%, (L%)LHL%, (L%)HLHL% |
プロミネンス層 | トーンの変異 | PNLP, FR, HR, EUAP, raisedA |
注釈層 | 備考情報 | HBP, AYOR |
提供するTextGridファイルには、上記のX-JToBI簡易版の情報に加え、利便性を考慮して、転記の発話テキスト(text)、単語の漢字仮名交じり表記(trans)、品詞情報(pos)が含まれています。
韻律情報については以下を参照してください。