アノテーション

200時間に対して、映像データ、音声データ、転記テキスト、短単位情報(人手修正)、長単位情報(自動解析)を提供します。また、個人密着法で収録した会話185時間の中から20時間を選別して「コア」とし、人手修正・ 付与した複数のアノテーションを提供します。

情報の種類 コーパス全体 コア 中納言 ファイル名(エンコーディング) 仕様
短単位情報 ○ 人手修正 会話ID-morphSUW.csv(Shift_JIS) こちら
長単位情報 ○ 自動解析 会話ID-morphLUW.csv(Shift_JIS) こちら
係り受け情報 × × 【詳細はこちらのサイト】 こちら
談話行為情報 × × 会話ID-dialogAct.csv(Shift_JIS) こちら
韻律情報 × × 会話ID_IC番号-xjtobi.TextGrid(UTF-8) こちら



形態論情報(短単位・長単位)

形態論情報のうち短単位は、言語の形態的側面に着目して規定した言語単位です。現代語において意味を持つ最小の単位(最小単位)を規定し、その上で、最小単位を文節の範囲内で短単位の認定規定に基づいて結合させる(又は結合させない)ことにより、短単位を認定します。また長単位は、文節を基にした単位です。文節を認定した上で、各文節の内部を規則に従って自立語部分と付属語部分に分割することにより、長単位を認定します。形態論情報の詳細や短単位情報付与の流れは以下をご覧ください。


有償版で提供される短単位・長単位には次の情報が含まれています。

短単位長単位補足
1会話ID会話ID
2短単位連番長単位連番
3文頭フラグ文頭フラグ発話単位の冒頭(B)か否(I)か
4話者ラベル話者ラベル
5書字形書字形同じ語形に所属するものとして表記の変異を区別したもの
6語彙素読み語彙素読み語彙素の読みの情報
7語彙素語彙素国語辞書の見出しに相当
8品詞品詞品詞の情報
9活用型活用型動詞・形容詞・助動詞・一部の接尾辞の活用型
10活用形活用形動詞・形容詞・助動詞・一部の接尾辞の活用形
11語種語種和語・漢語・外来語・混種語・記号の別
12語彙素細分類語彙素細分類
13語形語形同じ語彙素に所属するものとして語形の変異を区別したもの
14タグ付き書字形タグ付き書字形書字形に転記テキストのタグを付与したもの
15発音形出現形発音形出現形語形に対応する発音の形
16発音発音言い誤りなどを含む実際の発音の形
17発話単位の開始時刻発話単位の開始時刻当該単語を含む発話単位の開始時刻
18発話単位の終了時刻発話単位の終了時刻当該単語を含む発話単位の終了時刻
19転記単位の開始時刻転記単位の開始時刻当該単語を含む転記単位の開始時刻
20転記単位の終了時刻転記単位の終了時刻当該単語を含む転記単位の終了時刻
21仮名仮名人名等を仮名(カメイ)にしているか(1)していないか(0)
22文節頭フラグ文節の冒頭(B)か否(I)か


短単位の語彙表は 【こちら】 をご覧ください。


係り受け情報

コアを対象に発話単位を範囲に認定した文節間の係り受け関係の情報を提供します。BCCWJ-DepParaの基準に準じていますが、以下に示すように、通常の係り受けの "D",フィラーや言いよどみなど係り先が決められないものの"F"などのラベルを付与しています。

ラベル説明
D通常の係り受け
Z文境界相当
B係り受けを付与するうえで後続文節と連結
F係り先が不定

係り受け情報については、【こちらのサイト】、および以下の文献を参照してください。

談話行為情報

コアを対象に、ISO 24617-2 をベースに日常会話用に整備した基準に基づき、発話単位ごとに人手で付与しています。

レベル1タグ:基本的な談話機能

タイプラベルの例
タスク情報提供・情報要求・依頼系・申し出・申し出への対処・注意獲得など
社会的付き合い管理挨拶・謝罪・感謝・謝罪への対処など
フィードバック(FB)FB肯定・FB了承・FB反復・FB語彙的反応など
その他非言語行動など

レベル2タグ:談話の展開や会話の調整に関わる情報(該当する場合に付与)

タイプラベルの例
順番管理順番取得・順番維持など
修復修復開始・修復操作など
談話構造化談話開始・談話終了など
回収回収・補完など
準備準備・準備への対処など
メタ発話情報読み上げ・冗談など

依存関係:発話間で結ばれる関係(該当する場合に付与)

ラベル説明
予測的1つ目の行為が特定の行為を要求するタイプのつながり
遡及的2つ目の行為が1つ目の行為に対する任意の反応を担うタイプのつながり
外部予測的発話以外でなされた1つ目の行為が特定の行為を要求するタイプのつながり
外部遡及的2つ目の行為が発話以外でなされた1つ目の行為に対する任意の反応を担うタイプのつながり

談話行為情報については以下を参照してください。


韻律情報

コアに含まれる157名の主たる話者(店員など一時的に会話に参加するものを除く)のうち、方言の使用状況や音声の質を考慮して152名を選別した上で(対象の詳細は【こちら】)、『日本語話し言葉コーパス』用に整備したX-JToBIの簡略版に準拠して韻律情報を付与しました。次に示す情報を含む TextGrid ファイル(音声分析ソフトPraat用のファイル)を提供します。

層名表現する情報ラベルの例
単語層語境界と語の音形、アクセント核
Break Index (BI) 層イントネーション境界の強さ2 (アクセント句境界)、3 (イントネーション句境界)
トーン層句末音調句末境界音調L%, (L%)H%, (L%)HL%, (L%)HLH%, (L%)LHL%, (L%)HLHL%
プロミネンス層トーンの変異PNLP, FR, HR, EUAP, raisedA
注釈層備考情報HBP, AYOR

提供するTextGridファイルには、上記のX-JToBI簡易版の情報に加え、利便性を考慮して、転記の発話テキスト(text)、単語の漢字仮名交じり表記(trans)、品詞情報(pos)が含まれています。


韻律情報については以下を参照してください。