国立国語研究所 〒190-8561 東京都立川市緑町10-2 Tel. 0570-08-8595 (ナビダイヤル)
© National Institute for Japanese Language and Linguistics
CEJC-Childモニター版では、短単位と長単位の2種類の形態論情報提供しています。なお長単位情報は中納言版のみの提供です。
| ハードディスク版 | 中納言版 | |
|---|---|---|
| 短単位情報 | ○ | ○ |
| 長単位 | × | ○ |
形態論情報のうち短単位は、言語の形態的側面に着目して規定した言語単位です。現代語において意味を持つ最小の単位(最小単位)を規定し、その上で、最小単位を文節の範囲内で短単位の認定規定に基づいて結合させる(又は結合させない)ことにより、短単位を認定します。また長単位は、文節を基にした単位です。文節を認定した上で、各文節の内部を規則に従って自立語部分と付属語部分に分割することにより、長単位を認定します。形態論情報の詳細や短単位情報付与の流れは以下をご覧ください。
ハードディスク版で提供される短単位・長単位には次の情報が含まれています。
| 列 | 短単位 | 長単位 | 補足 |
|---|---|---|---|
| 1 | 会話ID | 会話ID | |
| 2 | 短単位連番 | 長単位連番 | |
| 3 | 文頭フラグ | 文頭フラグ | 発話単位の冒頭(B)か否(I)か |
| 4 | 話者ラベル | 話者ラベル | |
| 5 | 書字形 | 書字形 | 同じ語形に所属するものとして表記の変異を区別したもの |
| 6 | 語彙素読み | 語彙素読み | 語彙素の読みの情報 |
| 7 | 語彙素 | 語彙素 | 国語辞書の見出しに相当 |
| 8 | 品詞 | 品詞 | 品詞の情報 |
| 9 | 活用型 | 活用型 | 動詞・形容詞・助動詞・一部の接尾辞の活用型 |
| 10 | 活用形 | 活用形 | 動詞・形容詞・助動詞・一部の接尾辞の活用形 |
| 11 | 語種 | 語種 | 和語・漢語・外来語・混種語・記号の別 |
| 12 | 語彙素細分類 | 語彙素細分類 | |
| 13 | 語形 | 語形 | 同じ語彙素に所属するものとして語形の変異を区別したもの |
| 14 | タグ付き書字形 | タグ付き書字形 | 書字形に転記テキストのタグを付与したもの |
| 15 | 発音形出現形 | 発音形出現形 | 語形に対応する発音の形 |
| 16 | 発音 | 発音 | 言い誤りなどを含む実際の発音の形 |
| 17 | 発話単位の開始時刻 | 発話単位の開始時刻 | 当該単語を含む発話単位の開始時刻 |
| 18 | 発話単位の終了時刻 | 発話単位の終了時刻 | 当該単語を含む発話単位の終了時刻 |
| 19 | 転記単位の開始時刻 | 転記単位の開始時刻 | 当該単語を含む転記単位の開始時刻 |
| 20 | 転記単位の終了時刻 | 転記単位の終了時刻 | 当該単語を含む転記単位の終了時刻 |
| 21 | 仮名 | 仮名 | 人名等を仮名(カメイ)にしているか(1)していないか(0) |
| 22 | 文節頭フラグ | 文節の冒頭(B)か否(I)か |
語数表は 【こちら】 をご覧ください。