短単位情報

CEJC-Childモニター版では、長短2種類の形態論情報のうち短単位情報のみを提供します。


短単位とは

短単位は、言語の形態的側面に着目して規定した言語単位です。 短単位の認定に当たっては、まず現代語において意味を持つ最小の単位(以下、最小単位と呼びます)を規定します。 その上で、最小単位を文節の範囲内で短単位の認定規定に基づいて結合させる(又は結合させない)ことにより、 短単位を認定します。短単位の詳細については以下をご覧ください。


CEJCモニター版の短単位として提供される基本情報(主要なものに限定)

基本情報(主要な情報)説明
会話ID
発話単位ID会話ID内で一意に発話単位を特定するID
話者ラベル・話者ID
書字形同じ語形に所属するものとして表記の変異を区別したもの
タグ付き書字形書字形に転記テキストのタグを付与したもの
語彙素ID
語彙素読み語彙素の読みの情報
語彙素国語辞書の見出しに相当
語彙素細分類
語形同じ語彙素に所属するものとして語形の変異を区別したもの
品詞品詞の情報
活用型動詞・形容詞・助動詞・一部の接尾辞の活用型
活用形動詞・形容詞・助動詞・一部の接尾辞の活用形
語種和語・漢語・外来語・混種語・記号の別
発音形出現形語形に対応する発音の形
発音言い誤りなどを含む実際の発音の形
仮名人名等を仮名(カメイ)にしているか(1)していないか(0)

短単位情報付与の流れ

  • 転記テキストを対象に、形態素解析器MeCabと形態素解析用辞書UniDicを用いて自動解析した上で、人手による修正を加えました。
  • 解析の主たる対象は、転記テキストから各種タグを取り除いたものになります。
  • 「タグ付き書字形」には、転記テキストにおける各種タグを復元したものが記されています。
  • 「発音形出現形」には、「ゲーイン(原因)」や「ソント(相当)」のような発音の怠けや言い誤り、「すっごーい(凄い)」などの強調等による母音の引き延ばしや音の詰まりを除き、丁寧に発音した場合に生じると予想される形が記されています。
  • 「発音」には、こうした発音の怠けや母音の引き延ばしを反映した発音情報が記されています。


語彙表・語数表

語彙表・語数表は 【こちら】 をご覧ください。