短単位情報

CEJCモニター公開版には、長短2種類の形態論情報のうち、短単位情報が含まれています。


短単位とは

短単位は、言語の形態的側面に着目して規定した言語単位です。 短単位の認定に当たっては、まず現代語において意味を持つ最小の単位(以下、最小単位と呼びます)を規定します。 その上で、最小単位を文節の範囲内で短単位の認定規定に基づいて結合させる(又は結合させない)ことにより、 短単位を認定します。短単位の詳細については以下をご覧ください。


CEJCモニター版の短単位として提供される基本情報

情報説明
語彙素 国語辞書の見出しに相当
語彙素読み 語彙素の読み
語形 同じ語彙素に所属するものとして語形の変異を区別したもの
書字形 同じ語形に所属するものとして表記の変異を区別したもの
タグ付き書字形書字形に転記テキストのタグを付与したもの
発音形出現形 語形に対応する発音の形
発音 言い誤りなどを含む実際の発音の形
品詞 品詞の情報
活用型 動詞・形容詞・助動詞・一部の接尾辞の活用型
活用形 動詞・形容詞・助動詞・一部の接尾辞の活用形
語種 和語・漢語・外来語・混種語・記号の別

短単位情報付与の流れ

  • 転記テキストを対象に、形態素解析器MeCabと形態素解析用辞書UniDicを用いて自動解析した上で、人手による修正を加えました。
  • 解析の主たる対象は、転記テキストから各種タグを取り除いたものになります。
  • 「タグ付き書字形」には、転記テキストにおける各種タグを復元したものが記されています。
  • 「発音形出現形」には、「ゲーイン(原因)」や「ソント(相当)」のような発音の怠けや言い誤り、「すっごーい(凄い)」などの強調等による母音の引き延ばしや音の詰まりを除き、丁寧に発音した場合に生じると予想される形が記されています。
  • 「発音」には、こうした発音の怠けや母音の引き延ばしを反映した発音情報が記されています。


語彙表

語彙表は 【こちら】 をご覧ください。