短単位情報

CEJCモニター公開版には、長短2種類の形態論情報のうち、短単位情報が含まれています。


短単位とは

短単位は、言語の形態的側面に着目して規定した言語単位です。 短単位の認定に当たっては、まず現代語において意味を持つ最小の単位(以下、最小単位と呼びます)を規定します。 その上で、最小単位を文節の範囲内で短単位の認定規定に基づいて結合させる(又は結合させない)ことにより、 短単位を認定します。短単位の詳細については以下をご覧ください。


CEJCモニター版における短単位情報

  • 転記テキストを対象に、形態素解析器MeCabと形態素解析用辞書UniDicを用いて自動解析した上で、人手による修正を加えました。
  • 解析の主たる対象は、転記テキストから各種タグを取り除いたものになります。
  • 「タグ付き書字形」には、転記テキストにおける各種タグを復元したものが記されています。
  • 「発音形出現形」には、「ゲーイン(原因)」や「ソント(相当)」のような発音の怠けや言い誤り、「すっごーい(凄い)」などの強調等による母音の引き延ばしや音の詰まりを除き、丁寧に発音した場合に生じると予想される形が記されています。
  • 「発音」には、こうした発音の怠けや母音の引き延ばしを反映した発音情報が記されています。


語彙表

語彙表は 【こちら】 をご覧ください。(現在準備中)