[[語種辞書『かたりぐさ』]] *『かたりぐさ』の利用例 +語種辞書『かたりぐさ』には,形態素解析システム『茶筌』に付属する辞書『IPADIC』の「見出し語」(表記),「読み」,「品詞名」,「活用型」の情報と,それに対応する「語種」の情報が含まれています。 --次の例の,「和」(和語),「漢」(漢語),「混」(混種語)のような記号が語種情報です。詳細は,[[利用マニュアル>かたりぐさ/利用マニュアル]]をご参照ください。 --次の例の,「和」(和語),「漢」(漢語),「混」(混種語)のような記号が語種情報です。詳細は,[[利用マニュアル>語種辞書『かたりぐさ』/利用マニュアル]]をご参照ください。 冬休み フユヤスミ 名詞-一般 和 冬至 トウジ 名詞-一般 漢 冬将軍 フユショウグン 名詞-一般 混 凍る コオル 動詞-自立 五段・ラ行 和 +『茶筌』を使って形態素解析を加えると,次のように,文が形態素に分割されます。 --次の例は,例文「言葉の研究でした」の形態素解析結果です(Windows版『茶筌』を使用。左から,出現形,『IPADIC』の見出し語,読み,品詞名,活用型,活用形)。 言葉 言葉 コトバ 名詞-一般 の の ノ 助詞-連体化 研究 研究 ケンキュウ 名詞-サ変接続 でし です デシ 助動詞 特殊・デス 連用形 た た タ 助動詞 特殊・タ 基本形 +この形態素解析結果と『かたりぐさ』の情報とを照合させて,次のような語種付きのデータを作ることができます。 --次の例では, 一番右の列に語種が付加されています。 言葉 言葉 コトバ 名詞-一般 和 の の ノ 助詞-連体化 和 研究 研究 ケンキュウ 名詞-サ変接続 漢 でし です デシ 助動詞 特殊・デス 連用形 和 た た タ 助動詞 特殊・タ 基本形 和 --Windows環境での作業手順については,[[Windows環境での利用方法>語種辞書『かたりぐさ』/Windows環境での利用方法]]をご参照ください。 &br; &br; +このようにして得られたデータを集計することで,テキストにおける語種構成を調べるなど,研究への活用ができます。 &br; &br; --例: 毎日新聞一年分データ(2002年)の語種構成 (延べ形態素数: 14,130,238) &br; &br; &ref(mainichi2002.png); &br; ---上記の比率は,次のものを除いて算出されています。 (これらを含めた延べ形態素数: 33,413,385)&br; ・ 助詞・助動詞,固有名詞(『IPADIC』の品詞名「名詞-固有名詞」),数詞(同「名詞-数」),記号&br; ・ 未知語(『IPADIC』に登録されていない文字列が形態素として切り出されたもの)&br; ・ 複数の語種の可能性のある語(例:「年月」…「トシツキ(和語)/ネンゲツ(漢語)」) ---出典:&br; 山口昌也・茂木俊伸・桐生りか・田中牧郎(2004)「語種との関係に基づいた新聞記事における語彙の時間的変化分析」『社会言語科学会第13回大会発表論文集』pp.113-116 +研究事例: --山口昌也・茂木俊伸・桐生りか・田中牧郎(2004)「語種との関係に基づいた新聞記事における語彙の時間的変化分析」『社会言語科学会第13回大会発表論文集』pp.113-116 --茂木俊伸・山口昌也・丸山岳彦・田中牧郎(2005)「語種辞書『かたりぐさ』の開発と月刊雑誌の語種構成分析」『言語処理学会第11回年次大会発表論文集』pp.341-344