語種辞書『かたりぐさ』

『かたりぐさ』の利用例

  1. 語種辞書『かたりぐさ』には,形態素解析システム『茶筌』に付属する辞書『IPADIC』の「見出し語」(表記),「読み」,「品詞名」,「活用型」の情報と,それに対応する「語種」の情報が含まれています。
    • 次の例の,「和」(和語),「漢」(漢語),「混」(混種語)のような記号が語種情報です。詳細は,利用マニュアルをご参照ください。
      冬休み  フユヤスミ   名詞-一般        和
      冬至   トウジ     名詞-一般        漢
      冬将軍  フユショウグン 名詞-一般        混
      凍る   コオル     動詞-自立 五段・ラ行  和
  2. 『茶筌』を使って形態素解析を加えると,次のように,文が形態素に分割されます。
    • 次の例は,例文「言葉の研究でした」の形態素解析結果です(Windows版『茶筌』を使用。左から,出現形,『IPADIC』の見出し語,読み,品詞名,活用型,活用形)。
      言葉  言葉  コトバ    名詞-一般
      の   の   ノ      助詞-連体化
      研究  研究  ケンキュウ  名詞-サ変接続
      でし  です  デシ     助動詞      特殊・デス  連用形
      た   た   タ      助動詞      特殊・タ   基本形
  3. この形態素解析結果と『かたりぐさ』の情報とを照合させて,次のような語種付きのデータを作ることができます。
    • 次の例では, 一番右の列に語種が付加されています。
      言葉  言葉  コトバ    名詞-一般                和
      の   の   ノ      助詞-連体化               和
      研究  研究  ケンキュウ  名詞-サ変接続              漢
      でし  です  デシ     助動詞      特殊・デス  連用形  和
      た   た   タ      助動詞      特殊・タ   基本形  和
    • Windows環境での作業手順については,Windows環境での利用方法をご参照ください。

  4. このようにして得られたデータを集計することで,テキストにおける語種構成を調べるなど,研究への活用ができます。

    • 例: 毎日新聞一年分データ(2002年)の語種構成 (延べ形態素数: 14,130,238)

      mainichi2002.png
      • 上記の比率は,次のものを除いて算出されています。 (これらを含めた延べ形態素数: 33,413,385)
         ・ 助詞・助動詞,固有名詞(『IPADIC』の品詞名「名詞-固有名詞」),数詞(同「名詞-数」),記号
         ・ 未知語(『IPADIC』に登録されていない文字列が形態素として切り出されたもの)
         ・ 複数の語種の可能性のある語(例:「年月」…「トシツキ(和語)/ネンゲツ(漢語)」)
      • 出典:
         山口昌也・茂木俊伸・桐生りか・田中牧郎(2004)「語種との関係に基づいた新聞記事における語彙の時間的変化分析」『社会言語科学会第13回大会発表論文集』pp.113-116
  5. 研究事例:
    • 山口昌也・茂木俊伸・桐生りか・田中牧郎(2004)「語種との関係に基づいた新聞記事における語彙の時間的変化分析」『社会言語科学会第13回大会発表論文集』pp.113-116
    • 茂木俊伸・山口昌也・丸山岳彦・田中牧郎(2005)「語種辞書『かたりぐさ』の開発と月刊雑誌の語種構成分析」『言語処理学会第11回年次大会発表論文集』pp.341-344

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-01-18 (月) 00:00:00 (3563d)