語種辞書『かたりぐさ』

1.はじめに

  • 本ページでは,語種辞書『かたりぐさ』を Windows 環境で利用するための方法をご紹介します。
    • 『かたりぐさ』は,単体では動作しません。
  • 『かたりぐさ』を利用した語種調査は,次の手順で行います。
    • (1) 形態素解析: 語種構成を調べたいテキストを,形態素解析システム『茶筌』を使って,形態素に分割する。
    • (2) 語種情報の付与: 『茶筌』の解析結果(形態素のリスト)と,『かたりぐさ』の情報を照合し,解析結果に語種情報を付与する。
    • (3) 集計: 照合の結果(語種情報の付いた形態素のリスト)を集計する。
  • 以下では,これらの手順について説明します。
  • 本ページの手順を実行することによって生じた損害への責任は一切負いかねますので,ご了承ください。

2.準備

2.1 動作環境

  • Windows 版『茶筌』(WinCha)が利用できる環境
  • プログラミング言語 Perl が実行できる環境

2.2 必要となるプログラム,ファイル

  1. 形態素解析システム『茶筌』 Windows 版(WinCha)
    • Windows 版『茶筌』(WinCha)をダウンロードし,インストールしてください。
      • Wincha は,奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座(松本研究室)の 『茶筌』のページ で無償で配布されています(リンク「茶筌の配布」へお進みください)。
      • バージョンが複数ある場合は, cha21244sp5.exe をお使いください。
  2. Perl
    • Perl (ver.5.8.6 以上) をダウンロードし,インストールしてください。
  3. 語種辞書『かたりぐさ』
  4. 『かたりぐさ』適用のためのパッケージ
    • 語種情報付与用の file語種辞書『かたりぐさ』適用パッケージ をダウンロードしてください。本ページでは,GPL ライセンスに基づいて,このパッケージを配布しています。
    • ダウンロードされたファイルはLZH形式で圧縮されていますので,解凍ソフトを利用して解凍してください。
  5. 語種構成の調査対象となるテキストファイル
    • テキストファイルは,文字コードを Shift_JIS にしてください(全角文字で統一しておくと,形態素解析の際に有利かと思います)。

3.手順

3.1 形態素解析

  • 調査対象のテキストファイルを,『茶筌』(WinCha)で形態素解析します。
    • WinCha の利用方法は,WinCha のReadmeファイル等をご確認ください。
    • 表示項目は,「表層語」,「基本形」,「読み」,「品詞」,「活用」の5項目にチェックを入れてください。区切りは「(タブ)」を選択してください。

(例)

  • 例えば,
    この例文でテストしてみます。
    という文が入力されたテキストファイルが,調査対象だとします。
     まず,テキストエディタ(「メモ帳」等)に上の例文を入力して, test.txt という名前で保存してください。
     次に,このファイルを,上の設定の WinCha にドラッグ&ドロップすると,同じフォルダ内に test.txt.cha というファイルが作成されます (※ファイルができない場合,「ファイルの先頭を表示しますか」と聞かれたときに「キャンセル」を選択するとうまくいくようです)。
     test.txt.cha の中身は,次のようになっています。左から,「表層語(出現形)」,「基本形」,「読み」,「活用型」,「活用形」 の順です。
    この  この  コノ   連体詞
    例文  例文  レイブン 名詞-一般
    で   で   デ    助詞-格助詞-一般
    テスト テスト テスト  名詞-サ変接続
    し   する  シ    動詞-自立     サ変・スル 連用形
    て   て   テ    助詞-接続助詞
    み   みる  ミ    動詞-非自立    一段    連用形
    ます  ます  マス   助動詞      特殊・マス 基本形
    。   。   。    記号-句点
    EOS

3.2 語種情報の付与

  • 次のファイルを,同じフォルダ(場所は任意)に置きます。
    • (1) WinCha の形態素解析結果
    • (2) 上記2.の 3. で用意した『かたりぐさ』本体(katarigusa.txt)
    • (3) 上記2.の 4. で用意したパッケージの中身(add_gosyu.bat および add_gosyu.pl)
  • add_gosyu.bat をダブルクリックすると,コマンドプロンプトの黒い画面が現れた後,語種情報が付与されたファイルが同じフォルダ内に出力されます。
    • パッケージに含まれる add_gosyu.bat は,この節で示している「(例)」のファイル名に対応しています。入力となる上記 (1) のファイル名や,語種情報付き出力結果のファイル名を変更したい場合は, add_gosyu.bat をテキストエディタ(「メモ帳」等)で編集してください。
      perl add_gosyu.pl katarigusa.txt test.txt.cha > gosyu_test.txt
      のうち,「test.txt.cha」の部分が入力となるファイル名,「gosyu_test.txt」の部分が出力となるファイル名です。これらの箇所を,適宜書き換えてご利用ください(※ただし,ファイル名は半角英数字にしてください)。

(例)

  • 先ほどの test.txt.cha の場合,add_gosyu.bat を実行すると,同じフォルダ内に gosyu_test.txt というファイルが作成されます。
    gosyu_test.txt の中身は,次のようになっています。右2列に,「語種」と「語種を判定した読み」の情報が追加されています。
    この  この  コノ   連体詞                 和 コノ
    例文  例文  レイブン 名詞-一般                漢 レイブン
    で   で   デ    助詞-格助詞-一般            和 デ
    テスト テスト テスト  名詞-サ変接続              外 テスト
    し   する  シ    動詞-自立     サ変・スル 連用形  和 スル
    て   て   テ    助詞-接続助詞              和 テ
    み   みる  ミ    動詞-非自立    一段    連用形  和 ミル
    ます  ます  マス   助動詞      特殊・マス 基本形  和 マス
    。   。   。    記号-句点
    EOS

3.3 集計

  • 上の手順で出力されたファイルは,タブ区切りテキストの形になっているので,表計算ソフト(Excel 等)に読み込んで集計することができます。

4.補足事項

  • 形態素解析・語種情報付与に関して
  • Windows 版『茶筌』パッケージに含まれている WVShell で形態素解析を行った場合,解析結果の「見出し語」と「読み」の配列が WinCha の結果とは逆になるため,語種が正常に付与されません。 WVShell をご利用の場合は, add_gosyu.pl の31〜32行目,
    $FN_CHASEN_HYOUKI = 1;
    $FN_CHASEN_YOMI = 2;
    $FN_CHASEN_HYOUKI = 2;
    $FN_CHASEN_YOMI = 1;
    のように書き換えてください。
  • 出力されるファイルに関して
  • 『茶筌』の出力の設定によっては,次のように,一つの「読み」に複数の語種が付けられるなど,形態素解析結果と語種情報とが一致しなくなる場合が生じます。
    文	文	ブン	名詞-一般			漢/和	{ブン/フミ}
    このため,「語種を判定した読み」の欄として,『かたりぐさ』が語種情報の根拠としている IPADIC の「読み」欄を,一番右の列に出力するようにしてあります。
  • 分析に関して
    • 語種が付与される形態素の単位(長さ)は, IPADIC および『茶筌』の設定に依存します。
    • テキストに含まれる形態素数が大量になると,出力されるファイルを表計算ソフトで読み込めなくなる場合があります。お使いのソフトの仕様をご確認ください。

最終更新日: 2005-09-06, 作成日: 2005-03-24


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-01-18 (月) 00:00:00 (3505d)