全文検索システム『ひまわり』

本ページの内容は,ver.1.5用です。1.6では(そのままでは)使用できません。

ver.1.6で形態素解析結果をアノテーションする方法は,マニュアル7章の「7.2 インポート時の詳細オプション」「7.4 形態素解析システムのセットアップ]」ご覧ください。

1.はじめに

 このページでは,Windows PC を対象に,『ひまわり』と MeCab (形態素解析システム) を USB メモリにインストールする方法を紹介します。USB メモリへのインストールなので,大学のPC教室のように,ソフトウェアを自分でインストールできない環境でも,『ひまわり』から MeCab が利用できるようになります。特に,『ひまわり』のテキストインポート機能と連携させれば,自分の用意したテキストに対して,形態素結果をアノテーションし,検索に活かすことができます。

 なお,2章で行う内容をパッケージ化したものを3章で配布しています。2章をざっと読んだ上で,パッケージを試してみることをおすすめします。

2.USB メモリへのインストール方法

2.1 『ひまわり』

 Windows 環境では,『ひまわり』のフォルダを USB メモリにコピーするだけで,そのまま『ひまわり』を利用できます。『ひまわり』のダウンロードは,配布ページから行なって下さい。

2.2 MeCab

 現時点(2016-03-14)の Windows 版 MeCab は,インストーラの形式で配布されています。USB メモリ上にインストールすることもできますが,インストールの際に管理者権限が必要になりますので,次の手順で USB メモリにコピーして下さい。

  1. MeCab を管理者権限を持っている Windows PC にインストールする。
  2. MeCab のインストール先のフォルダ(通常は,C:\Program Files\MeCab)をUSB メモリ上の『ひまわり』のフォルダにコピーする。

 教育現場で利用する場合は,教師が上記2の MeCab フォルダを学生に再配布し,学生が各自 USB メモリにコピーするのがよいでしょう。

2.3 設定

 『ひまわり』から MeCab を起動するための設定は,config_xxx.db.xml に記述されています。末尾が .db.xml の設定ファイルは,形態素解析結果を検索に利用する際に利用するもので,例えば,『ひまわり』に同梱されている,青空文庫サンプルの場合は,config_aozora_sample.db.xml です。

 修正しなければならないのは,次の箇所です。「秀丸」などのテキストエディタなどで参照して下さい。

<li name="MeCab" os="Windows" annotation="morph"
    command="C:\Program Files\MeCab\bin\mecab"
    option="--node-format=%m\t%f[0]\t%f[1]\t%f[2]\t%f[3]\t%f[4]\t...

 この設定のうち,command= の部分が MeCab のインストール場所を指定しています。上記の設定では,MeCab のデフォルトのインストール先(C:\Program Files\MeCab\bin\mecab)になっています。

 USB メモリ上の『ひまわり』フォルダに MeCab フォルダをコピーした場合は,次のように修正します。変更点は,command= と option= のところです。MeCab フォルダの場所は,『ひまわり』フォルダから相対的に設定しています。option の設定は,辞書の場所を指定するものです。

<li name="MeCab" os="Windows" annotation="morph"
    command="MeCab\bin\mecab"
    option="--rcfile=MeCab\etc\mecabrc --node-format=%m\t%f[0]\t%f[1]\t%f[2]\t%f[3]\t%f[4]\t...

 もし,MeCab フォルダを『ひまわり』フォルダの中の resources フォルダにコピーした場合は,次のようになります。

<li name="MeCab" os="Windows" annotation="morph"
    command="resources\MeCab\bin\mecab"
    option="--rcfile=resources\MeCab\etc\mecabrc --node-format=%m\t%f[0]\t%f[1]\t%f[2]\t%f[3]\t%f[4]\t...

 以上のように設定ファイルごとに MeCab の設定を行います。ただ,既存の資料をインポートする場合のように,設定ファイルが生成される場合は,生成のたびに変更する必要があります。そのため,何度も修正する必要が生じる場合は,生成される設定ファイルの雛形のファイル resources\template\defaultConfig.xml を上記と同様に変更して下さい。

2.4 形態素解析の実行

 修正した設定ファイルを[ファイル]⇒[新規]で読み込み,[ツール]⇒[アノテーション]⇒[外部プログラム]⇒[MeCab]を実行すると,設定対象の言語資料に対して,形態素解析が実行されます。正常に終了すれば,(青空文庫サンプルのように)形態素解析結果を検索に利用できるようになります。詳しくは,次のページを参照して下さい。

3.MeCab インストール用パッケージ

 上記で紹介した内容を簡単に実行するためのパッケージを用意しました。

 利用方法は,次のとおりです。

  1. USB メモリ上にインストールした『ひまわり』(ver.1.5.4以降)を起動し,ダウンロードしたパッケージを『ひまわり』にドラッグ&ドロップして下さい。
  2. 以上で,パッケージのインストールは終了です。インストールでは,次のことが行われます。
    • MeCab(ver.0.996) が『ひまわり』の resources フォルダにコピーされます。MeCab の著作権表示は次のとおりです。本パッケージ自体は,BSDライセンスに基づいて配布します。なお,MeCab は,USB メモリにコピーされるだけなので,オリジナルの MeCab に含まれるアンインストーラは削除してあります。
      Copyright (c) 2001-2008, Taku Kudo
      Copyright (c) 2004-2008, Nippon Telegraph and Telephone Corporation
      All rights reserved.
    • 2.3 の修正を行った defaultConfig.xml が『ひまわり』フォルダ中の resources\template フォルダにコピーされます。
      • これにより,インポート時に生成される設定ファイルは,『ひまわり』フォルダ中の MeCab を利用します。
      • ただし,既存の設定ファイル(例えば,青空文庫サンプル)に変更はありません。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2018-12-20 (木) 13:25:00 (304d)