全文検索システム『ひまわり』/簡単な検索用データの作成方法2 の履歴ソース(No.36)

[[全文検索システム『ひまわり』]]


&color(red){&size(20){本ページは作成中です。};};



目次
#contents

*１．はじめに [#f8ad28fc]
-『青空文庫』（テキスト版）を例に，テキストファイルを『ひまわり』にインポートする方法を説明します。
-『ひまわり』ver.1.5 を使用します。ver.1.3 では動作しません。 
-作業環境として，Windows 環境を想定しています。

*２．用意するもの [#aa9649a3]
-[[『ひまわり』 ver.1.5 >全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.5]]のインストール
-テキストエディタ ... 以下のテキストファイルの編集ができるもの
--文字コード： Unicode (UTF-16 Byte Order Mark 付き)
--改行コード： LF
--例: [[サクラエディタ(ver.2.x)>http://sakura-editor.sourceforge.net/]]， [[秀丸エディタ>http://hide.maruo.co.jp/software/hidemaru.html]]
- 検索用テキストファイルのサンプルアーカイブ

*３．資料のインポート手順 [#ecb6e274]
**3.1 検索用テキストファイルの収集 [#u8c87c7c]
　まず，検索用のテキストファイルを集めます。ここで対象とする「テキストファイル」とは，ファイル名が「～.txt」というように，「.txt」で終わるファイルのことです。今回は，簡単のためにサンプルアーカイブを用意しました。アーカイブを解凍し，次のようなフォルダの構造で，四つの作品が収録されていることを確認してください。

 + 青空サンプル
   +- 芥川竜之介
   |  +- 蜘蛛の糸.txt
   |  +- 羅生門.txt
   |
   +- 宮沢賢治
      +- 風の又三郎.txt
      +- 銀河鉄道の夜.txt

　もちろん，自分でテキストファイルを収集したり，テキストエディタで作成したりしてもかまいません。ただし，その際は，上記のように，一つのフォルダの中にファイルをまとめてください。また，著者名をフォルダ名に，作品名をファイル名にすると，著者名，作品名を検索のときに利用できます。ファイル名の末尾は，「.txt」にすることにも注意してください。

　なお，『青空文庫』の作品を収集する場合は，「ファイル種別」が「テキストファイル」のデータをダウンロードして下さい。次の図は，芥川竜之介の「[[芋粥>http://www.aozora.gr.jp/cards/000879/card55.html]]」のダウンロードベージです。

#ref(./text_download.png,center,wrap,100%,テキストのダウンロード);




** 3.2 『ひまわり』へのインポート [#fb9449db]
　上記の四つのファイルを『ひまわり』にインポートします。インポートするには，[ファイル]→インポートを実行してください。

#ref(./import_menu.png,center,wrap,90%,インポートの実行);

　すると，次のウィンドウが現れますので，「参照」ボタンを押して，検索用のテキストファイルをまとめたフォルダ（上記の場合は，「青空サンプル」フォルダ）を選択して下さい。選択すると，自動的にコーパス名が「青空サンプル」になります。好きな名前を付けてもかまいません。設定が済んだら，「インポート」ボタンを押して，インポートを開始します。

#ref(./import_target.png,center,wrap,80%,インポートの対象);

　1～2分程度でインポートは終了し，成功すれば，次のような画面が出てきます。これで，『ひまわり』へのインポートは完了し，検索できる状態になります。

#ref(./import_result.png,center,wrap,70%,インポート結果);

** 3.3 インポートした資料の確認 [#mb059f45]
　それでは，用意した資料をすべて取り込めたかを確認するために，作品一覧を出してみます。[ツール]→「タイトル，著者」を実行して下さい。正しく取り込めていれば，次のようなリストが表示されるはずです。「タイトル」欄には，ファイル名に指定した作品名が，「path」欄にはコーパス名，フォルダ構造をまとめた情報が表示されます。

#ref(./import_article_list2.png,center,wrap,90%,作品一覧);


** 3.4 インポートした資料の選択 [#a49dd1a2]
　『ひまわり』は設定ファイルを切り替えて，検索対象の資料を選択します。インポート機能を利用して作成した資料にも，専用の設定ファイルが自動的に作成されます。『ひまわり』がインストールされているフォルダに，次の二つの設定ファイルが作成されていることを確認して下さい。

- config_(コーパス名).xml        ...  全文検索機能のみを利用する場合の設定ファイル
- config_(コーパス名).db.xml     ...  人手のアノテーション，形態素解析結果のアノテーションなど，データベースを利用する場合の設定ファイル

　インポートした直後は，config_(コーパス名).xml が読み込まれた状態になります。別の設定ファイルを読み込むには，[ファイル]→「新規」を使って下さい。

#ref(./new.png,center,wrap,90%,設定ファルの読み込み);

　資料をインポートした時点で，config_(コーパス名).xml の機能をすべて利用することができます。これは，『ひまわり』ver.1.3 の機能と同等です。検索方法を始めとした具体的な使い方は，[[利用者マニュアル>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%CD%F8%CD%D1%BC%D4%A5%DE%A5%CB%A5%E5%A5%A2%A5%EB%2F1_5]]を参照して下さい。

　config_(コーパス名).db.xml の固有の機能，つまり，各種のアノテーションに関連する機能を利用するには，次節以降に述べることにします。

* ４．形態素解析結果の取り込み [#q86d781d]

　『ひまわり』ver.1.5 から，外部プログラムによるアノテーション結果や人手のアノテーションを『ひまわり』内部のデータベースに取り込むことができるようになりました。本節では，形態素解析システムの結果を『ひまわり』に取り込む方法について説明します。

** 4.1 形態素解析システムのインストール [#m7bfdc1c]
　今回は，形態素解析システムとして，[[MeCab>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html]]（主に，Windows版）を例に説明します。config_(コーパス名).db.xml には，MeCab のほか，[[JUMAN>http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN]] 用の設定が付属しています。

　Windows 版の MeCab のインストールは，[[Binary package for MS-Windows>http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html#download]]をダウンロードし，インストーラにしたがって，インストールして下さい。インストール時に「辞書の文字コード」の選択がありますが，「Shift_JIS」を選んで下さい。

　Windows 版以外の OS については，ソースをコンパイルするか，使用しているディストリビューションのパッケージを利用して下さい。なお，辞書の文字コードは，使用している OS のデフォルトの文字コードを指定して下さい。

#ref(./mecab_inst_encoding.png,center,wrap,90%,MeCab文字コード);

** 4.2 形態素解析結果の取り込みの実行 [#af449c12]
　形態素解析結果を『ひまわり』のデータベースに取り込むには，[ツール]→[アノテーション]→「MeCab」を実行して下さい。