全文検索システム『ひまわり』

 

現在,本コンテンツは,保守されていません。

 

1.はじめに

  • 『分類語彙表増補改訂版』(研究用データ)を『ひまわり』で利用する方法について説明します。
  • 本資料の内容は,次の環境でテストしています。本資料の内容をお試しいただく場合は,自己責任でお願いいたします。
    • 『ひまわり』(ver.1.2β03)
    • 環境1
      • OS: WindowsXP(SP2)
      • Memory: 512MB
      • Perl: ActivePerl ver.5.8.6.811
    • 環境2
      • OS: Debian GNU/Linux ver.3.0
      • Memory: 1GB
      • Perl: ActivePerl ver.5.8.6.811
  • 実行例は,次のとおりです。画像をクリックすると大きくなります。
     
    『分類語彙表増補改訂版』への適用

2.準備

3.変換手順

3.1 パッケージの解凍

  • 「準備」のところで示した filebun2him.lzh を解凍してください。このファイルは,LZH 形式で圧縮されていますので,Lhasa32 などをお使いください。
  • 解凍すると,Bun2Himawari フォルダが作成されます。
  • パッケージの内容
    • README.txt
    • bun2himawari.pl
    • b2h.bat
    • config_bunrui.xml
    • Corpora フォルダ

3.2 分類語彙表のデータのインストール

  • 『分類語彙表増補改訂版』(研究用データ)に同梱されている bunruidb.txt をご用意ください。
  • bunruidb.txt を上記 3.1 で作成された Bun2Himawari フォルダにコピーしてください。

3.3 変換の実行

  1. 次のいずれかの処理を行ってください。
    1. (Windows をお使いの方のみ): Bun2Himawari フォルダにある b2h.bat をダブルクリックしてください。なお,Windows の設定によっては,ファイル名のうち,拡張子の .bat が表示されない可能性があります。このアイコンhimawari_bat_icon.pngを目印にしてください。
    2. (Windows, Linux 共通): Bun2Himawari フォルダにおいて,次のコマンドを実行してください。
      perl bun2himawari.pl bunruidb.txt corpus.xml
  2. corpus.xml ファイルが作成されたかどうか確認してください。ファイルサイズは,約9MBです。
  3. corpos.xml を Corpora 中の Bunrui フォルダに移動してください。
  4. Corpora フォルダと config_bunrui.xml を『ひまわり』がインストールしてある場所にコピーしてください。

3.4 索引付け

 次に,作成した corpus.xml に対して,「索引付け」を行います。「索引付け」は,高速に全文検索するために必要な処理です。

 索引付けの手順は,次のとおりです。

  1. 『ひまわり』を起動してください。
  2. [ファイル]→[新規] で,設定ファイルの config_bunrui.xml を読み込んでください。
  3. [ツール]→[インデックス生成]を実行してください。この処理には,5〜10分程度かかります。
  4. 「インデックス生成が終了しました。」と表示されれば,索引付けは終了です。
    なお,なんらかの理由で,インデックス生成を再度行うときは,Bunrui フォルダ中の索引ファイル(拡張子が,.cix, .eix, .aix のファイル)をすべて削除してください。

 以上で,検索用データ作成は終了です。

4.使い方

  • 『ひまわり』を起動し,[ファイル]→[新規] で,設定ファイルの config_bunrui.xml を読み込んでください。
  • 『分類語彙表』サンプルの2節「使い方」 をご覧ください。設定ファイル名が異なるだけで使い方は同じです。

5.その他

  • 『分類語彙表増補改訂版』(研究用データ)を UFT-16 に変換している関係上,マイナス記号の入力が困難な場合があります。例えば,「−か日」を検索する場合のように,マイナスが検索文字列に含まれる場合は,この「−」をコピーしてお使いください。なお,UTF-16 だと文字コードは,0x2212 となります。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2015-05-18 (月) 00:00:00 (1617d)