全文検索システム『ひまわり』/利用者マニュアル/1_5/６．言語資料にアノテーションする

6. 言語資料にアノテーションする†

6.1 概要†

　『ひまわり』には，３種類のアノテーション機能があります。これらの機能を使うと，登録されている言語資料に付加的に情報をアノテーション（注釈付け）することができます。アノテーションしたデータは，元の言語資料にアノテーションされているデータと同様に検索することができます。

人手アノテーション ... 検索結果に対して人手でアノテーションします
外部アノテーション ... 形態素解析システムなど外部システムを使ったアノテーションです
データのインポート ... アノテーションデータをファイルからインポートします

　アノテーションした結果は，『ひまわり』内部のデータベースに保存されます。ただし，登録されている言語資料自体（XMLデータ）には変更は加えません。

↑

6.2 人手アノテーション†

　この機能は，検索した結果に対して，なんらかの情報をアノテーションするために利用します。例えば，必要な用例には○，不要な用例には×をつけるといった利用方法です。

　実際の例として，『ひまわり』に同梱されている『青空文庫サンプル』に対して，人手アノテーションしてみましょう。『青空文庫サンプル』は，3.1節を参考にして，設定ファイル config_aozora_sample.db.xml を読み込んでください。

　次の図のように，検索結果欄の「メモ１」「メモ２」列があります。この列は，他の列と異なり，編集できるようになっています。『青空文庫サンプル』の設定では，「メモ１」列が自由記述の入力，「メモ２」が選択式の入力となっています。

　「自由記述」の列の場合，その言葉のとおり，自由な記入ができます。ただし，長さは255文字までです。一方，「選択式」の場合，一覧からの選択して入力します。『青空文庫サンプル』の設定では，○×△からの選択です。選択項目の指定は，config_aozora_sample.db.xml の field_setting 要素を参照してください。

　なお，効率的なアノテーションのために，次の機能が用意されています。

アノテーションしたい範囲を選択し，右クリック→[マーク]を行うと，選択範囲の先頭の値がすべての欄にコピーされます。
選択範囲が１セルの場合，その値が当該の列のすべての欄にコピーされます。

　編集が終わったら，ウィンドウ右下の「保存する」ボタンを押してください。編集内容がデータベースに格納されます。「元に戻す」ボタンを押すと，編集前の状態に戻ります。

↑

6.3 自動アノテーション†

　自動アノテーションは，『ひまわり』とは別の外部プログラムを使って，『ひまわり』に登録されている言語資料にアノテーションします。『青空文庫サンプル』には，形態素解析システム JUMAN と MeCab 用の設定が入っており，言語資料に形態素解析結果をアノテーションすることができます。

　自動アノテーションを実行するには，[ツール]→[アノテーション]→[外部プログラム]から実行するプログラムを選択して下さい。選択したプログラムによるアノテーションが開始され，結果がデータベースに格納されます。

　この機能を使う場合は，次の点に留意して下さい。

JUMAN もしくは MeCab を事前にインストールしておいて下さい。検証は，次の環境で行なっています。解析時の文字コードは，OSのデフォルト値(Windows の場合はShift_JIS，Linux/MacOS ではUTF-8)を想定しています。
- JUMAN: ver.7.0 Windows 32bit版，および，Ubuntu 12.04版(ソースからコンパイル)
- MeCab: ver.0.996 Windows版，および，Ubuntu 12.04 版(ver.0.98-1 + mecab-ipadic-utf8)
すでに自動アノテーションしている場合は，上書きされます。
言語資料が巨大な場合，アノテーションに時間がかかる場合があります。また，ハードディスクに十分な空き容量が必要です。
処理の途中でエラーが発生することを考慮し，himawari.exe ではなく，himawari_debug.exe を使用することをお勧めします。himawari_debug.exe と himawari.exe に機能的な違いはありませんが，himawari_debug.exe は処理途中のメッセージを表示します。

　自動アノテーションが完了したら，専用の設定ファイル（DB検索用設定ファイル）を3.1節の方法で読み込んでください。５章の手順で『ひまわり』に言語資料をインポートした場合は，末尾が，.db.xml の設定ファイル（例： config_コーパス名.db.xml）がDB検索用設定ファイルです。

　DB検索用設定ファイルを読み込むと，次のように，結果表示欄に形態素解析結果用の列（基本形，読み，品詞）が現れます。形態素解析結果のうち，どの情報を表示するかは，設定ファイルの annotator 要素，fieldsetting 要素などを参照してください。

　config_aozora_sample_db.xml の設定では，次のような検索対象（一部）が設定されています。

本文: 全文検索します。検索文字列が形態素の場合，形態素解析結果用の列（基本形，読み，品詞）に情報が表示されます。形態素ではない場合は，空欄になります。
本文(正規表現): 本文を全文検索します。正規表現での検索が可能です。ただし，検索時に索引を用いないので，「本文」検索に比べて低速です。
基本形: 基本形で検索します。活用語を検索する際に便利です。
読み: 読みで検索します。なお，読みは，JUMANの場合，ひらがな，MeCabの場合，カタカナで入力します。
出現形: 出現形で検索します。
ルビ(rt)完全一致: 本文に付与されているルビを検索します。文字列のマッチングは，完全一致です。
ルビ(rt)部分一致: 本文に付与されているルビを検索します。文字列のマッチングは，部分一致です。
メモ１: 「メモ１」列を検索します。文字列のマッチングは，部分一致（SQL の LIKE 検索に準じます）です。例えば，「未」で始まる文字列は「未%」，「未」を含む文字列は「%未%」です。
メモ２: 「メモ２」列を検索します。この列も部分一致検索となります。