国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
[[全文検索システム『ひまわり』/利用者マニュアル/1_5]] &size(20){&color(red){本ページは現在構築中です};}; * 6. 言語資料にアノテーションする [#ia084527] ** 6.1 概要 [#t6b39075] 『ひまわり』には,3種類のアノテーション機能があります。これらの機能を使うと,登録されている言語資料に付加的に情報をアノテーション(注釈付け)することができます。アノテーションしたデータは,元の言語資料にアノテーションされているデータと同様に検索することができます。 - 人手アノテーション ... 検索結果に対して人手でアノテーションします - 外部アノテーション ... 形態素解析システムなど外部システムを使ったアノテーションです - データのインポート ... アノテーションデータをファイルからインポートします アノテーションした結果は,『ひまわり』内部のデータベースに保存されます。ただし,登録されている言語資料自体(XMLデータ)には変更は加えません。 ** 6.2 人手アノテーション [#p0e74d35] この機能は,検索した結果に対して,なんらかの情報をアノテーションするために利用します。例えば,必要な用例には○,不要な用例には×をつけるといった利用方法です。 実際の例として,『ひまわり』に同梱されている『青空文庫サンプル』に対して,人手アノテーションしてみましょう。『青空文庫サンプル』は,[[3.1節>]]を参考にして,設定ファイル config_aozora_sample.xml を読み込んでください。 次の図のように,検索結果欄の「メモ1」「メモ2」列があります。この列は,他の列と異なり,編集できるようになっています。『青空文庫サンプル』の設定では,「メモ1」列が自由記述の入力,「メモ2」が選択式の入力となっています。 「自由記述」の列の場合,その言葉のとおり,自由な記入ができます。ただし,長さは255文字までです。一方,「選択式」の場合,一覧からの選択して入力します。『青空文庫サンプル』の設定では,○×△からの選択です。選択項目の指定は,config_aozora_sample.xml の field_setting 要素を参照してください。 ** 6.3 自動アノテーション [#q6041ade] 自動アノテーションは,『ひまわり』とは別の外部プログラムを使って,『ひまわり』に登録されている言語資料にアノテーションします。『青空文庫サンプル』には,形態素解析システム JUMAN と MeCab 用の設定が入っており,言語資料に形態素解析結果をアノテーションすることができます。 自動アノテーションを実行するには,[ツール]→[アノテーション]→[外部プログラム]から実行するプログラムを選択して下さい。 自動アノテーションを実行するには,[ツール]→[アノテーション]→[外部プログラム]から実行するプログラムを選択して下さい。選択したプログラムによるアノテーションが開始され,結果がデータベースに格納されます。 この機能を使う場合は,次の点に留意して下さい。 - JUMAN もしくは MeCab を事前にインストールしておいて下さい。また,『ひまわり』から外部プログラムを実行できるように OS を設定して下さい。例えば,Windows の場合は,解説サイトなどを参考に,実行するプログラムの場所を「環境変数PATH」に設定して下さい。なお,デフォルトでは,JUMAN,MeCab は次の場所にインストールされています。 -- JUMAN の場合 c:\Program Files\juman -- MeCab の場合 c:\Program Files\MeCab\bin - アノテーションしたデータを検索するには,そのための設定が必要です。5章の手順で言語資料を『ひまわり』にインポートした場合は,末尾が .db.xml となっている設定ファイルを使って下さい。 - JUMAN もしくは MeCab を事前にインストールしておいて下さい。 - アノテーションしたデータを検索するには,そのための設定が必要です。5章の手順で言語資料を『ひまわり』にインポートした場合は,末尾が .db.xml となっている設定ファイルを使って下さい。例えば,config_aozora_sample.xml には,config_aozora_sample.db.xml が対応します。 - 言語資料が巨大な場合,アノテーションに時間がかかる場合があります。また,ハードディスクに十分な空き容量が必要です。 ** 6.4 データインポート [#xbb7ed4a] データインポート機能は,アノテーション情報を格納したファイルに基づいて,言語資料にアノテーションする機能です。[ツール]→[アノテーション]→[ファイル]で呼び出します。 &size(20){&color(red){本機能は,現在整備中です。};}; //** 6.5 設定 [#me951a0e] // ここでは,アノテーションに関する設定について説明します。