国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
[[全文検索システム『ひまわり』]] *1.はじめに -[[青空文庫:http://www.aozora.gr.jp/]]で配布されている XHTML 形式の文書から『ひまわり』検索用データを作成する方法について説明します。 -Windows 環境での作業を想定しています。 --今回は,変換作業を自動化するツール「あおまめ」を使った方法を説明します。 --Windows 以外の OS をお使いの方,より詳しい変換方法を知りたい方は,[[「4.変換処理の内容」>#transform]]を参照してください。 *2.準備 +[[『ひまわり』 ver.1.2 >全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.2]]のインストール --ver.1.2β02 以下のバージョンでは正常に動作しません。 --『太陽コーパス』に同梱されている『ひまわり』は ver.1.1 ですのでご注意ください。 +検索対象の作品のダウンロード --[[青空文庫:http://www.aozora.gr.jp/]]から検索対象の作品をダウンロードしてください。 --ダウンロードする際,ファイル形式が&color(red){「XHTML 形式」となっているファイル};をダウンロードしてください。XHTML 形式以外の形式については,ここでは扱いません。 --ダウンロードの方法は,[[「青空文庫」の解説 (ダウンロードと解凍):http://www.aozora.gr.jp/guide/download_w.html]]を御覧ください。 +「あおまめ」パッケージのダウンロードと解凍 --&ref(aomame.lzh,,「あおまめ」パッケージ);をダウンロードしてください。このファイルは,LZH 形式で圧縮されています。[[Lhasa32:http://www.vector.co.jp/download/file/win95/util/ff336899.html]] などの解凍ソフトを利用して,解凍してください。 --なお,本パッケージ中の「AOMAME.hta」は明海大学の小木曽 智信氏(togiso@meikai.ac.jp)が作成されたスクリプトです。著作権は小木曽 智信氏にあります。 --本ページでは,[[GPL:http://www.gnu.org/licenses/gpl.ja.html]] ライセンスに基づいて,「あおまめ」パッケージを配布しています。 *3.作成手順 **3.1 資料用フォルダの作成 「青空文庫」からダウンロードしたファイルを,一つのフォルダにまとめてください。フォルダの名前は,なんでも構いません。ここでは,デスクトップ上の「aozora」というフォルダに,ダウンロードしたファイルをまとめることを前提に説明します。 **3.2 「あおまめ」パッケージの解凍 「あおまめ」パッケージを解凍すると,「aomame」というフォルダができます。まず,「aomame」フォルダに次のファイルがあるか確認してください。 -README.TXT ... 最初に読んでください。ライセンスなどの説明があります。 -AOMAME.hta ... 「あおまめ」本体 -SimpleText フォルダ ... 『ひまわり』用データ -config_simpleText.xml ... 『ひまわり』設定ファイル **3.3 変換の実行 「AOMAME.hta」をダブルクリックして,「あおまめ」を起動してください。「あおまめ」が起動したら,次の二つのフォルダを指定してください。 -(a)「青空文庫」からダウンロードした作品を格納しているフォルダ(下図の上の欄) -(b) 変換結果のファイル(『ひまわり』検索用データ)を出力するフォルダ(下図の下の欄) &ref(aomame.png,,「あおまめ」); 上の図では,(a) はフォルダをデスクトップ上にある「aozora」フォルダ,(b) はデスクトップになっています。なお,(a), (b) の指定で,「taro」となっている部分は,ユーザ名であり,使用する環境により異なります。 「作成」ボタンを押して,デスクトップに「corpus.xml」というファイルができれば,変換は終了です。これが,『ひまわり』検索用のデータとなります。 **3.4 検索用データのインストール 次に,『ひまわり』検索用データ(corpus.xml)を『ひまわり』にインストールします。『ひまわり』がまだインストールされていない場合は,[[『ひまわり』利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_2]]を参照して,『ひまわり』のインストールを完了させてください。最新版の『ひまわり』は[[ダウンロードのページ>全文検索システム『ひまわり』#download]]にあります。 corpus.xml のインストールは,次の手順で行ってください。 +『ひまわり』がインストールしてあるフォルダに,「Corpora」フォルダがあるはずです(なければ,作成してください)。この中に,『あおまめ』パッケージに含まれている「SimpleText」フォルダを移動してください。 +同様に,『ひまわり』がインストールしてあるフォルダに,config_simpleText.xml を移動してください。 +作成された corpus.xml を,1 の「SimpleText」フォルダに移動してください。 **3.5 索引付け 次に,作成した corpus.xml に対して,「索引付け」を行います。「索引付け」は,高速に全文検索するために必要な処理です。 索引付けの手順は,次のとおりです。 +『ひまわり』を起動してください。 +[ファイル]→[新規] で,設定ファイルの config_simpleText.xml を読み込んでください。 +[ツール]→[インデックス生成]を実行してください。 +「インデックス生成が終了しました。」と表示されれば,索引付けは終了です。 以上で,検索用データ作成は終了です。実際に検索してみてください。検索方法は,[ [[3.検索してみよう>全文検索システム『ひまわり』/利用者マニュアル/1_2/3.検索してみよう]]」を参照してください。 *4.変換処理の内容&aname(transform); &color(red){この節は,詳しい変換処理の内容を知りたい方や Windows 以外の OS をお使いの方のために設けてありますので,適宜,読み飛ばしてください。}; 青空文庫の XHTML ファイルから『ひまわり』で検索できる XML 文書への変換は,aozora.xsl で行っています。変換処理の内容は,aozora.xsl を参照してください。 3.3 節で実行する「AOMAME.hta」は,Windows 環境以外では動作しません。しかし,AOMAME.hta は,aozora.xsl を呼び出して,変換処理を行っていますので,手動で aozora.xsl を実行すれば,(Java が動作する環境であれば)変換を行うことができます。具体的な手順は,次のとおりです。 +JRE など Java の実行環境を,お使いの PC にインストールしてください。 +「あおまめ」パッケージ中の aozora.xsl で,青空文庫の XHTML ファイルを『ひまわり』で検索できる XML 文書に変換します。変換するには,次のコマンドを実行します(下の例では見やすさを重視して改行していますが,つなげて書いてください)。このコマンドの出力結果を適当なファイルに保存してください。なお,出力結果の文字コードは UTF-16(Little Endian) になります。 --Proxy を使っていない場合 java org.apache.xalan.xslt.Process -in 変換対象ファイル名 -xsl aozora.xsl --Proxy を使っている場合 java -Dhttp.proxyHost=Proxy のIPアドレス -Dhttp.proxyPort=Proxy のポート番号 org.apache.xalan.xslt.Process -in 変換対象ファイル名 -xsl aozora.xsl +青空文庫の XHTML ファイルが複数ある場合は,それぞれのファイルに対して,上記の処理を実行します。そして,すべての結果を一つの corpus.xml として,連結してください。連結は,個々のファイルを単純に連結するだけでもかまいません(ただし,正しい (valid な) XML 文書ではありませんのでご注意ください)。 +corpus.xml 全体を aozora 要素としてください。具体的には,corpus.xml の先頭行に <aozora>,最終行に </aozora> を挿入してください。 +文字コードが UTF-16(Little Endian),改行コードが LF となるように,corpus.xml を保存してください。 以上で,corpus.xml が作成されました。