本ページは作成中です。
目次
まず,検索用のテキストファイルを集めます。ここで対象とする「テキストファイル」とは,ファイル名が「〜.txt」というように,「.txt」で終わるファイルのことです。今回は,簡単のためにサンプルアーカイブを用意しました。アーカイブを解凍し,次のようなフォルダの構造で,四つの作品が収録されていることを確認してください。
+ 青空サンプル +- 芥川竜之介 | +- 蜘蛛の糸.txt | +- 羅生門.txt | +- 宮沢賢治 +- 風の又三郎.txt +- 銀河鉄道の夜.txt
もちろん,自分でテキストファイルを収集したり,テキストエディタで作成したりしてもかまいません。ただし,その際は,上記のように,一つのフォルダの中にファイルをまとめてください。また,著者名をフォルダ名に,作品名をファイル名にすると,著者名,作品名を検索のときに利用できます。ファイル名の末尾は,「.txt」にすることにも注意してください。
なお,『青空文庫』の作品を収集する場合は,「ファイル種別」が「テキストファイル」のデータをダウンロードして下さい。次の図は,芥川竜之介の「芋粥」のダウンロードベージです。
上記の四つのファイルを『ひまわり』にインポートします。インポートするには,[ファイル]→インポートを実行してください。
すると,次のウィンドウが現れますので,「参照」ボタンを押して,検索用のテキストファイルをまとめたフォルダ(上記の場合は,「青空サンプル」フォルダ)を選択して下さい。選択すると,自動的にコーパス名が「青空サンプル」になります。好きな名前を付けてもかまいません。設定が済んだら,「インポート」ボタンを押して,インポートを開始します。
1〜2分程度でインポートは終了し,成功すれば,次のような画面が出てきます。これで,『ひまわり』へのインポートは完了し,検索できる状態になります。
それでは,用意した資料をすべて取り込めたかを確認するために,作品一覧を出してみます。[ツール]→「タイトル,著者」を実行して下さい。正しく取り込めていれば,次のようなリストが表示されるはずです。「タイトル」欄には,ファイル名に指定した作品名が,「path」欄にはコーパス名,フォルダ構造をまとめた情報が表示されます。
『ひまわり』は設定ファイルを切り替えて,検索対象の資料を選択します。インポート機能を利用して作成した資料にも,専用の設定ファイルが自動的に作成されます。『ひまわり』がインストールされているフォルダに,次の二つの設定ファイルが作成されていることを確認して下さい。
インポートした直後は,config_(コーパス名).xml が読み込まれた状態になります。別の設定ファイルを読み込むには,[ファイル]→「新規」を使って下さい。
4.インポートした資料の検索
インポートした資料の検索方法については,この後,詳しく説明しますが,一般的な事柄については,利用者マニュアルを参照して下さい。
5.形態素解析結果の取り込み 5.1 形態素解析システムのインストール