全文検索システム『ひまわり』/利用者マニュアル/1_5/５．言語資料をインポートするの履歴差分(No.23)

国語研究所の施設整備に伴い，関連のサービスを次の期間，停止します。

期間：2024年4月27日（土）9:00～2024年4月29日（月・祝）17:30
対象：Web用例データベース（複合動詞，サ変動詞，形容詞）・『ひまわり』＆関連資料（ダウンロードもできません），FishWatchr & FishWatchr Miniなど

追加された行はこの色です。
削除された行はこの色です。

[[全文検索システム『ひまわり』/利用者マニュアル/1_5]]

*5. 言語資料を『ひまわり』で検索できるようにする [#q7e09870]

** 5.1 一般的な手順 [#ldb6e87b]
　『ひまわり』は，テキストファイル，HTML， XHTML，XML などさまざまな形式のテキストをインポートして，検索することができます。以下，順序をおって，一般的な操作手順を説明します。

*** 5.1.1 言語資料の準備 [#g2927b9f]

　まず，インポートする言語資料を一つのフォルダにまとめます。フォルダの中にフォルダを作って，細かく分類しても，かまいません。ここでは，次のような構造でファイルを配置したものとします。

#ref(./dir_structure.png,center,wrap)

　言語資料を集める際は，次のことに留意してください。

- ファイル名の末尾は，ファイル形式に応じて，次のようにつけてください。複数のファイル形式が混在していてもかまいません。
-- .txt ... タグ付けされてない生のテキストファイル
-- .html ... または .htm: HTML，XHTML ファイル
-- .xml ... XML ファイル    
- 言語資料の文字コードは，自動判別します。
- 後述のとおり，フォルダ構造やファイル名もコーパスに取り込まれ，検索にも利用できます。タグ付けされていない生テキストでは，上図のように，書誌情報などを記述するのに利用するとよいでしょう。


*** 5.1.2 インポートの実行 [#v9f285bd]
　『ひまわり』のメニューから[ファイル]⇒[インポート]を実行します。

#ref(./import_menu.png,center,wrap)

　次のウィンドウが現れたら，「参照」ボタンを押して，言語資料をまとめたフォルダを指定します。コーパス名は，指定したフォルダ名となります。例えば，5.1.1 の図の言語資料の場合，「テストコーパス」がコーパス名となります。

#ref(./import_default.png,center,wrap)

　そのままでよければ，「インポート」ボタンを押してください。インポート処理が終わると，次のようなウィンドウがでれば，インポート完了です。なお，より詳しい設定を行う場合は，「詳細オプション」を選択してください。詳しくは，5.2 節以降でファイルの種類ごとに説明します。


*** 5.1.3 言語資料の利用 [#n1f92a00]
　インポート直後から，検索できる状態になります。今回インポートした言語資料の設定ファイルは，config_コーパス名.xml です。『ひまわり』がインストールされているフォルダに自動的に作成されます。例えば，5.1.2 でコーパス名を「aozora」とすれば，設定ファイルは，config_aozora.xml となります。
　インポート直後から，検索できる状態になります。

　今回インポートした言語資料の設定ファイルとして，次の二つの設定ファイルが自動的に生成されます。「コーパス名」の部分は，5.1.2 で付けたコーパス名が入ります。

:config_コーパス名.xml|インポート直後に読み込まれる

** 5.2 インポートの詳細 [#s9b2185b]
:config_コーパス名.db.xml|インポート直後に
-- 


tositは，config_コーパス名.xml です。『ひまわり』がインストールされているフォルダに自動的に作成されます。例えば，5.1.2 でコーパス名を「aozora」とすれば，設定ファイルは，config_aozora.xml となります。



** 5.2 インポートの詳細 [#k490d258]
*** 5.2.1 生テキストファイルのインポート [#v9e1b6fa]
　生テキストファイルをインポートする際の詳細設定について説明します。ここで言う「生テキストファイル」とは，ファイル名の末尾が ".txt" のファイルで，HTML，XML でアノテーションされていないファイルのことです。

　インポートするファイルの中に，生テキストファイルが含まれる場合は，変換オプションの「対象ファイル」で，「テキストファイル」を選んで下さい。この項目が選択されていない場合は，指定したフォルダの中に生テキストファイルが含まれていても，インポートされません。

　『ひまわり』は独自の形式のアノテーションに対応します。例えば，『青空文庫』の「テキストファイル」版では，次のような独自のルールでアノテーションしています（[[「坊ちゃん」>http://www.aozora.gr.jp/cards/000148/files/752_ruby_2438.zip]]から引用）。

:《》：ルビ|（例）坊《ぼ》っちゃん
:｜：ルビの付く文字列の始まりを特定する記号|（例）夕方｜折戸《おりど》の ... ルビの範囲が「折戸」までであることを示します
:［＃］：入力者注　主に外字の説明や，傍点の位置の指定|（例）おくれんかな［＃「おくれんかな」に傍点］

　設定は，インポート時の詳細オプションで行います。変換オプションの「テキストファイル変換」で，「青空文庫形式」にチェックを入れると，青空文庫の独自アノテーションに対応したインポートを行います。別の形式に対応するには，チェックを外し，「改行の扱い」などの個別の項目を選択してください。

#ref(./import_option.png,center,wrap)


*** 5.2.2 HTML，XHTML ファイルのインポート [#gaa62316]
　HTML，XHTML ファイルをインポートする場合は，変換オプションの「対象ファイル」で，「XHTML」を選んで下さい。このオプションが選択されると，ファイル名の末尾が .html もしくは .htm のファイルがインポート対象となります。

　インポート時のオプションとして，XHTML ファイル用のスタイルシートを指定できます。デフォルトでは，次の二つのスタイルシートが用意されています。スタイルシートを指定しなければ，そのまま変換せずにインポートします。

:xhtml2xml.xsl|XHTML 汎用のスタイルシートです。
:xhtml2xml_aozora.xsl|青空文庫専用スタイルシートです。『青空文庫』（XHTML版）のアノテーションをできるだけ取り込みます。ルビ，注記などのほか，タイトルや著者の情報も取り込みます。

　HTML ファイルの場合，そのままではスタイルシートは適用できませんが，「HTMLファイルの変換も試みる」オプションをチェックすると，XHTML ファイルへの変換を試みた後に，スタイルシートを適用します。ただし，常に XHTML ファイルに変換できるとは限りません。

*** 5.2.3 XML ファイルのインポート [#e9a0146e]
　HTML，XHTML ファイルをインポートする場合は，変換オプションの「対象ファイル」で，「XML」を選んで下さい。このオプションが選択されると，ファイル名の末尾が .xml のファイルがインポート対象となります。

　インポート時のオプションとして，XHTML ファイル用のスタイルシートを指定できます。スタイルシートを指定しなければ，そのまま変換せずにインポートします。特定のスタイルシートは同梱されていませんが，『ひまわり』がインストールされているフォルダの resource/xsl/xml フォルダにスタイルシートを入れると，メニューから利用できるようになります。

全文検索システム『ひまわり』/利用者マニュアル/1_5/５．言語資料をインポートする の履歴差分(No.23)

全文検索システム『ひまわり』/利用者マニュアル/1_5/５．言語資料をインポートするの履歴差分(No.23)