国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
[[全文検索システム『ひまわり』/利用者マニュアル/1_5]] *5. 言語資料を『ひまわり』で検索できるようにする [#q7e09870] ** 5.1 一般的な手順 [#ldb6e87b] 『ひまわり』は,テキストファイル,HTML, XHTML,XML などさまざまな形式のテキストをインポートして,検索することができます。以下,順序をおって,一般的な操作手順を説明します。 *** 5.1.1 言語資料の準備 [#g2927b9f] まず,インポートする言語資料を一つのフォルダにまとめます。フォルダの中にフォルダを作って,細かく分類しても,かまいません。ここでは,次のような構造でファイルを配置したものとします。 #ref(./dir_structure.png,center,wrap) 言語資料を集める際は,次のことに留意してください。 - ファイル名の末尾は,ファイル形式に応じて,次のようにつけてください。複数のファイル形式が混在していてもかまいません。 -- .txt ... タグ付けされてない生のテキストファイル -- .html ... または .htm: HTML,XHTML ファイル -- .xml ... XML ファイル - 言語資料の文字コードは,自動判別します。 - 後述のとおり,フォルダ構造やファイル名もコーパスに取り込まれ,検索にも利用できます。タグ付けされていない生テキストでは,上図のように,書誌情報などを記述するのに利用するとよいでしょう。 *** 5.1.2 インポートの実行 [#v9f285bd] 『ひまわり』のメニューから[ファイル]⇒[インポート]を実行します。 #ref(./import_menu.png,center,wrap) 次のウィンドウが現れたら,「参照」ボタンを押して,言語資料をまとめたフォルダを指定します。コーパス名は,指定したフォルダ名となります。例えば,5.1.1 の図の言語資料の場合,「テストコーパス」がコーパス名となります。 #ref(./import_default.png,center,wrap) そのままでよければ,「インポート」ボタンを押してください。インポート処理が終わると,次のようなウィンドウがでれば,インポート完了です。なお,より詳しい設定を行う場合は,「詳細オプション」を選択してください。詳しくは,5.2 節以降でファイルの種類ごとに説明します。 *** 5.1.3 言語資料の利用 [#n1f92a00] インポート直後から,検索できる状態になります。今回インポートした言語資料の設定ファイルは,config_コーパス名.xml です。『ひまわり』がインストールされているフォルダに自動的に作成されます。例えば,5.1.2 でコーパス名を「aozora」とすれば,設定ファイルは,config_aozora.xml となります。 インポート直後から,検索できる状態になります。 今回インポートした言語資料の設定ファイルとして,次の二つの設定ファイルが自動的に生成されます。「コーパス名」の部分は,5.1.2 で付けたコーパス名が入ります。 :config_コーパス名.xml|インポート直後に読み込まれる ** 5.2 インポートの詳細 [#s9b2185b] :config_コーパス名.db.xml|インポート直後に -- tositは,config_コーパス名.xml です。『ひまわり』がインストールされているフォルダに自動的に作成されます。例えば,5.1.2 でコーパス名を「aozora」とすれば,設定ファイルは,config_aozora.xml となります。 ** 5.2 インポートの詳細 [#k490d258] *** 5.2.1 生テキストファイルのインポート [#v9e1b6fa] 生テキストファイルをインポートする際の詳細設定について説明します。ここで言う「生テキストファイル」とは,ファイル名の末尾が ".txt" のファイルで,HTML,XML でアノテーションされていないファイルのことです。 インポートするファイルの中に,生テキストファイルが含まれる場合は,変換オプションの「対象ファイル」で,「テキストファイル」を選んで下さい。この項目が選択されていない場合は,指定したフォルダの中に生テキストファイルが含まれていても,インポートされません。 『ひまわり』は独自の形式のアノテーションに対応します。例えば,『青空文庫』の「テキストファイル」版では,次のような独自のルールでアノテーションしています([[「坊ちゃん」>http://www.aozora.gr.jp/cards/000148/files/752_ruby_2438.zip]]から引用)。 :《》:ルビ|(例)坊《ぼ》っちゃん :|:ルビの付く文字列の始まりを特定する記号|(例)夕方|折戸《おりど》の ... ルビの範囲が「折戸」までであることを示します :[#]:入力者注 主に外字の説明や,傍点の位置の指定|(例)おくれんかな[#「おくれんかな」に傍点] 設定は,インポート時の詳細オプションで行います。変換オプションの「テキストファイル変換」で,「青空文庫形式」にチェックを入れると,青空文庫の独自アノテーションに対応したインポートを行います。別の形式に対応するには,チェックを外し,「改行の扱い」などの個別の項目を選択してください。 #ref(./import_option.png,center,wrap) *** 5.2.2 HTML,XHTML ファイルのインポート [#gaa62316] HTML,XHTML ファイルをインポートする場合は,変換オプションの「対象ファイル」で,「XHTML」を選んで下さい。このオプションが選択されると,ファイル名の末尾が .html もしくは .htm のファイルがインポート対象となります。 インポート時のオプションとして,XHTML ファイル用のスタイルシートを指定できます。デフォルトでは,次の二つのスタイルシートが用意されています。スタイルシートを指定しなければ,そのまま変換せずにインポートします。 :xhtml2xml.xsl|XHTML 汎用のスタイルシートです。 :xhtml2xml_aozora.xsl|青空文庫専用スタイルシートです。『青空文庫』(XHTML版)のアノテーションをできるだけ取り込みます。ルビ,注記などのほか,タイトルや著者の情報も取り込みます。 HTML ファイルの場合,そのままではスタイルシートは適用できませんが,「HTMLファイルの変換も試みる」オプションをチェックすると,XHTML ファイルへの変換を試みた後に,スタイルシートを適用します。ただし,常に XHTML ファイルに変換できるとは限りません。 *** 5.2.3 XML ファイルのインポート [#e9a0146e] HTML,XHTML ファイルをインポートする場合は,変換オプションの「対象ファイル」で,「XML」を選んで下さい。このオプションが選択されると,ファイル名の末尾が .xml のファイルがインポート対象となります。 インポート時のオプションとして,XHTML ファイル用のスタイルシートを指定できます。スタイルシートを指定しなければ,そのまま変換せずにインポートします。特定のスタイルシートは同梱されていませんが,『ひまわり』がインストールされているフォルダの resource/xsl/xml フォルダにスタイルシートを入れると,メニューから利用できるようになります。