全文検索システム『ひまわり』/利用者マニュアル/1_6/7.言語資料をインポートする
をテンプレートにして作成
開始行:
#navi(../)
//&color(red){&size(20){本ページは作成中です。};};
*7.言語資料をインポートする [#q7e09870]
** 7.1 一般的な手順 [#ldb6e87b]
『ひまわり』は,テキストファイル,HTML, XHTML,XML な...
*** 7.1.1 言語資料の準備 [#g2927b9f]
まず,インポートする言語資料を一つのフォルダにまとめま...
#ref(全文検索システム『ひまわり』/利用者マニュアル/1_5/5...
言語資料を集める際は,次のことに留意してください。
- ファイル名の末尾は,ファイル形式に応じて,次のようにつ...
-- .txt ... タグ付けされてない生のテキストファイル
-- .html ... または .htm: HTML,XHTML ファイル
-- .xml ... XML ファイル
- 言語資料の文字コードは,自動判別します。
*** 7.1.2 インポートの実行 [#v9f285bd]
『ひまわり』のメニューから[ファイル]⇒[テキストインポー...
//#ref(./himawari_import_menu.png,center,wrap)
次のウィンドウが現れたら,「参照」ボタンを押して,言語...
#ref(全文検索システム『ひまわり』/利用者マニュアル/1_5/5...
そのままでよければ,「インポート」ボタンを押してくださ...
インポート処理が終わると,次のようなウィンドウがでれば...
*** 7.1.3 言語資料の利用 [#n1f92a00]
まずは,処理途中でエラーが出ていないか確認します。どの...
インポート直後から,検索できる状態になります。検索方法...
** 7.2 インポート時の詳細オプション [#x55bb22d]
インポート時に詳細な設定は,は,詳細オプション(7.1.2 節...
#ref(./himawari_import_options.png,center,wrap)
:変換対象ファイル|変換対象のファイルの種類を設定します。
:文字正規化|変換時の文字正規化処理の種類を設定します。
-- ''なし:'' 正規化処理は基本的に行いません。ただし,変換...
-- ''ユーザ定義:'' ユーザが定義した変換規則に基づいて,文...
-- ''NFKC (Unicode):'' Unicode で定義されている正規化方式...
:テキスト変換|テキストファイル中の文字列を変換するための...
-- aozora.htd ... 『青空文庫』テキスト版をインポートする...
-- diy.htd ... 自作用テキストをインポートするための規則(...
:XHTMLファイル用スタイルシート|XHTMLファイルを変換するた...
:XMLファイル用スタイルシート|XMLファイルを変換するための...
:設定ファイル(テンプレート)|インポート結果を利用するた...
-- defaultConfig.xml ... aozora.htd 向けの設定
-- diyConfig.xml ... diy.htd 向けの設定
:コーパス構築|コーパス構築時のオプションです。
-- サブコーパスを作る:インポートするフォルダの直下のフォ...
-- 索引付けを実行しない:インポート時に索引付けをしません...
:形態素解析|形態素解析時のオプションです。
-- 形態素解析器を指定すると,インポート時に形態素解析を行...
-- &color(red){形態素解析器がインストールされていないと,...
-- 「要素/属性/値」は,形態素解析対象のXML要素(インポー...
** 7.3 インポート時の処理 [#b6520482]
*** 7.3.1 TXT ファイルのインポート [#v9e1b6fa]
TXT ファイルをインポートする際の詳細設定について説明し...
インポートするファイルの中に,TXT ファイルが含まれる場...
TXT ファイルのインポートに関連するオプションは,「文字...
テキスト変換オプションで指定する変換規則は,aozora.htd ...
:《》:ルビ|(例)坊《ぼ》っちゃん
:|:ルビの付く文字列の始まりを特定する記号|(例)夕方|...
:[#]:入力者注 主に外字の説明や,傍点の位置の指定|(...
aozora.htd は,(『ひまわり』フォルダ)/resource/htd/ ...
*** 7.3.2 HTML,XHTML ファイルのインポート [#gaa62316]
HTML,XHTML ファイルをインポートする場合は,変換オプシ...
インポート時のオプションには,「文字正規化」「XHTMLファ...
「XHTMLファイル用スタイルシート」は,デフォルトで次の二...
:xhtml2xml.xsl|XHTML 汎用のスタイルシートです。
:xhtml2xml_aozora.xsl|青空文庫専用スタイルシートです。『...
HTML ファイルの場合,そのままではスタイルシートは適用で...
*** 7.3.3 XML ファイルのインポート [#e9a0146e]
HTML,XHTML ファイルをインポートする場合は,変換オプシ...
インポート時のオプションとして,XHTML ファイル用のスタ...
スタイルシートを指定しなければ,そのまま変換せずにイン...
** 7.4 形態素解析システムのセットアップ [#a3b0ddf1]
形態素解析を実行する場合は,PCに事前にセットアップして...
- MeCab (IPADIC)
-- デフォルトのインストールを行ってください。
- MeCab (UniDic)
-- MeCabのインストールをした後,[[UniDic配布サイト>http:/...
- Juman
-- デフォルトのインストールを行ってください。
- Juman++
-- 今のところ,Linux版のみの対応です。
形態素解析関連の設定は,『ひまわり』フォルダの .himawar...
#navi(../)
終了行:
#navi(../)
//&color(red){&size(20){本ページは作成中です。};};
*7.言語資料をインポートする [#q7e09870]
** 7.1 一般的な手順 [#ldb6e87b]
『ひまわり』は,テキストファイル,HTML, XHTML,XML な...
*** 7.1.1 言語資料の準備 [#g2927b9f]
まず,インポートする言語資料を一つのフォルダにまとめま...
#ref(全文検索システム『ひまわり』/利用者マニュアル/1_5/5...
言語資料を集める際は,次のことに留意してください。
- ファイル名の末尾は,ファイル形式に応じて,次のようにつ...
-- .txt ... タグ付けされてない生のテキストファイル
-- .html ... または .htm: HTML,XHTML ファイル
-- .xml ... XML ファイル
- 言語資料の文字コードは,自動判別します。
*** 7.1.2 インポートの実行 [#v9f285bd]
『ひまわり』のメニューから[ファイル]⇒[テキストインポー...
//#ref(./himawari_import_menu.png,center,wrap)
次のウィンドウが現れたら,「参照」ボタンを押して,言語...
#ref(全文検索システム『ひまわり』/利用者マニュアル/1_5/5...
そのままでよければ,「インポート」ボタンを押してくださ...
インポート処理が終わると,次のようなウィンドウがでれば...
*** 7.1.3 言語資料の利用 [#n1f92a00]
まずは,処理途中でエラーが出ていないか確認します。どの...
インポート直後から,検索できる状態になります。検索方法...
** 7.2 インポート時の詳細オプション [#x55bb22d]
インポート時に詳細な設定は,は,詳細オプション(7.1.2 節...
#ref(./himawari_import_options.png,center,wrap)
:変換対象ファイル|変換対象のファイルの種類を設定します。
:文字正規化|変換時の文字正規化処理の種類を設定します。
-- ''なし:'' 正規化処理は基本的に行いません。ただし,変換...
-- ''ユーザ定義:'' ユーザが定義した変換規則に基づいて,文...
-- ''NFKC (Unicode):'' Unicode で定義されている正規化方式...
:テキスト変換|テキストファイル中の文字列を変換するための...
-- aozora.htd ... 『青空文庫』テキスト版をインポートする...
-- diy.htd ... 自作用テキストをインポートするための規則(...
:XHTMLファイル用スタイルシート|XHTMLファイルを変換するた...
:XMLファイル用スタイルシート|XMLファイルを変換するための...
:設定ファイル(テンプレート)|インポート結果を利用するた...
-- defaultConfig.xml ... aozora.htd 向けの設定
-- diyConfig.xml ... diy.htd 向けの設定
:コーパス構築|コーパス構築時のオプションです。
-- サブコーパスを作る:インポートするフォルダの直下のフォ...
-- 索引付けを実行しない:インポート時に索引付けをしません...
:形態素解析|形態素解析時のオプションです。
-- 形態素解析器を指定すると,インポート時に形態素解析を行...
-- &color(red){形態素解析器がインストールされていないと,...
-- 「要素/属性/値」は,形態素解析対象のXML要素(インポー...
** 7.3 インポート時の処理 [#b6520482]
*** 7.3.1 TXT ファイルのインポート [#v9e1b6fa]
TXT ファイルをインポートする際の詳細設定について説明し...
インポートするファイルの中に,TXT ファイルが含まれる場...
TXT ファイルのインポートに関連するオプションは,「文字...
テキスト変換オプションで指定する変換規則は,aozora.htd ...
:《》:ルビ|(例)坊《ぼ》っちゃん
:|:ルビの付く文字列の始まりを特定する記号|(例)夕方|...
:[#]:入力者注 主に外字の説明や,傍点の位置の指定|(...
aozora.htd は,(『ひまわり』フォルダ)/resource/htd/ ...
*** 7.3.2 HTML,XHTML ファイルのインポート [#gaa62316]
HTML,XHTML ファイルをインポートする場合は,変換オプシ...
インポート時のオプションには,「文字正規化」「XHTMLファ...
「XHTMLファイル用スタイルシート」は,デフォルトで次の二...
:xhtml2xml.xsl|XHTML 汎用のスタイルシートです。
:xhtml2xml_aozora.xsl|青空文庫専用スタイルシートです。『...
HTML ファイルの場合,そのままではスタイルシートは適用で...
*** 7.3.3 XML ファイルのインポート [#e9a0146e]
HTML,XHTML ファイルをインポートする場合は,変換オプシ...
インポート時のオプションとして,XHTML ファイル用のスタ...
スタイルシートを指定しなければ,そのまま変換せずにイン...
** 7.4 形態素解析システムのセットアップ [#a3b0ddf1]
形態素解析を実行する場合は,PCに事前にセットアップして...
- MeCab (IPADIC)
-- デフォルトのインストールを行ってください。
- MeCab (UniDic)
-- MeCabのインストールをした後,[[UniDic配布サイト>http:/...
- Juman
-- デフォルトのインストールを行ってください。
- Juman++
-- 今のところ,Linux版のみの対応です。
形態素解析関連の設定は,『ひまわり』フォルダの .himawar...
#navi(../)
ページ名: