[[『えだまめ』の使い方>../]]

+[[準備>../1]]
+『えだまめ』で『ひまわり』用データを作る
+[[『ひまわり』でインデックスを作る>../3]]
+[[『ひまわり』で検索する>../4]]

*2.『えだまめ』で『ひまわり』用データを作る [#tb902b86]

準備したテキストデータを『ひまわり』用に変換します。

+ダウンロードしたedamame.hta((実際にはedamame_v20.htaのようにバージョンを表す数字がついています。))をダブルクリックして起動します。((edamame.htaはどのフォルダにおいて実行してもかまいません。ただし”\\パソコン名\共有フォルダ名”というUNC形式のパスからは実行できません。))&br;
OSがWindows XP SP2以降の場合には、かならずセキュリティーブロックを解除してから利用してください((Windows XP SP2以降では、インターネットからダウンロードしたファイルはセキュリティーブロックが設定される場合があります。ダウンロードしたedamame.htaを右クリックして、[プロパティ]で表示される中に[ブロックの解除]ボタンがあったら、これをクリックしてください。))。&br;
&ref(edamame2.png,,75%);&br;&br;
+[元データがあるフォルダ]の[参照]ボタンを押して、変換したいファイルがある場所を指定して下さい。指定されたフォルダ以下の階層にあるデータが変換対象になります。
--例:フォルダ構造が次のようになっている場合に、近代の夏目漱石・森鴎外・与謝野晶子のデータを『ひまわり』で利用できるようにするためには G:\_テキストデータ\近代 を指定します。&br;&ref(folder_tree.png);
--検索対象にしたくないテキストファイルが指定したフォルダの下に入らないように注意してください。
---たとえばデスクトップに変換したいファイルをおいて、デスクトップを元データのあるフォルダに指定すると、デスクトップ上のすべてのファイル、デスクトップ上のすべてのフォルダの中のファイルが対象になります。
+[変換対象ファイル]を指定します。変換したいファイルの形式をチェックして下さい。&br;複数指定することもできます。少なくとも一つの形式を指定しなければなりません。
++テキスト・XHTMLを選んだ場合は[変換オプション]が表示されます。
+必要に応じて[変換オプション]を指定します。
++[XHTMLファイルの変換]ではスタイルシートを選びます。
---青空文庫のXHTMLファイルを変換する場合にはxhtml2xml_aozora.xslを選んでください。
---一般のXHTMLファイルを変換する場合にはxhtml2xml.xslを選んでください。
---[HMTLの変換を試みる]をチェックすると、XHTML以外のHTMLを自動で整形してXMLにして変換することを試みます。データによってはうまくいかない場合があります。
++[テキストファイルの変換]では標準で青空文庫の形式が選ばれています。これ以外の形式の場合は、[青空文庫形式]のチェックを外して、次の説明を参考にして形式を指定してください。
---[改行文字の扱い]は改行(論理改行)の変換の仕方を指定します。よくわからない場合にはそのままにしておいて下さい。~
例:原文
 吾輩は猫である
 
  吾輩は猫である。名前は
 まだない。・・・
:::論理改行タグに変換|改行文字を論理改行タグに置換します。
 吾輩は猫である<b/><b/> 吾輩は猫である。名前は<b/>まだない。・・・
:::「。」の後に論理改行タグを挿入|改行文字を物理改行タグに置換し、句点位置の直後に論理改行タグを挿入します。
  吾輩は猫である<行/><行/> 吾輩は猫である。<b/>名前はまだない。<b/>・・・
:::空行を論理改行タグに変換)|改行文字が二つ続いた場合のみ論理改行タグに置換し、それ以外の改行文字は物理改行タグに置換します。
 吾輩は猫である<b/><行/> 吾輩は猫である。名前は<行/>まだない。・・・
---[ふりがなの記号]でオプションを指定するとふりがな入りファイルの変換を行います。よくわからない場合には ''[なし]'' を選んで下さい。&br;
例えば&ref(ruby.png);という振り仮名付きの文字列が |枝豆《えだまめ》 という形で入力されているような場合には ''|漢字《ふりがな》'' を指定します。括弧(《》)がふりがなを囲む記号、最初の記号(|)がふりがながふられる部分の開始位置を表します。
&br;ふられる部分の開始位置を表す記号がない場合には、括弧の直前の漢字(および々などの記号)の連続を、ふりがなが振られるべき部分と見なして変換します。((この場合、ふりがなが振られる範囲が意図したとおりにならない場合があります。また、ふりがなが振られる文字が仮名やアルファベットである場合には変換されません。))
---[注の記号]でオプションを指定すると、注の部分を変換して検索対象から除き、検索結果の本文で注として表示されるようにします。よくわからない場合には ''[なし]'' を選んで下さい。
&br;''[#注の内容]'' は注全体が角括弧([])に囲まれており、注の中身の冒頭に#の記号が付いていることを示します。
---ふりがなと注の両方を指定した場合、「ふりがなの中の注」や「注の中のふりがな」は変換されません。
&br;例:曇《くも[#原文くし]》
&br;例:曇《くも》[#原文は雲《くも》]り
+必要に応じて[コーパスデータの出力先]を変更します。通常はそのままでかまいません。
--変換結果の出力先フォルダを変更する場合には[参照]ボタンを押して指定して下さい。標準ではデスクトップに出力する設定になっています。
--[コーパス名](設定ファイルの名前や変換結果を保存するフォルダの名前に使用します)を変更したい場合には書き換えて下さい。標準では元データがあるフォルダの名前になっています。
+[変換する]ボタンを押して下さい。変換・ファイル出力を実行します。
--出力過程の記録が表示され、[検証する]ボタンが使えるようになります。&br;
&ref(edamame2_result.png,,50%);
+[検証する]ボタンを押して正しくできたか確認して下さい。
--異常があるとエラーが表示されます。変換元テキストデータの中身に問題がないか確認し修正した後、最初からやり直して下さい。
--正常であれば「〜〜corpus.xmlは整形式のXMLファイルです。「ひまわり」でインデックス付けを行うことができます。」と表示されます。
+出力先(通常はデスクトップ)に次のようなファイルとフォルダが出来ているはずです。これらが『ひまわり』用のデータです。
#ref(result_data.png,around)
--Corporaフォルダにはテキストデータを変換したXMLファイルなどが入っています。
--config_近代.xmlは『ひまわり』用の設定ファイルです。
#clear


***変換の詳細 [#v2d704ac]
-入力ファイルは指定したフォルダ以下にある拡張子txtのファイルです。文字コードは自動判別します。
-入力ファイルは指定したフォルダ以下にあるファイルです。文字コードは自動判別します。
-出力されるコーパス(XMLファイル)はUTF-16LEエンコード、LF改行のXML形式になります。

----
#navi(../)

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS