全文検索システム『ひまわり』/テキストの構造を考慮した検索用データの作成方法

本ページは，現在構築中です。

１．概要†

　このページでは，タグ付けされていないテキストファイル対象に，その構造を考慮しつつ，『ひまわり』にインポートする方法を説明します。

　次の例は，青空文庫に収録されている芥川龍之介の「蜘蛛の糸」の一部です。青空文庫のテキスト版では，次のように，ルビや注記が一定の構造を持って記述されています。文字列検索を行う場合，そのまま検索すると，ルビや注記が検索の妨げになってしまいます。

　『ひまわり』は，インポート時にこのような構造を『ひまわり』で扱える形式に変換します。ただし，変換の規則は自分で作る必要があります。

　なお，本ページで示す方法は，テキスト構造を考慮したインポートの仕組みを説明するためのものです。より簡便に形態素解析結果を取り込みたい場合は，＃などを参照して下さい。

　次のソフトウェアをPCにインストールして下さい。

　インポートの流れは，次に示すとおり，基本的に＃と同じです。ただし，

＃では，『ひまわり』は，正規表現置換を用いてテキストの変換規則を定義し，適用する変換規則が定義できます。

　『ひまわり』は，XML で構造化されたテキストデータを検索対象とします。そのため，インポートの具体的な手順を説明する前に，インポートの結果の XML データについて最初に説明しておきます。

<m pos="名詞">これ</m>
<m pos="助詞">は</m>
<m pos="名詞">テスト</m>
<m pos="助動詞">でし</m>
<m pos="助動詞">た/m>

論文などで引用する際の
成果物の短縮URL

total:1406

today:1

yesterday:0