全文検索システム『ひまわり』/簡単な検索用データの作成方法
をテンプレートにして作成
開始行:
[[全文検索システム『ひまわり』]]
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2020-09-30
#br
目次
#contents
*1.はじめに [#f8ad28fc]
-『ひまわり』の検索用データの作成方法について説明します。
-ここでは,タグ付けされていないテキストに書誌情報をタグ付...
//-作業環境として,Windows 環境を想定しています。
*2.用意するもの [#aa9649a3]
-[[『ひまわり』(ver.1.6以降)>全文検索システム『ひまわり...
//--ver.1.2β02 以下のバージョンでは正常に動作しません。
//--『太陽コーパス』に同梱されている『ひまわり』は ver.1....
-検索対象のテキスト
-テキストエディタ
-- Windows の場合: [[サクラエディタ>https://sakura-edito...
-- macOS の場合: [[mi>http://www.mimikaki.net/]]
-- なお,上記以外のエディタをお使いの方は,次の条件のファ...
---文字コード: Unicode (UTF-16 BOM 付き)
---改行コード: LF
-&ref(https://csd.ninjal.ac.jp/archives/Himawari/simpledo...
*3.作成手順 [#ecb6e274]
**3.1 書誌情報のタグ付け [#vbc26518]
検索対象のテキストをエディタで開いてください。ここでは...
#ref(sakura.png,,エディタで開く,center)
次に書誌情報として,「著者」と「タイトル」を付与するこ...
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
上の例のように,半角の <> で囲われた部分がタグです。「s...
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
ある日の事でございます。御釈迦様は極楽の蓮池のふちを、...
になっていらっしゃいました。池の中に咲いている蓮の花は、...
白で、そのまん中にある金色の蕊からは、何とも云えない好い...
へ溢れて居ります。極楽は丁度朝なのでございましょう。
次に,文書の末尾に,開始タグと対応する「終了タグ」の「<...
しかし極楽の蓮池の蓮は、少しもそんな事には頓着致しませ...
い花は、御釈迦様の御足のまわりに、ゆらゆら萼を動かして、...
の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れ...
う午に近くなったのでございましょう。
</simpledoc>
最後に,今作成した文書全体を「corpus」タグで囲います。...
<?xml version="1.0" encoding="utf-16" ?>
<corpus>
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
ある日の事でございます。御釈迦様は極楽の蓮池のふちを、...
になっていらっしゃいました。池の中に咲いている蓮の花は、...
白で、そのまん中にある金色の蕊からは、何とも云えない好い...
へ溢れて居ります。極楽は丁度朝なのでございましょう。
:(中略)
しかし極楽の蓮池の蓮は、少しもそんな事には頓着致しませ...
い花は、御釈迦様の御足のまわりに、ゆらゆら萼を動かして、...
の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れ...
う午に近くなったのでございましょう。
</simpledoc>
</corpus>
以上で,タグ付けは終了です。
**3.2 複数の文書を一度に検索できるようにする [#ib9deef0]
3.1 では,一つの作品に対して,書誌情報をつけました。し...
そこで,別の作品を追加する方法について説明します。ここ...
追加方法は簡単で,「蜘蛛の糸」のあとに,「猿蟹合戦」を...
<corpus>
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
ある日の事でございます。御釈迦様は極楽の蓮池のふちを、...
:(中略)
の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れ...
う午に近くなったのでございましょう。
</simpledoc>
<simpledoc タイトル="猿蟹合戦" 著者="芥川龍之介">
蟹の握り飯を奪った猿はとうとう蟹に仇を取られた。蟹は臼...
の猿を殺したのである。――その話はいまさらしないでも好い。...
蟹を始め同志のものはどう云う運命に逢着したか、それを話す...
ぜと云えばお伽噺は全然このことは話していない。
:(中略)
とにかく猿と戦ったが最後、蟹は必ず天下のために殺される...
語を天下の読者に寄す。君たちもたいてい蟹なんですよ。
</simpledoc>
</corpus>
さらに別の文書を追加したい場合も,同じ方法で追加するこ...
**3.3 文書の保存 [#rc2b60fd]
次に,作成した文書を保存します。保存するときのファイル...
「サクラエディタ」では,次の設定で保存します。「BOM」が...
#ref(sakura_save.png,,文書の保存,center,90%)
**3.4 作成した文書のチェックをする [#q4b27f3c]
作成した文書を『ひまわり』にインストールする前に,正し...
確かめるには,corpus.xml を Web ブラウザにドラッグ&ド...
正しい形式のXML文書だと,次のように文書全体の構造が表示...
#ref(./validation_success.png,75%)
一方,タグの対応関係が正しく記述されないなどの問題があ...
#ref(./validation_fail.png,75%)
**3.5 作成した文書のインストール [#eb817269]
チェックが終わったら,作成した文書(corpus.xml)を『ひま...
corpus.xml のインストールは,次の手順で行ってください。
+「準備」のところで示した &ref(https://csd.ninjal.ac.jp/a...
+解凍すると,「Himawari_Simpledoc」というフォルダが現れま...
-- なお,参考用に上記の例の corpus.xml が同梱されています...
+ 『ひまわり』を起動し,Himawari_Simpledoc フォルダを『ひ...
-- この処理により,corpus.xml を含め,関連するファイルが...
**3.6 索引付け&aname(indexing); [#oe76c2fb]
次に,インストールした corpus.xml に対して,「索引付け...
索引付けの手順は,次のとおりです。
+『ひまわり』を起動してください。
+[ファイル]→[コーパス選択]を実行し,「simpledoc」を選んで...
+[ツール]→[構築]→[インデックス生成]を実行してください。
&br;&color(red){''注:'' この際,「すべて初期化」オプショ...
+「インデックス生成が終了しました。」と表示されれば,索引...
以上で,検索用データ作成は終了です。実際に検索してみて...
* 4. 参考資料 [#q3423bd0]
もっと知りたい場合は,[[『ひまわり』ホームページの「文...
- [[テキストデータのインポート方法主体の内容>https://csd....
-[[全文検索システム『ひまわり』を用いた既存資料の活用(第...
-- 資料p.45以降(「インポートした資料の活用」)部分はすで...
//**テスト
終了行:
[[全文検索システム『ひまわり』]]
RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2020-09-30
#br
目次
#contents
*1.はじめに [#f8ad28fc]
-『ひまわり』の検索用データの作成方法について説明します。
-ここでは,タグ付けされていないテキストに書誌情報をタグ付...
//-作業環境として,Windows 環境を想定しています。
*2.用意するもの [#aa9649a3]
-[[『ひまわり』(ver.1.6以降)>全文検索システム『ひまわり...
//--ver.1.2β02 以下のバージョンでは正常に動作しません。
//--『太陽コーパス』に同梱されている『ひまわり』は ver.1....
-検索対象のテキスト
-テキストエディタ
-- Windows の場合: [[サクラエディタ>https://sakura-edito...
-- macOS の場合: [[mi>http://www.mimikaki.net/]]
-- なお,上記以外のエディタをお使いの方は,次の条件のファ...
---文字コード: Unicode (UTF-16 BOM 付き)
---改行コード: LF
-&ref(https://csd.ninjal.ac.jp/archives/Himawari/simpledo...
*3.作成手順 [#ecb6e274]
**3.1 書誌情報のタグ付け [#vbc26518]
検索対象のテキストをエディタで開いてください。ここでは...
#ref(sakura.png,,エディタで開く,center)
次に書誌情報として,「著者」と「タイトル」を付与するこ...
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
上の例のように,半角の <> で囲われた部分がタグです。「s...
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
ある日の事でございます。御釈迦様は極楽の蓮池のふちを、...
になっていらっしゃいました。池の中に咲いている蓮の花は、...
白で、そのまん中にある金色の蕊からは、何とも云えない好い...
へ溢れて居ります。極楽は丁度朝なのでございましょう。
次に,文書の末尾に,開始タグと対応する「終了タグ」の「<...
しかし極楽の蓮池の蓮は、少しもそんな事には頓着致しませ...
い花は、御釈迦様の御足のまわりに、ゆらゆら萼を動かして、...
の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れ...
う午に近くなったのでございましょう。
</simpledoc>
最後に,今作成した文書全体を「corpus」タグで囲います。...
<?xml version="1.0" encoding="utf-16" ?>
<corpus>
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
ある日の事でございます。御釈迦様は極楽の蓮池のふちを、...
になっていらっしゃいました。池の中に咲いている蓮の花は、...
白で、そのまん中にある金色の蕊からは、何とも云えない好い...
へ溢れて居ります。極楽は丁度朝なのでございましょう。
:(中略)
しかし極楽の蓮池の蓮は、少しもそんな事には頓着致しませ...
い花は、御釈迦様の御足のまわりに、ゆらゆら萼を動かして、...
の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れ...
う午に近くなったのでございましょう。
</simpledoc>
</corpus>
以上で,タグ付けは終了です。
**3.2 複数の文書を一度に検索できるようにする [#ib9deef0]
3.1 では,一つの作品に対して,書誌情報をつけました。し...
そこで,別の作品を追加する方法について説明します。ここ...
追加方法は簡単で,「蜘蛛の糸」のあとに,「猿蟹合戦」を...
<corpus>
<simpledoc タイトル="蜘蛛の糸" 著者="芥川龍之介">
ある日の事でございます。御釈迦様は極楽の蓮池のふちを、...
:(中略)
の蕊からは、何とも云えない好い匂が、絶間なくあたりへ溢れ...
う午に近くなったのでございましょう。
</simpledoc>
<simpledoc タイトル="猿蟹合戦" 著者="芥川龍之介">
蟹の握り飯を奪った猿はとうとう蟹に仇を取られた。蟹は臼...
の猿を殺したのである。――その話はいまさらしないでも好い。...
蟹を始め同志のものはどう云う運命に逢着したか、それを話す...
ぜと云えばお伽噺は全然このことは話していない。
:(中略)
とにかく猿と戦ったが最後、蟹は必ず天下のために殺される...
語を天下の読者に寄す。君たちもたいてい蟹なんですよ。
</simpledoc>
</corpus>
さらに別の文書を追加したい場合も,同じ方法で追加するこ...
**3.3 文書の保存 [#rc2b60fd]
次に,作成した文書を保存します。保存するときのファイル...
「サクラエディタ」では,次の設定で保存します。「BOM」が...
#ref(sakura_save.png,,文書の保存,center,90%)
**3.4 作成した文書のチェックをする [#q4b27f3c]
作成した文書を『ひまわり』にインストールする前に,正し...
確かめるには,corpus.xml を Web ブラウザにドラッグ&ド...
正しい形式のXML文書だと,次のように文書全体の構造が表示...
#ref(./validation_success.png,75%)
一方,タグの対応関係が正しく記述されないなどの問題があ...
#ref(./validation_fail.png,75%)
**3.5 作成した文書のインストール [#eb817269]
チェックが終わったら,作成した文書(corpus.xml)を『ひま...
corpus.xml のインストールは,次の手順で行ってください。
+「準備」のところで示した &ref(https://csd.ninjal.ac.jp/a...
+解凍すると,「Himawari_Simpledoc」というフォルダが現れま...
-- なお,参考用に上記の例の corpus.xml が同梱されています...
+ 『ひまわり』を起動し,Himawari_Simpledoc フォルダを『ひ...
-- この処理により,corpus.xml を含め,関連するファイルが...
**3.6 索引付け&aname(indexing); [#oe76c2fb]
次に,インストールした corpus.xml に対して,「索引付け...
索引付けの手順は,次のとおりです。
+『ひまわり』を起動してください。
+[ファイル]→[コーパス選択]を実行し,「simpledoc」を選んで...
+[ツール]→[構築]→[インデックス生成]を実行してください。
&br;&color(red){''注:'' この際,「すべて初期化」オプショ...
+「インデックス生成が終了しました。」と表示されれば,索引...
以上で,検索用データ作成は終了です。実際に検索してみて...
* 4. 参考資料 [#q3423bd0]
もっと知りたい場合は,[[『ひまわり』ホームページの「文...
- [[テキストデータのインポート方法主体の内容>https://csd....
-[[全文検索システム『ひまわり』を用いた既存資料の活用(第...
-- 資料p.45以降(「インポートした資料の活用」)部分はすで...
//**テスト
ページ名: