全文検索システム『ひまわり』

1.はじめに

  • 『ひまわり』の応用例として,画像を含んだ『ひまわり』用 XML 文書の作成と検索の実例を示します。
  • ここでは,4コママンガを『ひまわり』用のXML文書として記述します。
title.png

2.準備

2.1 サンプルデータのダウンロード

 「マンガ」サンプルデータを次の場所からダウンロードしてください。本サンプルデータの著作権は,独立行政法人国立国語研究所が保持します。本サンプルデータは,GNU フリー文書利用許諾契約書 (ver.1.2) に定める条件の下で配布します。ダウンロードした時点で,この条件に御同意いただけたものとします。

2.2 インストール

  1. 『ひまわり』 をインストールしてください。
  2. パッケージをダウンロードし,次の手順でインストールして下さい。
    • 『ひまわり』ver.1.5.4以降では,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
    • 『ひまわり』ver.1.5.3までのバージョンでは,次の手順でインストールを行います。
      • ダウンロードしたファイルを解凍すると,Himawari_manga_sample フォルダが現れます。その中に次のファイルがあることを確認してください。
        Corpora フォルダ ... 「マンガ」サンプルデータを格納したフォルダ
        config_manga_sample.xml  ... 設定ファイル
      • Corpora フォルダ,config_manga_sample.xml を『ひまわり』がインストールされているフォルダの中に移動してください。
  3. 以上で,インストールは終了です。

3.使用方法

3.1 検索

  1. 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある config_manga_sample.xml を読み込んでください。
  2. 「検索文字列」欄に検索したい文字列を入力してください。ここでは,「きゃー」を指定します。「マンガ」サンプルは,データ量が少ないので,データの内容に検索文字列があるかお確かめください。
  3. 「検索」ボタンを押してください。
  4. 検索結果をダブルクリックすると、4コママンガ全体がブラウザに表示される。なお、当該の検索文字列は赤色で表示される。

3.2 結果の見方

  • 著者: 4コママンガの著者(4節の manga 要素の author 属性の値)
  • タイトル: 4コママンガのタイトル(4節の manga 要素の title 属性の値)
  • コマ番号: 4コママンガのコマ番号(4節の scene 要素の no 属性の値)
  • 発話タイプ: 検索文字列の発話タイプ
    • speech、オノマトペ の別
    • 4節の sound 要素の type 属性の値
  • 発話源: 検索文字列の発話源(4節の sound 要素の source 属性の値)

4.データの内容

 ページ末の4コママンガを『ひまわり』用 XML 文書で表現したのが、次のデータ である。この XML 文書は、配布パッケージ中の Corpus/Manga/corpus.xml に ある。また、画像データは、1コマ1画像ファイル(png 形式)として分割して ある。

<?xml version="1.0" encoding="UTF-16"?>
<corpus name="漫画コーパス">
<manga title="ひまわりさんたち" author="画:桐生りか,原作:山口昌也" fig="title.png">
    <scene fig="1.png" no="1">
        <sound type="speech" source="陽くん">雨が降りそうだね</sound>
	 <sound type="speech" source="葵ちゃん">降ってきた!</sound>
	 <sound type="onomatopoeia" source="雨">ポツン</sound>
    </scene>
    <scene fig="2.png" no="2">
	 <sound type="speech" source="陽くん,葵ちゃん">きゃー急げ!!</sound>
	 <sound type="speech" source="葵ちゃん">きゃー</sound>
	 <sound type="speech" source="ひまわりお母さん">ぴーす</sound>
    </scene>
    <scene fig="3.png" no="3">
	 <sound type="speech" source="陽くん,葵ちゃん">あー助かった</sound>
    </scene>
    <scene fig="4.png" no="4">
	 <sound type="speech" source="陽くん,葵ちゃん">ありがとう〜</sound>
	 <sound type="speech" source="ひまわりお母さん">ばいばい</sound>
	 <sound type="onomatopoeia" source="おひさま">キラキラ</sound>
    </scene>
</manga>
</corpus>
12
1.png2.png
3.png4.png
34

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-02-15 (月) 00:00:00 (1286d)