全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート

実行例1:ルビの一覧を作成する(太陽コーパス)

概要

 太陽コーパスには,ルビの情報がアノテーションされています。ここでは,『ひまわり』(ver.1.5)に同梱されている太陽コーパスのサンプルデータを使って,ルビの一覧を作成してみます。

手順

  1. config.xml を次のように修正します。修正した結果を fileconfig_test.xml とします。
    • <index_eix>から</index_eix> の間に次の設定を追加する。この設定は,ルビを記述している r タグ用の索引を追加するためです。
      <li name="r" middle_name="r" is_empty="false" />
    • <setting> 〜 </setting> の間に次の設定を追加する。この設定は,一覧結果の表示方法の定義です。書式は設計の段階ですが,設定ファイルリファレンスマニュアルの user_defined_lists 要素を参照して下さい。
      <user_defined_lists label="各種要素">
        <element name="r" label="ルビ">
          <li name="対象" element="r" attribute="_contents" width="200" />
          <li name="rt" element="r" attribute="rt" width="200" />
          <li name="頻度" element="_sys" attribute="_freq" width="60"
              align="RIGHT" sort_type="numeric" sort_order="1" />
        </element>
      </user_defined_lists>
  2. 『ひまわり』を起動し,config_test.xml をドラッグ&ドロップします。
  3. [ツール]⇒[インデックス生成]を実行します。このとき,「すべてを初期化」のオプションは外して下さい。
  4. [一覧]メニューの中に「ルビ」の項目が追加されているはずです。これをクリックすると,アノテーションされているルビの一覧が表示されます。
 
ex2_1_0.png
 

実行例2:ルビの一覧を作成する(『青空文庫』パッケージ)

操作方法

 青空文庫の作品にもルビがアノテーションされているので,『青空文庫』パッケージを使って,ルビの一覧を表示してみます。実際に試したい方は,後述の「設定方法」をご覧ください。

 結果を次に示します。297642個のルビタグがついていることがわかります。すべての結果は,aozora20151001_ruby.xlsxを参照して下さい(一部,文字化けが含まれていたので,削除してあります)。

 
ex2_2_1.png
 

 次に,読みのバリエーションの多いものを探してみましょう。それには,ルビづけされている文字列(「対象」列)の異なりを頻度付きの一覧表にします。『ひまわり』でこれを求めるには,「対象」列のいずれかのセルを選択し,右クリックで「統計」を実行します。なお,このとき,『「頻度」欄の値を使用して,計測しますか?』と表示されますが,異なりを求めるので,「いいえ」を選択して下さい。

 結果は,次のとおりです。「頻度」列が読みの異なりを表します。

 
ex2_2_2.png
 

 このうち,「汝」の読みにどのようなバリエーションがあるか,見てみましょう。ルビの一覧のウィンドウにに戻って,「対象」列の列名の部分を右クリックして下さい。Excel などの表計算ソフトウェアと同様,フィルタを設定できます。ここでは,[文字列指定]に正規表現「^汝$」を指定して下さい(正規表現で,最初の文字が「汝」で最後の文字が「汝」を意味する)。結果は,次のとおりです。読みは,51種類あることがわかります。

 
ex2_2_3.png
 

 なお,フィルタを解除するには,再度列名の部分を右クリックし,「フィルタ解除」してください。頻度列でソートするには,シフトキーを押しながら,列名の部分をクリックすると,降順にソートされます。単にクリックすると,昇順です。

設定手順

 設定手順を以下に示します。設定内容は説明しませんが,実行例1の太陽コーパスの場合とほとんど同じです。詳細は,下に示した設定ファイルを直接ご覧ください。

  1. 『青空文庫』パッケージを『ひまわり』にインストールして下さい。
  2. 設定ファイルfileconfig_aozora_test.xmlをダウンロードし,起動している『ひまわり』にドラッグ&ドロップします。
  3. [ツール]⇒[インデックス生成]を実行します。このとき,「すべてを初期化」のオプションは外して下さい。
  4. 以上の操作で, [一覧]メニューの中に「ルビ」の項目が追加されます。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-03-18 (金) 00:00:00 (1312d)