全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート

結合

 複数の一覧・集計結果を結合する機能です。次の例は,青空文庫サンプル(config_aozora_sample.sd.xml)を使って,作品ごとの「この」の調整頻度を作成するまでの流れです。

  1. 基本形で「この」を検索し,検索結果から「キー」「タイトル」列で頻度を集計します。集計には,「キー」「タイトル」列のセルを一つづつ選択して,右クリック⇒[統計]を実行して下さい。
     
    join01.png
     
  2. 結果は次のようになります(表1)。
     
    join03.png
     
  3. 次に一覧機能([ツール]⇒[一覧]⇒[ユーザ入力])で,作品ごとの総単語数を求めます(表2)。
     
    join02.png
     
  4. 表1に表2の頻度列(総単語数)を結合します。結合にはキーとなる列と結合したい列を指定します。ここでは,キーとして「タイトル」を使います。指定には,表2の「タイトル」「頻度」列のどれかを選択して,[編集]⇒[コピー(列名を含む)]を実行します。
     
    join04.png
     
  5. 最後に,結合先の表でキーの列(「タイトル」列のどれか)を指定したうえで,[編集]⇒[結合]を実行します。結果は次のようになります。
     
    join05.png
     

合算

 文字数などの集計結果をさらに合算することができます。次の例は,太陽コーパスサンプルの「引用」タグの使って,話者ごとの発話文字数の合計を求めている例です。

  1. 次の一覧結果は,一覧機能で,「引用」タグの話者,種別属性を表示すると同時に,引用タグでマークアップされている文字列の長さを集計したものです。
     
    accumulation01.png
     
  2. 「引用%文字列」欄を右クリックし,[合算]を実行します。
     
    accumulation02.png
     
  3. 結果は,次のようになります。元の一覧結果の頻度情報を考慮し,文字数と積を取ったうえで合算しています。例えば,元の一覧結果の2行目の文字数は13,頻度2になっていますが,合算する際は26が加算されます。なお,結果の頻度欄はすべて1になります。
     
    accumulation03.png
     

置換

 検索結果や一覧結果を置換する機能です。次の例は,国会会議録パッケージで開催年月日を開催年に置換している例です。

  1. 「開催日」列のタイトルを右クリックし,[置換]を実行します。
     
    replace01.png
     
  2. 正規表現で年と日の部分を削除します。正規表現は,「-.*」を指定しています。
     
    replace02.png
     
  3. 実行結果は,次のように,年と日の部分が削除されます。
     
    replace03.png
     

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2017-03-16 (木) 00:00:00 (949d)