全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート

実行例1:作品ごとに検索文字列を集計する

概要

 『青空文庫』パッケージを使って,作品ごとに特定の文字列の出現数を集計します。実行例は,次のようなものです。各作品ごとに検索数と文字数が集計できるので,調整頻度や文字あたりの出現率を計算するのに役立つでしょう。ver.1.5までは,検索結果を表示した後に集計する必要があったので,大量の検索結果が得られる場合,集計が困難でした。今回追加された機能により,大量の検索結果を表示することなく,計測のみを行うことができます。

 
ex1_4.png
 

実行手順

  1. 適当な文字列を指定して,検索します。これは,2.で集計対象の列を選択するためです。
     
    ex1_1.png
     
  2. 計測したい列を選択します。今回は,「キー」「作品名」「作品ID」「文字数」を選択しました。Ctrl キーを押しながら,セルをクリックすると,追加的なセルの選択ができます。
     
    ex1_2.png
     
  3. 「検索オプション」タブの中の「抽出」タブで,「頻度計測のみ」,表示方法「一覧」を選択します。「総計」を選択すると,ver.1.5と同様,検索総数のみ表示されます。
     
    ex1_3.png
     
  4. 検索したい文字列を指定して,「検索」ボタンを押すと,概要のところに示した結果が得られます。今回は,検索文字列として,「私」を指定しています。
     
    ex1_5.png
     

実行例2:文字別の出現頻度表を作る

 「キー」列を選択した上で,次のように正規表現検索で任意の1文字を検索すれば,文字別の出現頻度表を作ることができます。検索文字列欄には,「.」(半角のピリオド)があることに注意して下さい。

 
ex1_6.png

 ただし,『青空文庫』パッケージ(2015-10-01)で実行すると,かなりの時間がかかります。MacBook Air (Mid 2013, CPU:Core i7-4650U 1.70GHz, Memory:8GB, OS:Ubuntu 14.04)で,約117分でした。結果のうち,頻度の上位5文字を次に示します。完全な結果は,aozora20151001_char.xlsxをご覧ください。

文字頻度
6952592
6092564
4380816
4097816
4080594

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-03-17 (木) 00:00:00 (1313d)