全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート
『青空文庫』パッケージを使って,作品ごとに特定の文字列の出現数を集計します。実行例は,次のようなものです。各作品ごとに検索数と文字数が集計できるので,調整頻度や文字あたりの出現率を計算するのに役立つでしょう。ver.1.5までは,検索結果を表示した後に集計する必要があったので,大量の検索結果が得られる場合,集計が困難でした。今回追加された機能により,大量の検索結果を表示することなく,計測のみを行うことができます。
「キー」列を選択した上で,次のように正規表現検索で任意の1文字を検索すれば,文字別の出現頻度表を作ることができます。検索文字列欄には,「.」(半角のピリオド)があることに注意して下さい。
ただし,『青空文庫』パッケージ(2015-10-01)で実行すると,かなりの時間がかかります。MacBook Air (Mid 2013, CPU:Core i7-4650U 1.70GHz, Memory:8GB, OS:Ubuntu 14.04)で,約117分でした。結果のうち,頻度の上位5文字を次に示します。完全な結果は,aozora20151001_char.xlsxをご覧ください。
文字 | 頻度 |
の | 6952592 |
、 | 6092564 |
い | 4380816 |
た | 4097816 |
に | 4080594 |