全文検索システム『ひまわり』

1.ver.1.6 の開発方針

 ver.1.6 では,教育現場で言語資料作成の実習や分析を行うことを考慮して,次の方針を掲げて,開発を行いました。

  • 資料の分析を考慮した機能の拡充
  • 設定ファイル作成の GUI 化 (次バージョンへ持ち越し)

2.追加された機能

  • 全文検索システム『ひまわり』講習会資料(2017-05-08)(slideshare.net)
  • ver.1.6で追加された機能の一部を紹介しています。

コーパス選択方法の改善(1.6b02)

  • 従来版では,コーパスの選択は,設定ファイル(config_*.xml)を選択することによって行ってきましたが,コーパス一覧から選択できるようになりました。
  • [ファイル]⇒[コーパス選択]から利用できます。

一覧内容の指定

(1.6.a20170316)

  • 一覧で文脈オプションを追加しました。これにより,単語などのnグラムを作成することができるようになりました。

(1.6.a20170120)

  • これまで,記事やコーパスの情報の一覧は,パッケージ作成者が用意していましたが,ユーザが一覧内容を部分的に指定できるようになりました。

検索結果・一覧結果の編集

(1.6.a20170316)

(1.6.a20170120)

外部アノテーション関連 (1.6.a20170120)

  • 外部アノテーションした結果を閲覧できるようになりました。
  • 外部アノテーションをインポート機能と統合しました。

フォントサイズの変更 (1.6.a20170120)

  • フォントサイズの変更機能を拡張しました。
    • 『ひまわり』上でマウス・ホイール(Ctrl キーを押しながら;Macの場合は Shift + Ctrl)を操作することにより,フォントサイズを変更することができます。
    • フォントサイズの上限値を大きくしました。
    • フォントサイズを変更しても,きちんと文字を表示できるようになりました。

外部アノテーション用データベースの改善 (1.6.a20160516)

  • 規定のラベルに基づいた大量のアノテーション(例:形態素解析結果)を行う場合,『ひまわり』では,コーパス自体にタグとして記述する方法以外に,外部のデータベースに記述する方法を用意しています。従来は,データベースとして,リレーショナル・データベースを利用していましたが,今回新たに独自形式のデータベースを実装しました。これにより,次の点が改善されます。
    • 検索速度の向上(例:青空文庫パッケージの形態素解析結果追加パッケージの場合,1.5倍から3倍程度)
    • データサイズの削減(例:青空文庫パッケージの形態素解析結果追加パッケージの場合,約6GB必要だったが,約1.6GBになった)
    • 運用の柔軟性(例:サブコーパスごとにデータベースを作れるようになった)
       
    • 実行例:テスト用言語資料

計測のみの検索機能の拡充 (1.6.a20160416)

アノテーションされた情報の集計 (1.6.a20160416)

その他

  • 「統計」機能において,選択した列に「頻度」列があった場合,その値を頻度計測時に加算するようにした
  • メモ機能用のメニューを必要なときのみ表示するようにした
  • [編集]⇒[検索]のキーを保存するようにした
  • フィルタ機能の高速化
  • 検索速度の高速化
  • アイコンの高解像度化 [smile]
    himawari_chan_512.png

次期スナップショット追加予定


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2017-08-08 (火) 16:36:20 (14d)