[[全文検索システム『ひまわり』]] *1.ver.1.6 の開発方針 [#c9e9842a] ver.1.6 では,教育現場で言語資料作成の実習や分析を行うことを考慮して,次の方針を掲げて,開発を行いました。 - 資料の分析を考慮した機能の拡充 - %%設定ファイル作成の GUI 化%% (次バージョンへ持ち越し) *2.追加された機能 [#rd7062bd] ** 外部アノテーション関連 (1.6.a20170120) [#r462e962] - インポート機能と統合し,インポートすれば,形態素解析結果などの外部アノテーションを行えるようになりました。 -- [[実行例:外部アノテーションの実行>./外部アノテーションの実行]] - 外部アノテーションした結果は,同一「記事」の範囲で,すべての結果を出現順に閲覧できるようになりました。これにより,特定の作品の形態素解析結果を簡単に閲覧することなどができます。 -- [[実行例:形態素解析結果の閲覧>./形態素解析結果の閲覧]] ** 一覧内容の指定 (1.6.a20170120) [#m51f7eb0] - これまで,記事やコーパスの情報の一覧は,パッケージ作成者が用意していたが,ユーザが一覧内容を部分的に指定できるようになりました。 -- [[実行例:テスト用言語資料>./テスト用言語資料]] ** アノテーション用データベースの改善 (1.6.a20160516) [#z6ae9c5c] - 従来版では,形態素解析結果のアノテーションのように辞書に基づいた大量のアノテーションを行う場合,リレーショナル・データベースを利用していたが,データベースを新たに実装した。これにより,次の点が改善される。 -- 検索速度の向上(例:青空文庫パッケージの形態素解析結果追加パッケージの場合,1.5倍から3倍程度) -- データサイズの削減(例:青空文庫パッケージの形態素解析結果追加パッケージの場合,約6GB必要だったが,約1.6GBになった) -- 運用の柔軟性(例:サブコーパスごとにデータベースを作れるようになった) #br -- [[実行例:テスト用言語資料>./テスト用言語資料]] ** 計測のみの検索機能の拡充 (1.6.a20160416) [#r325783a] - 検索結果の指定した列の組ごとに頻度を計測し,一覧する -- [[実行例:検索文字列を作品ごとに計測する>./計測機能の実行例]] //- 従来の版では,大量の検索結果が予想される時のために,検索結果を表示しないで,検索総数だけを計測する機能がありました。 //- 新しい版では,従来の機能に加え,検索結果の指定した列の組ごとに頻度を計測し,一覧できるようにしました。 //- この機能を使うことにより, ** アノテーションされた情報の集計 (1.6.a20160416) [#k1ab97d7] - 付与されているアノテーション内容の一覧を作成する -- [[実行例:ルビの一覧を作成する>./要素一覧機能の実行例]] ** その他 [#z2706940] - 「統計」機能において,選択した列に「頻度」列があった場合,その値を頻度計測時に加算するようにした - メモ機能用のメニューを必要なときのみ表示するようにした - [編集]⇒[検索]のキーを保存するようにした - フィルタ機能の高速化 - 検索速度の高速化 - アイコンの高解像度化 ⌣ #ref(./himawari_chan_512.png,40%) ** 次期スナップショット追加予定 [#m614b649] //- RDBを使用しないで,Standoff タイプのアノテーションを検索する