全文検索システム『ひまわり』/利用者マニュアル/1_6/６．アノテーション内容を集計するの履歴ソース(No.34)

国語研究所の施設整備に伴い，関連のサービスを次の期間，停止します。

期間：2024年4月27日（土）9:00～2024年4月29日（月・祝）17:30
対象：Web用例データベース（複合動詞，サ変動詞，形容詞）・『ひまわり』＆関連資料（ダウンロードもできません），FishWatchr & FishWatchr Miniなど

#navi(../)

&color(red){&size(20){本ページは作成中です。};};

*6. 言語資料の分析を支援する [#j9dc7b31]

** 6.1 アノテーション内容の集計 [#ca00dd50]
*** 6.1.1 基本的な利用方法 [#se8fc263]
　[ツール]⇒[一覧]⇒[ユーザ入力]で，言語資料に付与されているアノテーション内容の集計を行います。

　アノテーションは，タグによって記述されているため，タグを指定して集計することになります。例えば，『青空文庫』サンプルでは，一つの作品に対して，「記事」というタグが付与されています。タグはいくつかの属性を持つことができ，「記事」には作品名や著者名の属性があります。

　『青空文庫』サンプルの「記事」タグを使って，作品一覧を作成する手順は，次のとおりです。

+ [ツール]⇒[一覧]⇒[ユーザ入力]で設定用のウィンドウを起動して，下図（左）のように「第１層タグ」のところに，「記事」を設定して下さい。
+ 選択メニューの右のボタンを押すと，下図（中央）のウィンドウが現れるので，「タイトル」「著者」にチェックを入れて下さい。
+ 二つのウィンドウの「OK」ボタンを押すと，下図（右）の記事一覧表が作成されます。

#ref(./himawari_summarize_articles2.png,80%)

*** 「頻度」オプション [#jad90333]
　「頻度」オプションをチェックすると，一覧の各項目の出現頻度を計測することができます。下の図は，「記事」の頻度を表示したものです。『青空文庫』サンプルには，作品は重複して登録されていないため，当然，各作品の頻度は１になります。

#ref(./himawari_summarize_articles3.png,80%)

　同様に，rタグ（ルビ）に対して，実行したのが次の図です。左図はrタグの属性rtを選択して表示したものです。rt属性には，ルビ本体が記述されているので，頻度付きのルビの一覧を作成することができます。

#ref(./himawari_summarize_ruby1.png,80%)

　一方，右図は属性を選択しないで表示したものです。この場合，rタグの総数を計測することになります。

#ref(./himawari_summarize_ruby2.png,80%)

*** 「第x層タグ」の設定 [#i0b928fc]
　タグは，「第１層タグ」「第２層タグ」「第３層タグ」に複数指定することにより，タグ間の包含関係を考慮した一覧の作成が可能です。下の図は，「第１層タグ」に「記事」タグ，「第２層タグ」にrタグを指定することにより，「記事」に含まれるルビの数を計測しています。

#ref(./himawari_summarize_ruby3.png,80%)

　「頻度」は最下層のタグを対象に計測します。上の例の場合は，rタグの頻度を「記事」ごとに計測することになります。 

*** 「長さ」オプション [#x346c777]
　「長さ」オプションは，タグでマークアップされている文字列の長さを計測します。この際，マークアップされている文字列の中に含まれるタグや空白文字は，すべて長さ０として計測されます。

　次の例は，「記事」タグでマークアップされている文字列（『青空文庫』サンプルの場合は一つの作品）に含まれる文字数を計測することになります。

#ref(./himawari_summarize_articles4.png,80%)


*** 「内容」オプション [#ka1baa6a]
　「内容」オプションは，タグでマークアップされている文字列のための列を集計結果に追加します。

　次の例は，rタグでマークアップされている文字列，つまり，ルビをつけられている文字列とルビをペアで集計しています。

#ref(./himawari_summarize_ruby4.png,80%)

*** 「文脈」オプション [#cc520d07]
　「文脈」オプションは，指定したタグのうち，最下層のタグに関して，後続するnタグ分の情報を集計結果に追加します。なお，nは「文脈」オプションで指定した値です。

　例えば，『青空文庫』サンプル（形態素解析結果付き）のmorphタグを使って，単語bigramを作成してみます。

#ref(./himawari_summarize_ngram1.png,80%)

最下層のタグAを対象に，指定した文脈数分の後続するタグAのための列を，指定した文脈数分，集計結果に追加します。なお，ここで言う，前後とは，単純に出現するという意味です。


** 6.2 [#xe562673]
** 6.3 [#ycb67277]
** 6.1 [#n67813b5]
** 6.1 [#v2732273]

全文検索システム『ひまわり』/利用者マニュアル/1_6/６．アノテーション内容を集計する の履歴ソース(No.34)

全文検索システム『ひまわり』/利用者マニュアル/1_6/６．アノテーション内容を集計するの履歴ソース(No.34)