#navi(../) &color(red){&size(20){本ページは作成中です。};}; *5.検索結果を集計する [#y80e5ead] ** 5.1 頻度を計測する [#n15c7ad2] 次の図は,『青空文庫』サンプルから「これ」を検索した結果です。ここでは,作品別の出現頻度を求めてみます。 頻度の計測は,列を指定して行います。作品別の頻度を計測する場合,「タイトル」列のいずれかのセルを選択し,右クリック⇒「統計」を実行します。 #ref(./himawari_stat_freq1a.png,80%) 計測結果は,次のようになります。 #ref(./himawari_stat_freq2a.png,80%) 複数のセルを選択すると,選択した列の値を組にして頻度を計測することができます。次の例は,タイトルと作品を組にした場合の結果です。 #ref(./himawari_stat_freq3.png,80%) ** 5.2 検索結果・集計結果を編集する [#bf567862] 正規表現置換により,検索結果,集計結果を編集します。 ここでは,年月日表示から年表示にする例を示します。使用した資料は,国会会議録パッケージです。例えば,この処理により,年ごとの集計が容易になります。 まず,「開催年月日」列のセルを右クリックし,「置換」を実行します。 #ref(./himawari_stat_replace1.png,80%) 置換の設定は,置換元(正規表現,「-.*」),置換先を指定します。この場合,「-」以降の文字列を削除することにより,年表示にしています。なお,置換の処理は,Javaの[[String#replaceAll>https://docs.oracle.com/javase/jp/8/docs/api/java/lang/String.html#replaceAll-java.lang.String-java.lang.String-]]で行っています。後方参照についても利用可能です。 #ref(./himawari_stat_replace2.png,100%) 結果は次のとおりです。新しいウィンドウが生成されて,置換結果が表示されます。 #ref(./himawari_stat_replace3.png,80%) ** 5.3 集計結果を合算する [#v2b5ad87] セルの値が数値の場合,それらを合算する機能です。名大会話コーパスパッケージを使って,話者ごとの発話文字数を計測してみます。 まず,各発話の文字数をアノテーション内容の集計機能([ツール]⇒[一覧]⇒[ユーザ入力])で求めます。一つの発話は,uタグでマークアップされています。さらに,発話者の名前を表示するため,「話者」の属性をチェックします。また,発話の文字数とその頻度も表示するように,「頻度」「長さ」もチェックします。頻度を表示するのは,同じ文字数の発話が複数存在する可能性があるからです。 #ref(./himawari_stat_accumulate1.png,80%) 集計結果は,結果は,次のとおりです。例えば,先頭行は,話者「F001」の発話のうち,文字数が13だったものが,107回あったことを表します。 #ref(./himawari_stat_accumulate2.png,80%) 最後に,合算したい列のセル(「合算:u%文字数」)を選び,[編集]⇒[合算]を実行します。 #ref(./himawari_stat_accumulate3a.png,80%) 合算では,合算する列と「頻度」列を除くすべての列の値が同じ行の値が合算されます。上の例の場合は,「話者」列の値が同じ場合,「合算:u%文字数」列の値を合算します。合算する際は,「頻度」列の値を考慮し,先ほど例示した先頭行の場合,13×107文字として,計算されます。 ** 5.4 集計結果を結合する [#v30ec872] #navi(../)