全文検索システム『ひまわり』/『日本語日常会話コーパス』モニター公開版の変更点

国語研究所の施設整備に伴い，関連のサービスを次の期間，停止します。
期間：2024年4月27日（土）9:00～2024年4月29日（月・祝）17:30
対象：Web用例データベース（複合動詞，サ変動詞，形容詞）・『ひまわり』＆関連資料（ダウンロードもできません），FishWatchr & FishWatchr Miniなど
追加された行はこの色です。
削除された行はこの色です。
全文検索システム『ひまわり』/『日本語日常会話コーパス』モニター公開版へ行く。
全文検索システム『ひまわり』/『日本語日常会話コーパス』モニター公開版の差分を削除
#author("2022-07-06T10:30:51+09:00","default:rd","rd")
#author("2022-07-06T10:31:25+09:00","default:rd","rd")
[[全文検索システム『ひまわり』]]

#br
&size(20){本ページは，モニター公開版用の情報です。[[本公開版のページ>https://csd.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9/%A1%D8%C6%FC%CB%DC%B8%EC%C6%FC%BE%EF%B2%F1%CF%C3%A5%B3%A1%BC%A5%D1%A5%B9%A1%D9]]をご覧ください。};
&size(20){本ページは，モニター公開版用ページです。[[本公開版のページ>https://csd.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9/%A1%D8%C6%FC%CB%DC%B8%EC%C6%FC%BE%EF%B2%F1%CF%C3%A5%B3%A1%BC%A5%D1%A5%B9%A1%D9]]をご覧ください。};
//&color(red){&size(20){本ページは，現在構築中です。};};
//&color(red){&size(20){本ページは，現在構築中です。};};
#br
#br

RIGHT:作成者：山口昌也 (国立国語研究所)
RIGHT:2018-12-14
#br

//----
//''お知らせ''
//- 2019-02-15: [[一定の条件で単語検索時に不具合>全文検索システム『ひまわり』/バグ情報#lef0308e]]が発生します。
//----


''目次''
#contents
#br

*１．はじめに [#bbc4fbe7]
　[[『日本語日常会話コーパス』:https://www2.ninjal.ac.jp/conversation/corpus.html]]の[[モニター公開版>https://www2.ninjal.ac.jp/conversation/cejc-monitor.html]](以後，CEJC)の配布ハードディスクには，全文検索システム『ひまわり』を用いた検索環境（以後，「CEJCパッケージ」）が同梱されています。このページでは，CEJCパッケージの利用方法を説明します。特徴は，次のとおりです。

- 全転記テキストの全文検索
- 形態素解析結果（短単位）を利用した検索，形態素解析結果の表示
- 検索結果からの転記テキスト全体の表示
- 検索結果からの動画ファイルの再生（FishWatchrを利用，アノテーションも可）
- CEJCに同梱されるメタデータ（会話情報，話者情報）の閲覧

　なお，CEJCパッケージは，配布ハードディスクに同梱される各種コーパスファイル，メタデータを『ひまわり』，FishWatchrにインポートする形で構築しています。構築時は，基本的にオリジナルのデータに変更を加えることなく利用していますが，&color(red){それぞれの発話末に発話区切りを表す「語」（長さ０，品詞：himawari_発話末）を追加しています};。長さ０なので本文には影響を与えず，また，全文検索にも影響を与えませんが，語数などを計測する際は，注意して下さい。

#br
|BGCOLOR(white):&ref(./cejc_himawari.png,17%);|BGCOLOR(white):&ref(./cejc_fw.png,17%);|
|全文検索『ひまわり』での転記テキストの検索|観察支援システムFishWatchrによる動画ファイルの再生|h
#br

*２．動作環境 [#v01d9a07]
　CEJCパッケージは，次の環境で動作します。

- Windows (Windows7以降)
- macOS (Webブラウザは，ChromeもしくはFirefoxを推奨)
- その他（Java および VLCが動作する環境）


*３．準備 [#g12e5585]
** 3.1 使用機器の準備 [#he8a4b3b]
- ''配布されたCEJCのハードディスクを利用する場合''
-- ハードディスクをPCに接続する以外，機器の設定は必要ありません。
- ''PC内臓のハードディスクなど，別のディスクを利用したい場合''
-- 配布ハードディスクの内容を''すべて''コピーして利用して下さい。
-- コピー時には，フォルダの構成は変更しないで下さい。
- ''Windows，macOS以外のPCを利用している場合''
-- Linux，FreeBSDなど，Java，VLCが動作する環境では，CEJCパッケージも動作する可能性があります。
-- &color(red){各自の環境に合わせて，JavaとVLCをインストールして下さい。};参考のため，配布サイトの例を示します。
--- [[Java>https://adoptopenjdk.net/releases.html]] （AdoptOpenJDK）
--- [[VLC>https://www.videolan.org/vlc/]] （VideoLAN Organization）
-- Android，iOSでは，動作しません。

** 3.2 各種ドキュメント [#ub26395b]
　本ページでは，CEJCパッケージに固有の事柄について説明します。CEJCや『ひまわり』，FishWatchr自体の一般的な使い方については，それぞれのマニュアルを参照して下さい。

- CEJCの[[各種マニュアル>https://www2.ninjal.ac.jp/conversation/cejc-monitor.html]]
- [[『ひまわり』利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_6]]
- [[FishWatchr利用者マニュアル>観察支援ツール FishWatchr/利用者マニュアル/1_0]]

**3.3 『ひまわり』の起動の確認 [#n7243063]
+ 配布ハードディスクの「Himawari_CEJC」フォルダを開いて下さい。場所は，次のとおりです。
 tool　→　Himawari_CEJC
+ 『ひまわり』を実行
-- ''Windowsの場合：''　himawari.exe　をダブルクリックして下さい。
#br
#ref(./himawari_folder_win.png,45%)
#br
-- ''macOSの場合：''　Himawari　をダブルクリックして下さい。
#br
#ref(./himawari_folder_mac.png,30%)
#br
-- ''その他の場合''
+++ シェルを起動し，カレントディレクトリを「Himawari_CEJC」フォルダにして下さい。
+++ 次のコマンドを実行して下さい。
 % java -jar himawari.jar

**3.4 検索できることの確認 [#f61920b2]
　『ひまわり』が起動したら，検索できるかどうか，確認してください。検索するには，検索欄に適当な文字列を入力し，「検索」ボタンを押します。次の例では，「学校」を検索した結果です。

#ref(./himawari_search_test.png,65%)

* ４．転記テキストの検索：『ひまわり』 [#u6548c7e]
** 4.1 検索結果 [#j3d70dc3]

　検索結果の各列の説明は，次のとおりです。CEJCマニュアルもあわせて，参照して下さい。

|~列名|~備考|
||450|c
|前文脈|キーの前文脈|
|キー|検索文字列|
|後文脈|キーの後文脈|
|会話ID|キーが出現した会話のID|
|話者ラベル|キーの先頭文字を含む発話（発話単位）の話者情報|
|話者ID|~|
|性別|~|
|年齢|~|
|出身地|~|
//|居住地|話者の居住地|
|職業|~|
|話者間の関係性|~|
|品詞|キーの先頭文字を含む語（短単位）の情報|
|活用型|~|
|活用形|~|
|語彙素|~|
|語彙素読み|~|
|発音形出現形|~|
|発音|~|
|書字形|~|
|タグ付き書字形|~|
|語彙素-2|当該語の２語前の語彙素|
|語彙素-1|当該語の１語前の語彙素|
|語彙素1|当該語の１語後の語彙素|
|語彙素2|当該語の２語後の語彙素|
|開始時刻|当該発話（発話単位）の開始時刻|
|終了時刻|当該発話（発話単位）の終了時刻|
|コメント|当該発話（発話単位）に付与されているコメント|
|仮名|キーの先頭文字が仮名の一部か否かを表すフラグ&br;仮名の場合は「仮名」，そうでない場合は空欄|



** 4.2 検索対象の詳細 [#ree5188d]
#ref(./himawari_search_target3.png,left,around,80%,検索対象)
　検索文字列欄の左のメニューから，検索対象を選択することができます。『ひまわり』利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_6/４．詳細な検索を行う]]もあわせてご覧ください。
#clear


*** 全文，全文(正規表現） [#f9ab4522]
- 転記テキストを全文検索します。ただし，複数の発話（発話単位）をまたいだ検索はできません。
- 検索結果の「キー」欄には，マッチした文字列が表示されます。
- 全文(正規表現）では，検索文字列に正規表現が利用できますが，通常の全文検索よりも低速です。
- 検索結果として表示される，短単位，発話に関する情報は，検索文字列の先頭の文字に付与されている情報です。例えば，「を食べる」を検索した場合，「を」に付与されている情報が表示されます。

- 検索例
-- 検索例1a：「国語」で全文検索します。
-- 検索例1b：「国語」で全文検索し，その後文脈が「の」で始まる場合にマッチします。

|&ref(./himawari_zenbun1a.png,80%);|&ref(./himawari_zenbun2a.png,80%);|
|検索例1a|検索例1b|h

//*** 全文(正規表現，短単位)，全文(正規表現，発話) [#jcfd9750]
//- 短単位，もしくは，発話（発話単位）の区切りを考慮して，全文検索します。上記の「全文」の場合と異なり，短単位，発話をまたいだ文字列は，検索されません。
//- 正規表現を使うことができます。ただし，検索速度は「全文」や「書字形」などより低速です。
//- 「全文」と同様，検索結果として表示される，短単位，発話に関する情報は，検索文字列の先頭の文字に付与されている情報です。

//- 検索例
//-- 検索例2a：発話内に「国語」を含む場合にマッチします。
//-- 検索例2b：短単位が「国」で始まる場合にマッチします。
//-- 検索例2c：発話内に「やっと&#12316;よ」を含む場合にマッチします。
//#br
//|&ref(./himawari_zenbun_regex1.png,80%);|&ref(./himawari_zenbun_regex2.png,80%);|&ref(./himawari_zenbun_regex3.png,80%);|
//|検索例2a|検索例2b （正規表現「^国.*$」）|検索例2c （正規表現「やっと.*」）|h
//#br

*** 書字形，書字形(タグ付)，書字形(正規表現) [#g3a619b1]
- 短単位の書字形，タグ付き書字形で検索します。
-- 書字形，書字形(タグ付)の場合
--- 「検索文字列」欄で指定した文字列で部分一致検索します。
--- 検索結果の「キー」欄には，マッチした語が表示されます。
--- 「検索文字列」欄では正規表現は利用できませんが，「正規表現（前）」「正規表現（後）」欄と組み合わせて，制限付きの正規表現を使えます。
--- 前後文脈は「フィルタ」タブで指定して下さい。
--書字形(正規表現)の場合
--- 「検索文字列」欄で正規表現が使えます。
--- ただし，「書字形」検索よりも低速です。
--- 検索結果の「キー」欄には，マッチした文字列（&color(red){語ではないことに注意};）が表示されます。
- 「全文」の場合と異なり，検索結果のキー欄は，短単位で表示されます。

#br
- 検索例（「書字形」「書字形(タグ付)」）
-- 検索例2a：書字形に「国語」を含む場合にマッチします。
-- 検索例2b：書字形が「国語」で始まる場合にマッチします。
-- 検索例2c：書字形が「国語」の場合にマッチします。
#br
|&ref(./himawari_su1a.png,80%);|&ref(./himawari_su2a.png,80%);|&ref(./himawari_su3a.png,80%);|
|検索例2a|検索例2b|検索例2c|h
#br
- 検索例（「書字形(正規表現)」）
-- 検索例3a：書字形に「国語」を含む場合にマッチします。
-- 検索例3b：書字形が「国」で始まる場合にマッチします。
-- 検索例3c：書字形が「国語」の場合にマッチします。
#br
|&ref(./himawari_su7a.png,80%);|&ref(./himawari_su8a.png,80%);|&ref(./himawari_su9a.png,80%);|
|検索例3a|検索例3b|検索例3c|h
#br


*** 語彙素，語彙素読み，品詞 [#lc71a256]
- 短単位の語彙素，語彙素読み，品詞で検索します。
- 検索結果の「キー」欄には，マッチした語が表示されます。
- 文字列の照合には，正規表現（前），正規表現（後）欄で，正規表現を使うことができます。
- 前後文脈は，「フィルタ」タブで指定して下さい。

#br
- 検索例
-- 検索例4a：語彙素読みに「コクゴ」を含む場合にマッチします。
-- 検索例4b：語彙素読みが「ゴ」で終わる場合にマッチします。
-- 検索例4c：語彙素読みが「タベル」の場合にマッチします。
#br
|&ref(./himawari_su4a.png,80%);|&ref(./himawari_su5a.png,80%);|&ref(./himawari_su6a.png,80%);|
|検索例4a|検索例4b|検索例4c|h
#br

*** 話者ID [#g4ec3357]
- 話者IDをキーとして検索します。
- 検索結果の「キー」欄には，当該の発話IDを持つ発話が検索されます。
- 文字列の照合には，正規表現（前），正規表現（後）欄で，正規表現を使うことができます。

- 検索例
-- 検索例5a：話者IDが「T005_032」を含む場合にマッチします。
-- 検索例5b：話者IDが「T005」で始まる場合にマッチします。
#br
|&ref(./himawari_speaker1a.png,80%);|&ref(./himawari_speaker2a.png,80%);|
|検索例5a|検索例5b|h
#br

**4.3 データの閲覧 [#w506917b]
**4.3.1 会話データベースの閲覧 [#i129a3cc]
- 検索結果の「会話ID」列の値をダブルクリックすることにより，当該行の会話の情報を会話データベースから検索し，表示します。
#br
|&ref(./himawari_conversation_db.png,80%);|
#br
- すべての会話のデータを表示するには，[ツール]⇒[一覧]⇒会話DBを実行して下さい。

**4.3.2 話者データベースの閲覧 [#x0dd48ec]
- 検索結果の「話者ID」列の値をダブルクリックすることにより，当該行の話者の情報を話者データベースから検索し，表示します。
#br
|&ref(./himawari_speaker_db.png,80%);|
#br
- すべての話者のデータを表示するには，[ツール]⇒[一覧]⇒話者DBを実行して下さい。

**4.3.3 動画ファイルの閲覧 [#re78ec3b]
- 検索結果の「性別」列もしくは「年齢」列の値をダブルクリックすることにより，当該行の会話の動画ファイルをFishWatchrで閲覧することができます。
- FishWatchrについては，5章を参照して下さい。

**4.3.4 転記テキストの閲覧 [#ga9b8777]
　検索結果（「会話ID」「話者ID」「性別」「年齢」列を除く）をダブルクリックすると，当該の検索文字列を含んだ転記テキストを閲覧することができます。

-検索文字列は，赤色で表示されます。
-「/」は，短単位の区切りを表します。
-個々の短単位にマウスカーソルを合わせると，下の図のように短単位の各種属性が表示されます。
-ブラウザは，[オプション]⇒[ブラウザ]で選択することができます。
-- なお，macOSではセキュリティ上，デフォルトの設定ではSafariは利用できません。FirefoxもしくはChromeをインストールするか，[[対処方法>全文検索システム『ひまわり』/FAQ#qf12a859]]を参照して下さい。

#br
#ref(./himawari_browse_transcript.png,80%)
#br

**4.4 分析のための機能 [#n5743254]
*** 4.4.1 検索結果の集計 [#y724c185]
- 検索結果に対して，選択した列に含まれる値の頻度を集計します。
-- 列の選択は，選択したい列のセル（どこでもよい）を選択することにより行います。
-- 複数の列を選択してもかまいません。
- 選択後，右クリック⇒[統計]を実行すると，集計が実行されます。
#br
- ''例：会話IDごとの頻度を集計する例''
#br
|選択例|実行結果|h
|BGCOLOR(WHITE):&ref(./himawari_stat_conv_id1.png,40%);|BGCOLOR(WHITE):&ref(./himawari_stat_conv_id2.png,40%);|
#br

*** 4.4.2 コーパスの基本情報の取得[#w92f463c]
-[ツール]⇒[一覧]⇒[ユーザ入力]により，CEJCの転記テキストに付与されている，さまざまなタグの内容を集計することができます。この機能の詳細は，『ひまわり』利用者マニュアル（[[「６．アノテーション内容を集計する」>全文検索システム『ひまわり』/利用者マニュアル/1_6/６．アノテーション内容を集計する]]）をご覧ください。
- 集計できるタグは，次のとおりです。

|タグ名|説明|付与されている属性例|h
|cejc| 転記テキスト全体に対して付与されている情報|会話ID，話者間の関係|
|u |発話に付与されている情報|話者ID，年齢，職業，出身地|
|s |単語に付与されている情報|品詞，語彙素，発音|

- 例１：単語頻度（品詞別）
-- 第１階層タグをsにし，属性設定（右側のメニュー）で「品詞」を選択
-- 「頻度」をチェック

#br
LEFT:
|&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_list_pos2.png,80%);|
#br

- 例２：単語頻度（語彙素別）
-- 第１階層タグをsにし，属性設定（右側のメニュー）で「活用型」「語彙素」「語彙素読み」「品詞」を選択
-- 「頻度」をチェック

#br
|&ref(./himawari_list_pos1.png,80%);|&ref(./himawari_list_pos3.png,80%);|
#br


- 例３：会話データごとの発話数
-- 第１階層タグをcejcにし，属性設定（右側のメニュー）で「発話ID」を選択
-- 第２階層タグをuにする。属性設定（右側のメニュー）は「選択なし」
-- 「頻度」をチェック

#br
|&ref(./himawari_list_conv1.png,80%);|&ref(./himawari_list_conv2.png,80%);|
#br

- 例４：会話データごとの単語数
-- 第１階層タグをcejcにし，属性設定（右側のメニュー）で「発話ID」を選択
-- 第２階層タグをsにする。属性設定（右側のメニュー）は「品詞」を選択
-- 「頻度」をチェック
#br
--(1) まず，会話データごとの各品詞の頻度を計測
//#br
//|&ref(./himawari_list_pos4.png,80%);|&ref(./himawari_list_pos5.png,80%);|
//#br
--(2) 計測したくない品詞の語を取り除くため，「品詞」列を右クリックし，フィルタを設定
--- ここでは，「himawari_発話末」「形態論情報付与対象外」します。
--- 「文字列指定」で次の正規表現を指定（「himawari」「形態論」で始まる品詞を除外）
 ^(?!himawari|形態論).+$

#br
|(1)の計測の設定|(1)の結果|(2)のフィルタ設定|h
|&ref(./himawari_list_pos4.png,80%);|&ref(./himawari_list_pos5.png,80%);|&ref(./himawari_list_pos6.png,80%);|
#br

--(3) 最後に「会話ID」列の値のどれかを選択し，右クリック⇒「統計」で，各会話ごとの単語数を求めます。「現在の「頻度」欄の値を考慮して，新しい頻度を計測しますか？」には，「はい」と答えて下さい。
#br
|&ref(./himawari_list_pos7.png,80%);|
//|フィルタの設定|最終的な集計結果|h
//|&ref(./himawari_list_pos6.png,80%);|&ref(./himawari_list_pos7.png,80%);|
#br

* ５．動画の閲覧とアノテーション：FishWatchr  [#u6927306]
** 5.1　動画の閲覧 [#s0d837fa]
　『ひまわり』の検索結果の「性別」もしくは「年齢」列の値をダブルクリックすると，当該行の検索結果の動画を[[観察支援システムFishWatchr>観察支援ツール FishWatchr]]で閲覧することができます。

　FishWatchrの機能のうち，よく使うものを次に挙げておきます。詳細は，FishWatchrの[[マニュアル>観察支援ツール FishWatchr/利用者マニュアル/1_0]]を参照して下さい。

- 動画の再生，停止，早送り
-- 画面中央の操作パネル（&ref(./fw_control.png,70%);）を使用します。
//-- 画面中央の操作パネル（&#x25c0;&#x25c0;，&#x25b6;，&#x25b6;&#x25b6;，&#x23f9;）を使用します。
-- 再生位置は，次の三つの方法で指定することができます。
--- 画面中央のスライダ（下図①）
--- 画面左側のグラフのダブルクリック（グラフの横軸は再生経過時間，下図②の棒線は再生位置）
--- 発話リストの時間列の値（下図③）のダブルクリック
-- 画面中央の「注記連動」（下図④）をチェックすると，再生位置と同期して，発話リストがスクロールします。
-- 再生速度は，Ctrl+「.」，Ctrl+「,」で上下します。Ctrl+「/」でリセットです。
- 画面左上のグラフの使い方
-- 発話の存在を時間軸上にプロットしています。
-- 「表示」メニュー（下図⑤）で表示対象（「話者」「ラベル」）を選択できます。
-- グラフ下部の棒グラフは，起点とする時刻において，前後10秒間（デフォルト）に存在する発話数です。
-- 横方向にドラッグすると，その範囲を詳細に表示することができます。
--- 元の範囲に戻すには，グラフ上部の「リセット」ボタンを押して下さい。

&ref(./cejc_fw2.png,35%);

** 5.2　アノテーション [#k4c05885]
- アノテーションボタン（上図⑥）を押すと，再生位置に注釈（発話リストに１行追加されます）をつけることができます。
-- 追加した注釈を削除するには，削除する行のいずれかの列で右クリックし，「行の削除」を実施して下さい。なお，発話の行も削除できるので，注意して下さい。
-- 「番号」「時間」「コメント」列以外は，ダブルクリックすると，編集が可能です。
- 既存の発話の「補助情報」列には，追加のコメントを記入することができます。
- アノテーションボタン，追加する注釈の「注釈者」名は，ウィンドウ上部の「注釈」メニューから変更できます。詳細は，[[マニュアル>観察支援ツール FishWatchr/利用者マニュアル/1_0/２．準備]]を参照して下さい。

*６．トラブルシューティング [#d318150a]
- Windows 環境において，メモリ不足関連のエラー（システムエラー(Java heap space)など）がでます。
-- 『ひまわり』FAQの「[[64bit版のJavaを利用する>全文検索システム『ひまわり』/FAQ#pe141e44]]」を参照して下さい。
- Windows 環境において，文字が小さすぎます。
-- 『ひまわり』FAQの「[[『ひまわり』に表示される文字が小さすぎます>全文検索システム『ひまわり』/FAQ#l20e1c12]]」を参照して下さい。


*７．お問い合わせ [#q31d0b9a]
　『ひまわり』もしくは本パッケージに関するお問い合わせは，&ref(全文検索システム『ひまわり』/himawari_mail_ninjal.png);にお願いします。ただし，お問い合わせ前には，必ず，[[『ひまわり』利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル/1_6]]，[[FishWatchr利用者マニュアル>観察支援ツール FishWatchr/利用者マニュアル/1_0]]，[[『ひまわり』FAQ>全文検索システム『ひまわり』/FAQ]]を確認して下さい。

　なお，CECJの仕様やそのデータに関しては，[[モニター公開版>https://www2.ninjal.ac.jp/conversation/cejc-monitor.html]]のページを参照下さい。

*謝辞 [#w0ad33f2]
　全文検索システム『ひまわり』および観察支援システムFishWatchrの作成にあたっては，次のJSPS科研費の助成を受けています。
-「ビデオアノテーションを利用した協同型実習活動支援システムに関する研究」（[[17K01105>https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-17K01105/]]）
-「昭和話し言葉コーパス」の構築による話し言葉の経年変化に関する実証的研究」（[[16H03426>https://kaken.nii.ac.jp/ja/grant/KAKENHI-PROJECT-16H03426/]]）

　CEJCパッケージ作成にあたっては，小磯花絵氏，西川賢哉氏にオリジナルのコーパスデータ・メタデータ，および，その構造情報の提供，データ構造のすり合わせをしていただきました。また，居關友里子氏，川端良子氏にパッケージ・本ページに対するコメントをいただきました。深く感謝いたします。
全文検索システム『ひまわり』/『日本語日常会話コーパス』モニター公開版 の変更点

全文検索システム『ひまわり』/『日本語日常会話コーパス』モニター公開版の変更点