国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
本ページは,現在構築中です。
『日本語日常会話コーパス』のモニター公開版(以後,CEJC)の配布ハードディスクには,全文検索システム『ひまわり』を用いた検索環境(以後,「本検索環境」)が同梱されています。このページでは,本検索環境の利用方法を説明します。本検索環境の特徴は,次のとおりです。
CEJCパッケージは,次の環境で動作します。
本ページでは,CEJCパッケージに固有の事柄について説明します。CEJCや『ひまわり』,FishWatchr自体の一般的な使い方については,それぞれのマニュアルを参照して下さい。
CEJC → tool → Himawari_CEJC
% java -jar himawari.jar
『ひまわり』が起動したら,検索できるかどうか,確認してください。検索するには,検索欄に適当な文字列を入力し,「検索」ボタンを押します。次の例では,「学校」を検索した結果です。
検索結果の各列の説明は,次のとおりです。CEJCマニュアルもあわせて,参照して下さい。
列名 | 備考 |
---|---|
前文脈 | キーの前文脈 |
キー | 検索文字列 |
後文脈 | キーの後文脈 |
会話ID | キーが出現した会話のID |
話者ラベル | キーを発話した話者のラベル |
話者ID | キーを発話した話者のID |
性別 | 話者の性別 |
年齢 | 話者の年齢 |
出身地 | 話者の出身地 |
居住地 | 話者の居住地 |
品詞 | キーの先頭文字を含む語(短単位)の情報 |
活用型 | |
活用形 | |
語彙素 | |
語彙素読み | |
発音形出現形 | |
発音 | |
タグ付き出現形 | |
語彙素-2 | 当該語の2語前の語彙素 |
語彙素-1 | 当該語の1語前の語彙素 |
語彙素1 | 当該語の1語後の語彙素 |
語彙素2 | 当該語の2語後の語彙素 |
開始時刻 | 当該発話の開始時刻 |
終了時刻 | 当該発話の終了時刻 |
コメント | 当該発話に付与されているコメント |
仮名 | キーの先頭文字が仮名の一部か否かを表すフラグ 仮名の場合は「仮名」,そうでない場合は空欄 |
検索文字列欄の左のメニューから,検索対象を選択することができます。『ひまわり』利用者マニュアルの4.1 節もあわせてご覧ください。
検索結果(「会話ID」「話者ID」「性別」「年齢」列を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。
検索結果から,集計したい列を選択し,[][][]を実行すると,その頻度を集計することができます。列の選択は,検索結果の列中の適当な値を選択して下さい。
本検索環境では,[ツール]⇒[一覧]⇒[ユーザ入力]により,CEJCの転記テキストに付与されている,さまざまなアノテーションを集計することができます。集計できるアノテーションは,次のとおりです。
タグ | 説明 | 例 |
cejc | 転記テキスト全体に対して付与されている情報 | 会話ID |
u | 発話に付与されている情報 | 話者ID |
s | 単語に付与されている情報 | 品詞,語彙素 |
『ひまわり』の検索結果の「性別」もしくは「年齢」列の値をダブルクリックすると,当該行の検索結果の動画を観察支援システムFishWatchrで閲覧することができます。
FishWatchrの機能のうち,よく使うものを次に挙げておきます。詳細は,FishWatchrのマニュアルを参照して下さい。
全文検索システム『ひまわり』および観察支援システムFishWatchrの作成にあたっては,次のJSPS科研費の助成を受けています。