[PukiWiki]

全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法

Top/全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法

全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2015-06-01(更新: 2021-01-15)
 

1.はじめに †

 『日本語話し言葉コーパス』(CSJ)は,第4刷から『ひまわり』用CSJパッケージを同梱して配布されています。本ページでは,『ひまわり』用CSJパッケージの利用方法を説明します。本パッケージの特徴は,次のとおりです。

  • 全転記テキストの全文検索
  • 形態素解析結果(短単位,長単位)を利用した検索,形態素解析結果の表示
  • 検索結果から転記テキスト全体の表示
  • 検索結果から音声データの再生
↑

2.インストール †

  1. CSJの USB メモリを用意して下さい。
  2. TOOL フォルダの中にある Himawari フォルダを使いやすい場所にコピーして下さい。
  3. (任意) 音声データの再生機能(3.7節参照)を利用する場合
    1. 次のフォルダに含まれる wav ファイルを,コピーした Himawari フォルダの中の Corpora/CSJ/soundfiles フォルダにコピーして下さい。
      • SPEECH/core
      • SPEECH/noncore
    2. VLC media player をインストールして下さい。なお,第8版では『ひまわり』内蔵プレイヤーも利用できます(その場合,VLCのインストールは不要)。
  4. 以上でインストールは終了です。
↑

3.使用方法 †

↑

3.1 準備 †

 ここでは,『日本語話し言葉コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,利用者マニュアルをご覧ください。また,検索結果のデータの見方については,次のマニュアルを参照してください。

  • 「形態論情報の概要」
  • 「短単位・長単位データマニュアル」の3.2 節
  • 「節単位認定」
  • 「転記テキスト」
  • 『日本語話し言葉コーパス』の概観
  • 「音声収録作業の概要」
↑

3.2 『ひまわり』の起動 †

 マニュアル(2.3節)を参照して,『ひまわり』を起動して下さい。なお,macOSの場合は,コピーした Himawari フォルダ内の Himawari を利用してください。

 『ひまわり』を起動すると,すぐに『日本語話し言葉コーパス』が検索対象となります。

↑

3.3 サブコーパスの選択 †

 コーパス選択機能を用いて,サブコーパスを選択します。なお,サブコーパス名の略号(例:「A01」)については,『日本語話し言葉コーパス』の概観の「2.8 ファイルの命名」,および,音声収録作業の概要をご覧ください。

↑

3.4 検索対象の詳細 †

検索対象

 次の項目を対象として,検索することができます。利用者マニュアルの4.1 節もあわせてご覧ください。

↑

全文 †

  • 形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される,品詞などの短単位・長単位に関する情報は,検索文字列の先頭の文字列を内部に含む単位のものです。
  • 検索例
    • 検索例1a:「国語」で全文検索します。
    • 検索例1b:「国語」で全文検索し,その後文脈が「の」で始まる場合にマッチします。
検索例1a検索例1b
full_text_simple.pngfull_text_fc.png
↑

出現形(短単位),出現形(長単位) †

  • 短単位,長単位の出現形で検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例2a:出現形(長単位)に「国語」を含む場合にマッチします。
    • 検索例2b:出現形(長単位)が「国語」の場合にマッチします。
    • 検索例2c:出現形(長単位)が「国語」を含み,その末尾が「所」の場合にマッチします。
検索例2a検索例2b検索例2c
search_example1.pngsearch_example2.pngsearch_example3.png
↑

品詞(短単位),品詞(長単位) †

  • 品詞をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例3a:出現形(短単位)に「名詞」を含む場合にマッチします(「代名詞」にもマッチします)。
    • 検索例3b:出現形(短単位)が「名詞」の場合にマッチします。
検索例3a検索例3b
pos_simple.pngpos_pf.png
↑

代表形(短単位),代表形(長単位) †

  • 代表形をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。
  • 検索例
    • 検索例4a:代表形(長単位)に「タベル」を含む場合にマッチします。
    • 検索例4b:代表形(長単位)が「ゼン」で始まる場合にマッチします。
    • 検索例4c:代表形(長単位)が「ゴ」で終わる場合にマッチします。
検索例4a検索例4b検索例4c
daihyo_simple.pngdaihyo_p.pngdaihyo_pf.png
↑

節境界 †

  • 節境界情報をキーとして検索します。文字列の照合には,正規表現を使うことができます。
  • 当該の節境界情報を持つ短単位が検索されます。
  • 検索例
    • 検索例5a:節境界が「文末」の場合にマッチします。
    • 検索例5b:節境界が「並列節」を含む場合にマッチします。
検索例5a検索例5b
setu_simple.pngsetu_pf.png
↑

3.5 検索結果 †

 検索結果には,次の情報が含まれます。「短単位・長単位データマニュアル」の3.2節も合わせて参照して下さい。

列名備考
前文脈
出現形(検索文字列)
後文脈
代表表記短単位の情報

「活用型」「その他1」〜「その他3」は,短単位・長単位データマニュアル」の「活用の種類」,「その他の情報1」〜「その他の情報3」に対応
代表形
品詞
活用形
活用型
その他1
その他2
その他3
発音形
代表表記(長)長単位の情報
代表形(長)
品詞(長)
活用形(長)
活用型(長)
その他1(長)
その他2(長)
その他3(長)
出現形(後)後続する短単位の情報
代表表記(後)
代表形(後)
その他1(後)
出現形(前)前接する短単位の情報
代表表記(前)
代表形(前)
その他1(前)
講演ID当該の転記基本単位の情報
開始時間
終了時間
コア当該の転記テキストがコアに含まれるか否かを表すフラグ
T: 含む場合T,F:含まない場合
↑

3.6 転記テキストの閲覧 †

 検索結果(「品詞」「活用形」欄を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。

  • / : 短単位の区切り
  • | : 長単位の区切り
  • $ : 節境界
  • 検索文字列は,赤色で表示されます。
  • 個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。
  • 長単位の区切り(|)にマウスカーソルを合わせると,長単位の各種属性が表示されます。
  • 節境界($)にマウスカーソルを合わせると,節境界の情報が表示されます。
 
csj_manual_sample_browse.png
 
↑

3.7 音声データの再生 †

 インストール時に音声データを『ひまわり』のフォルダにコピーしている場合,検索結果をダブルクリック(下記参照)すると,当該の検索文字列を含んだ転記単位の音声データを再生することができます。

↑

第8版 †

  • 『ひまわり』内蔵プレイヤーの場合
    • 「品詞」もしくは「発音形」欄をダブルクリックしてください。
    • 当該の転記基本単位のみ再生します。前後を再生するには,プレイヤーのスライダーをドラッグして,調節してください。
  • VLC(事前に要インストール)の場合
    • 「活用形」欄をダブルクリックしてください。
↑

第7版まで(VLC要インストール) †

  • Windows の場合: 「品詞」欄
  • Mac の場合: 「活用形」欄
  • Linux の場合: 「品詞」欄
    • ただし,Linux の場合は,設定ファイル(config.xml,または,config_csj_all.xml)を次のように一部修正する必要があります。
      1. "<access_command1" で始まる行を削除して下さい。
      2. "<access_command3" で始まる行を探し,"<access_command1" として下さい。

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
 
最新の10件
2021-04-14
  • 新着情報の履歴
  • 言語データベースとソフトウェア
  • MenuBar
  • TEachOtherS
2021-04-02
  • 全文検索システム『ひまわり』
  • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ
2021-04-01
  • 全文検索システム『ひまわり』/ダウンロード/『青空文庫』パッケージ/履歴
2021-03-17
  • 全文検索システム『ひまわり』/履歴
  • 全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.7
2021-03-15
  • 全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6

total:4653
today:1
yesterday:0

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-01-15 (金) 17:19:19
Site admin: anonymous

PukiWiki 1.5.3 © 2001-2020 PukiWiki Development Team. Powered by PHP 7.4.16. HTML convert time: 0.050 sec.