全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2016-02-26 (更新)
 

1.『日本語話し言葉コーパス』サンプルデータについて

 『日本語話し言葉コーパス』サンプルデータは,『日本語話し言葉コーパス』から2講演分の転記テキストと形態論情報を取り出し,『ひまわり』で検索できるように形式を変換したものです。

 『日本語話し言葉コーパス』(CSJ)は,日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースです。データ量は,音声データで約660時間(短単位で約752万語)です。データベースには,音声データの他に,音声データに対する転記テキストが含まれます。転記テキストには,形態論情報,分節音・イントネーションラベル,係り受け構造情報などの研究用情報が付与されています。詳しくは,『日本語話し言葉コーパス』のホームページをご覧ください。

2.ダウンロード

 次の場所からダウンロードしてください。本サンプルデータの著作権は,国立国語研究所と独立行政法人情報通信研究機構が保持しています。サンプルデータを改変,あるいは再配布することは禁止します。ダウンロードした時点で,この条件に御同意いただけたものとします。

 なお,CSJ全体の入手に関しては,『日本語話し言葉コーパス』のホームページをご覧ください。第4刷から『ひまわり』用CSJパッケージが同梱されており,『ひまわり』から全転記テキストと形態論情報を検索できます。本サンプルデータは,その一部です。1〜3刷をお持ちの方も無料で差分(『ひまわり』用のCSJパッケージを含む)が提供されていますので,CSJホームページからお申し込み下さい。

 
 

3.インストール

 ここでは,『ひまわり』がすでにインストールされているものとして説明します。インストールがお済みでない方は,『ひまわり』のホームページから,『ひまわり』(ver.1.5以降)をダウンロードし,マニュアルに従って,インストールを行ってください。

 『日本語話し言葉コーパス』サンプルデータのインストールの手順は,次のとおりです。

  1. 『ひまわり』を起動してください。
  2. パッケージをダウンロードし,次の手順でインストールして下さい。
    • 『ひまわり』ver.1.5.4以降では,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
    • 『ひまわり』ver.1.5.3までのバージョンでは,次の手順でインストールを行います。
      1. ダウンロードしたファイルを解凍すると,Himawari_CSJ_sample フォルダが現れます。
      2. [ファイル]⇒[インストール]を実行し,Himawari_CSJ_sample フォルダを選択して下さい。
  3. 「インストールが終了しました」と表示されれば,インストールは完了です。
    「パッケージ内にインストール定義ファイルがありません」と表示された場合は,Himawari_CSJ_sample フォルダを正しく選択できていません。

4.使い方

 『日本語話し言葉コーパス』サンプルデータを検索対象とするには,『ひまわり』を起動し,[ファイル]→[新規]で config_csj_sample.xml を読み込んでください。

 検索方法,検索結果の詳細については,「『ひまわり』で『日本語話し言葉コーパス』を利用する方法」の「3.使用方法」を参照して下さい。ただし,本パッケージでは,「音声データの再生」機能を使うことはできません。

5.アンケート

 よろしければ,アンケートにもお答えください。なお,このアンケートは,どのような方が本パッケージを使っておられるかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。

所属
大学・高専等 小中高・専門学校等 研究機関 企業 個人 その他
身分
教職員 研究員 学生 その他
専門分野
日本語(国語)学 英語学 言語学 言語教育 自然言語処理・人工知能 その他(人文社会系) その他(理工系)
母国語
日本語 日本語以外
年齢
10代未満 10代 20代 30代 40代 50代 60代 70代以上
使用OS
Windows Mac Linux その他
コンピュータ使用歴
1年未満 1年以上3年未満 3年以上
ご意見・ご感想

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-02-26 (金) 14:56:22 (487d)