全文検索システム『ひまわり』/ダウンロード/CSJサンプルデータ

国語研究所の施設整備に伴い，関連のサービスを次の期間，停止します。

期間：2024年4月27日（土）9:00～2024年4月29日（月・祝）17:30
対象：Web用例データベース（複合動詞，サ変動詞，形容詞）・『ひまわり』＆関連資料（ダウンロードもできません），FishWatchr & FishWatchr Miniなど

全文検索システム『ひまわり』

作成者：山口昌也 (国立国語研究所)

2021-02-17 （更新）

１．『日本語話し言葉コーパス』サンプルデータについて†

　『日本語話し言葉コーパス』サンプルデータは，『日本語話し言葉コーパス』から２講演分の転記テキストと形態論情報を取り出し，『ひまわり』で検索できるように形式を変換したものです。

　『日本語話し言葉コーパス』(CSJ)は，日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースです。データ量は，音声データで約６６０時間(短単位で約７５２万語)です。データベースには，音声データの他に，音声データに対する転記テキストが含まれます。転記テキストには，形態論情報，分節音・イントネーションラベル，係り受け構造情報などの研究用情報が付与されています。詳しくは，『日本語話し言葉コーパス』のホームページをご覧ください。

↑

２．ダウンロード†

　次の場所からダウンロードしてください。本サンプルデータの著作権は，国立国語研究所と独立行政法人情報通信研究機構が保持しています。サンプルデータを改変，あるいは再配布することは禁止します。ダウンロードした時点で，この条件に御同意いただけたものとします。

『日本語話し言葉コーパス』サンプルデータ ... [ZIP 形式，約400KB] (2021-02-17)

　なお，CSJ全体の入手に関しては，『日本語話し言葉コーパス』のホームページをご覧ください。第４刷から『ひまわり』用CSJパッケージが同梱されており，『ひまわり』から全転記テキストと形態論情報を検索できます。本サンプルデータは，その一部です。１～３刷をお持ちの方も無料で差分（『ひまわり』用のCSJパッケージを含む）が提供されていますので，CSJホームページからお申し込み下さい。

↑