国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
『日本語話し言葉コーパス』サンプルデータは,『日本語話し言葉コーパス』から2講演分の転記テキストと形態論情報を取り出し,『ひまわり』で検索できるように形式を変換したものです。
『日本語話し言葉コーパス』(CSJ)は,日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースです。データ量は,音声データで約660時間(短単位で約752万語)です。データベースには,音声データの他に,音声データに対する転記テキストが含まれます。転記テキストには,形態論情報,分節音・イントネーションラベル,係り受け構造情報などの研究用情報が付与されています。詳しくは,『日本語話し言葉コーパス』のホームページをご覧ください。
次の場所からダウンロードしてください。本サンプルデータの著作権は,国立国語研究所と独立行政法人情報通信研究機構が保持しています。サンプルデータを改変,あるいは再配布することは禁止します。ダウンロードした時点で,この条件に御同意いただけたものとします。
なお,CSJ全体の入手に関しては,『日本語話し言葉コーパス』のホームページをご覧ください。第4刷から『ひまわり』用CSJパッケージが同梱されており,『ひまわり』から全転記テキストと形態論情報を検索できます。本サンプルデータは,その一部です。1〜3刷をお持ちの方も無料で差分(『ひまわり』用のCSJパッケージを含む)が提供されていますので,CSJホームページからお申し込み下さい。
ここでは,『ひまわり』がすでにインストールされているものとして説明します。インストールがお済みでない方は,『ひまわり』のホームページから,『ひまわり』(ver.1.6以降)をダウンロードし,マニュアルに従って,インストールを行ってください。
『日本語話し言葉コーパス』サンプルデータのインストールの手順は,次のとおりです。
パッケージインストール直後は,『日本語話し言葉コーパス』サンプルデータが検索できる状態になっています。
検索方法,検索結果の詳細については,「『ひまわり』で『日本語話し言葉コーパス』を利用する方法」の「3.使用方法」を参照して下さい。ただし,本パッケージでは,「音声データの再生」機能を使うことはできません。