国立国語研究所 〒190-8561 東京都立川市緑町10-2 Tel. 0570-08-8595 (ナビダイヤル)
© National Institute for Japanese Language and Linguistics
国立国語研究所「日常会話コーパス」プロジェクト「経年変化班」では、 2016年度より、1950年代から1970年代にかけて国立国語研究所で録音された音声資料を集め、『昭和話し言葉コーパス』(Showa Speech Corpus: SSC)として整備を進めてきました。2021年3月、約44時間分の音声(約53万語)を含むコーパスが完成し、一般公開を開始しました。また、2022年3月、音声データ、転記テキスト、形態論情報などを含む全データをダウンロードできるようになりました。
『昭和話し言葉コーパス』は、「中納言」「関連データ配布」の二通りでご利用いただけます。
1955年当時の国立国語研究所
1948年に設立された国立国語研究所は、1950年代の初頭から、話し言葉の研究に着手しました。当時、出回り始めたばかりの「オープンリール型録音器」を使って、日常のさまざまな場面における会話や、講演・講義・挨拶などの独話を録音しています。録音した音声は文字化(転記)され、話し言葉の特徴を分析するための資料として用いられました。これらの研究成果は、 『談話語の実態』(1955年)、 『話しことばの文型 1 対話資料による研究』(1960年)、 『話しことばの文型 2 独話資料による研究』 (1963年)などの報告書にまとめられています。
当時の録音風景(『国立国語研究所 概要 1955』より)
録音された音声資料群は、その後、国語研の資料庫に保存されていました。1990年代から、オープンリールの音源をデジタル化する作業が行われましたが、音声資料が公開されることはありませんでした。2016年に始まった国立国語研究所「日常会話コーパス」プロジェクトの「経年変化班」では、当時の録音資料を再編し、『昭和話し言葉コーパス』として整備・公開することにしました。
『昭和話し言葉コーパス』に収録されているのは、1950年代から1970年代に録音された約44時間分の音声データ(17時間分の独話、27時間分の会話)と、その関連データ(転記テキスト、約53万語分の形態論情報データ、メタデータなど)です。
『昭和話し言葉コーパス』データサイズは、以下の通りです。
『昭和話し言葉コーパス』に含まれるファイルの一覧は、以下のPDFファイルをご参照ください。
収録語数の内訳(独話・会話、男性・女性 別、記号含む)は、以下の通りです。
タイプ/性別 | 男性 | 女性 | 不明 | 合計 |
---|---|---|---|---|
独話 | 178,407 | 2,621 | --- | 180,028 |
会話 | 219,552 | 133,401 | 147 | 353,100 |
『昭和話し言葉コーパス』は、以下の二通りの方法でご利用いただけます。
「中納言」のアカウントをお持ちの場合は、こちらのページにある「コーパス追加利用の申請」から、追加利用を申請してご利用ください。
「中納言」のアカウントをお持ちでない場合は、こちらのページから利用登録をしてご利用ください。
「中納言」から、『昭和話し言葉コーパス』関連データをダウンロードしてご利用いただけます。
「中納言」のアカウントをお持ちの場合は、こちらのページにある「コーパス追加利用の申請」から、追加利用を申請してご利用ください。
「『昭和話し言葉コーパス』関連データ」には、以下のものが含まれます。
『昭和話し言葉コーパス』を利用した研究を発表される際は、以下を参考文献として挙げてください。(今後、更新されることがあります)
問い合わせ先: こちら