『昭和話し言葉コーパス』


『昭和話し言葉コーパス』(SSC)本公開のご案内

2022年3月31日
国立国語研究所 音声言語研究領域
「日常会話コーパス」プロジェクト
経年変化班

国立国語研究所「日常会話コーパス」プロジェクト「経年変化班」では、 2016年度より、1950年代から1970年代にかけて国立国語研究所で録音された音声資料を集め、『昭和話し言葉コーパス』(Showa Speech Corpus: SSC)として整備を進めてきました。2021年3月、約44時間分の音声(約53万語)を含むコーパスが完成し、一般公開を開始しました。また、2022年3月、音声データ、転記テキスト、形態論情報などを含む全データをダウンロードできるようになりました。

『昭和話し言葉コーパス』は、「中納言」「関連データ配布」の二通りでご利用いただけます。


1955年当時の国立国語研究所

コーパスの背景

1948年に設立された国立国語研究所は、1950年代の初頭から、話し言葉の研究に着手しました。当時、出回り始めたばかりの「オープンリール型録音器」を使って、日常のさまざまな場面における会話や、講演・講義・挨拶などの独話を録音しています。録音した音声は文字化(転記)され、話し言葉の特徴を分析するための資料として用いられました。これらの研究成果は、 『談話語の実態』(1955年)、 『話しことばの文型 1 対話資料による研究』(1960年)、 『話しことばの文型 2 独話資料による研究』 (1963年)などの報告書にまとめられています。

当時の録音風景(『国立国語研究所 概要 1955』より)

録音された音声資料群は、その後、国語研の資料庫に保存されていました。1990年代から、オープンリールの音源をデジタル化する作業が行われましたが、音声資料が公開されることはありませんでした。2016年に始まった国立国語研究所「日常会話コーパス」プロジェクトの「経年変化班」では、当時の録音資料を再編し、『昭和話し言葉コーパス』として整備・公開することにしました。

『昭和話し言葉コーパス』に収録されているのは、1950年代から1970年代に録音された約44時間分の音声データ(17時間分の独話、27時間分の会話)と、その関連データ(転記テキスト、約53万語分の形態論情報データ、メタデータなど)です。

コーパスの詳細

『昭和話し言葉コーパス』データサイズは、以下の通りです。

  • ファイル数: 123ファイル(独話 50ファイル / 会話 73ファイル)
  • 録音時間数: 約44時間 (独話 17時間 / 会話 27時間)
  • 総語数(記号含む): 534,128語 (独話 181,028語 / 会話 353,100語)
  • 異なり話者数:393人 (独話 50人 / 会話 343人)

『昭和話し言葉コーパス』に含まれるファイルの一覧は、以下のPDFファイルをご参照ください。

収録語数の内訳(独話・会話、男性・女性 別、記号含む)は、以下の通りです。

タイプ/性別 男性 女性 不明 合計
独話 178,407 2,621 --- 180,028
会話 219,552 133,401 147 353,100

ご利用方法

『昭和話し言葉コーパス』は、以下の二通りの方法でご利用いただけます。

  • 「中納言」上での検索
  • 「中納言」のアカウントをお持ちの場合は、こちらのページにある「コーパス追加利用の申請」から、追加利用を申請してご利用ください。

    「中納言」のアカウントをお持ちでない場合は、こちらのページから利用登録をしてご利用ください。

  • 「『昭和話し言葉コーパス』関連データ」のダウンロード
  • 「中納言」から、『昭和話し言葉コーパス』関連データをダウンロードしてご利用いただけます。
    「中納言」のアカウントをお持ちの場合は、こちらのページにある「コーパス追加利用の申請」から、追加利用を申請してご利用ください。

    「『昭和話し言葉コーパス』関連データ」には、以下のものが含まれます。

    • 音声ファイル(wav 形式、16bit、44.1kHz) 123ファイル
    • 転記テキスト(tsv 形式、時間情報付き、UTF-8) 123ファイル
    • 転記テキスト(TextGrid形式) 123ファイル
    • 形態論情報データ(tsv 形式、UniDic短単位) 534,128語
    • 全文検索システム「ひまわり」による検索環境
    • メタデータ(録音資料に関する情報、話者情報等)

参考文献

『昭和話し言葉コーパス』を利用した研究を発表される際は、以下を参考文献として挙げてください。(今後、更新されることがあります)

  • [和文]丸山岳彦・小磯花絵・西川賢哉 (2022) 「『昭和話し言葉コーパス』の設計と構築」『国立国語研究所論集』 22号 pp.197-221 国立国語研究所. [link]
  • [欧文] Maruyama, Takehiko (2020) ``On the Possibility of a Diachronic Speech Corpus of Japanese'', Andrej Bekeš and Irena Srdanović (Ed.), Japanese Language from Empirical Perspective: Corpus-based studies and studies on discourse. pp.219-234. Ljubljana: Znanstvena založba FF. [link] / [PDF]


問い合わせ先: こちら