『昭和話し言葉コーパス』


『昭和話し言葉コーパス』(SSC)本公開のご案内

2021年3月15日
国立国語研究所 音声言語研究領域
「日常会話コーパス」プロジェクト
経年変化班

国立国語研究所「日常会話コーパス」プロジェクト「経年変化班」では、 2016年度より、1950年代から1970年代にかけて国立国語研究所で録音された音声資料を集め、『昭和話し言葉コーパス』(Showa Speech Corpus: SSC)として整備を進めてきました。2021年3月、約44時間分の音声(約53万語)を含むコーパスが完成し、一般公開を開始しました。

『昭和話し言葉コーパス』は、「中納言」「配信データ」の二通りでご利用いただけます。


1955年当時の国立国語研究所

コーパスの背景

1948年に設立された国立国語研究所は、1950年代の初頭から、話し言葉の研究に着手しました。当時、出回り始めたばかりの「オープンリール型録音器」を使って、日常のさまざまな場面における会話や、講演・講義・挨拶などの独話を録音しています。録音した音声は文字化(転記)され、話し言葉の特徴を分析するための資料として用いられました。これらの研究成果は、 『談話語の実態』(1955年)、 『話しことばの文型 1 対話資料による研究』(1960年)、 『話しことばの文型 2 独話資料による研究』 (1963年)などの報告書にまとめられています。

当時の録音風景(『国立国語研究所 概要 1955』より)

録音された音声資料群は、その後、国語研の資料庫に保存されていました。1990年代から、オープンリールの音源をデジタル化する作業が行われましたが、音声資料が公開されることはありませんでした。2016年に始まった国立国語研究所「日常会話コーパス」プロジェクトの「経年変化班」では、当時の録音資料を再編し、『昭和話し言葉コーパス』として整備・公開することにしました。

『昭和話し言葉コーパス』に収録されているのは、1950年代から1970年代に録音された約44時間分の音声データ(17時間分の独話、27時間分の会話)と、その関連データ(転記テキスト、約53万語分の形態論情報データ、メタデータなど)です。

コーパスの詳細

『昭和話し言葉コーパス』データサイズは、以下の通りです。

  • ファイル数: 123ファイル(独話 50ファイル / 会話 73ファイル)
  • 録音時間数: 約44時間 (独話 17時間 / 会話 27時間)
  • 総語数(記号含む): 529,122語 (独話 180,664語 / 会話 348,458語)
  • 異なり話者数:393人 (独話 50人 / 会話 343人)

『昭和話し言葉コーパス』に含まれるファイルの一覧は、以下のPDFファイルをご参照ください。

収録語数の内訳(独話・会話、男性・女性 別、記号含む)は、以下の通りです。

タイプ/性別 男性 女性 不明 合計
独話 178,043 2,621 --- 180,664
会話 219,849 128,496 113 348,458

ご利用方法

『昭和話し言葉コーパス』は、以下の二通りの方法でご利用いただけます。

  • 「中納言」での利用
  • 「中納言」のアカウントをお持ちの場合は、こちらのページにある「コーパス追加利用の申請」から、追加利用を申請してご利用ください。

    「中納言」のアカウントをお持ちでない場合は、こちらのページから利用登録をしてご利用ください。

  • 「『昭和話し言葉コーパス』配信データ」の利用
  • 配信サーバから、『昭和話し言葉コーパス』関連データをダウンロードしてご利用いただけます。
    ※ 2021年度中の配信開始を予定しています。詳細はこのページでお知らせします。

    「配信データ」には、以下のものが同梱される予定です。

    • 音声ファイル(wav 形式、16bit、44.1kHz) 123ファイル
    • 転記テキスト(tsv 形式、時間情報付き、UTF-8) 123ファイル
    • 転記テキスト(TextGrid形式) 123ファイル
    • 形態論情報データ(tsv 形式、UniDic短単位) 529,122語
    • 全文検索システム「ひまわり」による検索環境
    • メタデータ(録音資料に関する情報、話者情報等)

参考文献

『昭和話し言葉コーパス』を利用した研究を発表される際は、以下を参考文献として挙げてください。(今後、更新されることがあります)

  • [和文] 丸山岳彦・西川賢哉・田嶋明日香・小磯花絵(2021) 「『昭和話し言葉コーパス』の設計・構築と分析(2):コーパスの構成とメタデータの設計」『言語処理学会第27回年次大会 発表論文集』pp.86-90. [link]
  • [欧文] Maruyama, Takehiko (2020) ``On the Possibility of a Diachronic Speech Corpus of Japanese'', Andrej Bekeš and Irena Srdanović (Ed.), Japanese Language from Empirical Perspective: Corpus-based studies and studies on discourse. pp.219-234. Ljubljana: Znanstvena založba FF. [link] / [PDF]


問い合わせ先: 国立国語研究所 音声言語研究領域 「日常会話コーパス」プロジェクト「経年変化班」

showa_corpus [at] ninjal.ac.jp ( [at] は @ に変換してください)