『昭和話し言葉コーパス』

▶English

『昭和話し言葉コーパス』（SSC）本公開のご案内

2022年3月31日
国立国語研究所音声言語研究領域
「日常会話コーパス」プロジェクト
経年変化班

国立国語研究所「日常会話コーパス」プロジェクト「経年変化班」では、 2016年度より、1950年代から1970年代にかけて国立国語研究所で録音された音声資料を集め、『昭和話し言葉コーパス』（Showa Speech Corpus: SSC）として整備を進めてきました。2021年3月、約44時間分の音声（約53万語）を含むコーパスが完成し、一般公開を開始しました。また、2022年3月、音声データ、転記テキスト、形態論情報などを含む全データをダウンロードできるようになりました。

『昭和話し言葉コーパス』は、「中納言」「関連データ配布」の二通りでご利用いただけます。

ninjal 1955

1955年当時の国立国語研究所

コーパスの背景

1948年に設立された国立国語研究所は、1950年代の初頭から、話し言葉の研究に着手しました。当時、出回り始めたばかりの「オープンリール型録音器」を使って、日常のさまざまな場面における会話や、講演・講義・挨拶などの独話を録音しています。録音した音声は文字化（転記）され、話し言葉の特徴を分析するための資料として用いられました。これらの研究成果は、『談話語の実態』（1955年）、『話しことばの文型 1 対話資料による研究』（1960年）、『話しことばの文型 2 独話資料による研究』（1963年）などの報告書にまとめられています。

recording 1955

当時の録音風景（『国立国語研究所要覧 1955』より）

録音された音声資料群は、その後、国語研の資料庫に保存されていました。1990年代から、オープンリールの音源をデジタル化する作業が行われましたが、音声資料が公開されることはありませんでした。2016年に始まった国立国語研究所「日常会話コーパス」プロジェクトの「経年変化班」では、当時の録音資料を再編し、『昭和話し言葉コーパス』として整備・公開することにしました。

『昭和話し言葉コーパス』に収録されているのは、1950年代から1970年代に録音された約44時間分の音声データ（17時間分の独話、27時間分の会話）と、その関連データ（転記テキスト、約53万語分の形態論情報データ、メタデータなど）です。

コーパスの詳細

『昭和話し言葉コーパス』データサイズは、以下の通りです。

ファイル数： 123ファイル（独話 50ファイル／会話 73ファイル）
録音時間数：約44時間（独話 17時間／会話 27時間）
総語数（記号等除外）：528,589語（独話 180,272語／会話 348,317語）
異なり話者数：393人（独話 50人／会話 343人）

『昭和話し言葉コーパス』に含まれるファイルの一覧は、以下のPDFファイルをご参照ください。

収録語数の内訳（独話・会話、男性・女性別、記号等除く）は、以下の通りです。

タイプ／性別	男性	女性	不明	合計
独話	177,656	2,616	---	180,272
会話	219,740	128,464	113	348,317

ご利用方法

『昭和話し言葉コーパス』は、以下の二通りの方法でご利用いただけます。

「中納言」上での検索

「中納言」のアカウントをお持ちの場合は、こちらのページにある「コーパス追加利用の申請」から、追加利用を申請してご利用ください。

「中納言」のアカウントをお持ちでない場合は、こちらのページから利用登録をしてご利用ください。
「『昭和話し言葉コーパス』関連データ」のダウンロード

「中納言」から、『昭和話し言葉コーパス』関連データをダウンロードしてご利用いただけます。
「中納言」のアカウントをお持ちの場合は、こちらのページにある「コーパス追加利用の申請」から、追加利用を申請してご利用ください。

「『昭和話し言葉コーパス』関連データ」には、以下のものが含まれます。
- 音声ファイル（wav 形式、16bit、44.1kHz）　123ファイル
- 転記テキスト（tsv 形式、時間情報付き、UTF-8）　123ファイル
- 転記テキスト（TextGrid形式）　123ファイル
- 形態論情報データ（tsv 形式、UniDic短単位） 534,128語
- 全文検索システム「ひまわり」による検索環境
- メタデータ（録音資料に関する情報、話者情報等）
『昭和話し言葉コーパス』語彙表・語数表 → こちらのページ

参考文献

『昭和話し言葉コーパス』を利用した研究を発表される際は、以下を参考文献として挙げてください。（今後、更新されることがあります）

［和文］丸山岳彦・小磯花絵・西川賢哉 (2022)「『昭和話し言葉コーパス』の設計と構築」『国立国語研究所論集』 22号 pp.197-221 国立国語研究所. [link]
［欧文］ Maruyama, Takehiko (2020) ``On the Possibility of a Diachronic Speech Corpus of Japanese'', Andrej Bekeš and Irena Srdanović (Ed.), Japanese Language from Empirical Perspective: Corpus-based studies and studies on discourse. pp.219-234. Ljubljana: Znanstvena založba FF. [link] / [PDF]

問い合わせ先：こちら

大規模日常会話コーパスに基づく話し言葉の多角的研究