『昭和話し言葉コーパス』


「モニター公開データ(第2版)」のご案内

2020年1月23日
国立国語研究所 音声言語研究領域
「日常会話コーパス」プロジェクト
経年変化班

国立国語研究所「日常会話コーパス」プロジェクト「経年変化班」では、 1950年代から1970年代にかけて国立国語研究所で録音された音声資料を集め、『昭和話し言葉コーパス』として整備を進めています。2020年度以降に予定している本公開に先立ち、コーパスの利用可能性や問題などを把握するために、約17時間分の独話音声について、以下の2通りの方法で、「モニター公開データ(第2版)」を公開します。

  • ◇「中納言」上での利用
  • ◇ DVDによるデータの配布

「中納言」で利用される場合は、「中納言」のページ(こちら)から利用登録をして、ご利用ください。
以下では、『昭和話し言葉コーパス』モニター公開データ(第2版)の概要、およびDVDによるデータの配布について説明します。

1955年当時の国立国語研究所

『昭和話し言葉コーパス』の背景

1948年に設立された国立国語研究所は、1950年代の初頭から、話し言葉の研究に着手しました。当時、出回り始めたばかりの「オープンリール型録音器」を使って、日常のさまざまな場面における会話や、講演・講義・挨拶などの独話を録音しています。録音した音声は文字化(転記)され、話し言葉の特徴を分析するための資料として用いられました。これらの研究成果は、 『談話語の実態』(1955年)、 『話しことばの文型 1 対話資料による研究』(1960年)、 『話しことばの文型 2 独話資料による研究』 (1963年)などの報告書にまとめられています。

当時の録音風景(『国立国語研究所 概要 1955』より)

録音された音声資料群は、その後、国語研の資料庫に保存されていました。1990年代から、オープンリールの音源をデジタル化する作業が行われましたが、音声資料が公開されることはありませんでした。2016年に始まった国立国語研究所「日常会話コーパス」プロジェクトの「経年変化班」では、当時の録音資料を再編し、『昭和話し言葉コーパス』として整備・公開することにしました。

『昭和話し言葉コーパス』として整備するのは、25時間分の独話、25時間分の会話、合計50時間分のデータになる予定です。ただし、録音レベルが極端に低いために録音された音声の一部が聴取できない場合や、著作権の観点から一般には公開できない録音資料なども存在します。

モニター公開データ(第2版)の詳細

今回、モニター公開の対象とするのは、1950年代から1970年代に録音された独話の音声資料、およびその関連データ群です。データサイズは、以下の通りです。

  • ファイル数: 50ファイル (1ファイル=1講演)
  • 時間数: 約17時間
  • 異なり話者数:44人

「モニター公開データ(第2版)」は、以下のように構成されます。

  • 音声ファイル(wav 形式、16bit、44.1kHz) 50ファイル
  • 転記テキスト(tsv 形式、時間情報付き、UTF-8) 50ファイル
  • 転記テキスト(TextGrid形式) 50ファイル
  • 形態論情報データ(tsv 形式、UniDic短単位) 180,668語
  • 全文検索システム「ひまわり」による検索環境
  • メタデータ(講演情報、話者情報)

「モニター公開データ(第2版)」に含まれるファイルの一覧は、こちら(PDFファイル)をご覧ください。

モニター公開データ(第2版)の申し込み方法

モニター公開データ(第2版)の利用に際しては、「誓約書」の内容を熟読し、適切に利用してください。

  • モニター公開データ(第2版)の利用は、申請者自身による学術研究の目的に限ります。
  • モニター公開データ(第2版)の再配布・公衆送信、第三者への譲渡・貸与・売却などの行為は固くお断りします。
  • モニター公開データ(第2版)の利用期限は、2021年度末(2022年3月末日)までとします。
  • 以下の「誓約書」をご一読の上、同意していただける場合に限り、モニター公開データ(第2版)を利用できます。

申し込みの手順は、以下の通りです。海外への発送には対応しておりませんのでご了承ください。

手順1:
上記の「『昭和話し言葉コーパス』モニター公開データ誓約書」をダウンロードして、ご一読の上、同意いただける場合は、必要事項を記入して、Wordファイルを以下のメールアドレスに添付ファイルでお送りください。

     宛先:showa_corpus [at] ninjal.ac.jp ( [at] を @ に変更してください)
     標題:「昭和話し言葉コーパス」モニター版申請

手順2:
こちらで誓約書を確認し、問題がなければ、利用許諾のメールを返信します。(1週間から10日ほど時間をいただきます)

手順3:
利用許諾のメールが届いたら、誓約書を印刷し、ご捺印の上、利用許諾メールに記載されている宛先にご郵送ください。

手順4:
捺印された誓約書を受領したら、モニター公開データ(第2版)を郵送します。(申し込みが集中した場合、時間をいただくことがあります)


問い合わせ先: 国立国語研究所 音声言語研究領域 「日常会話コーパス」プロジェクト「経年変化班」

showa_corpus [at] ninjal.ac.jp ( [at] は @ に変換してください)