『現日研・職場談話コーパス』

『現日研・職場談話コーパス』とは

 『現日研・職場談話コーパス』を2018年8月20日にオンラインコーパス検索アプリケーション『中納言』 で公開しました。『現日研・職場談話コーパス』は,以下に紹介する2つの調査研究『女性のことば・職場編』『男性のことば・職場編』で得た談話の文字化テキストを元に作成されたものです。
 これらは,1990年代にいち早く行われた先駆的な試みで,職場での会話を調査協力者自身に録音してもらい,自然な談話を収録するという方法で得られた,たいへん画期的なものであると評価されているデータです。 このコーパスを使用した研究論文が,『合本 女性のことば・男性のことば(職場編)』(現代日本語研究会編,2011年,ひつじ書房)に,合わせて22本収められています。 それらの研究によって,たとえば,男性語や女性語と呼ばれる,性別の違いにあわせて使われる言葉や,使われる傾向のある言葉は,現状ではそのような区別がなくなりつつあるということが,明らかにされています。 また,いわゆる書き言葉とは異なる話し言葉の実態が様々にとらえられています。 現在進めている『日本語日常会話コーパス』でも,こうした過去の調査方法を参考にしながら,調査協力者自身に日常生活の中で営まれる会話を収録してもらっています。 なお,現代日本語研究会でも,引き続き日常場面の会話の収集・調査が行われており,その成果が『談話資料 日常生活のことば』(現代日本語研究会編,2016年,ひつじ書房)として刊行されています。

〇『女性のことば・職場編』について

 1993年9月から10月にかけて,現代日本語研究会が首都圏の有職女性19名(20代~50代)を調査協力者として, それぞれの職場での自然談話を録音しました。録音方法はレコーダーを首から下げてもらったり,近くに置いたりして行ってもらいました。 19人の職場は皆異なっています。それぞれ朝,職場についてから1時間,会議・打ち合わせ1時間,休憩1時間を録音したうちから, おのおの10分前後のまとまった談話を選択し,文字起こししました。 その文字起こしデータを収録したCD-ROMと, それにもとづく研究論文10本が『女性のことば・職場編』(現代日本語研究会編)としてひつじ書房から刊行されました(現在品切れ,下記合本参照)。

〇『男性のことば・職場編』について

 1999年10月から2000年12月にかけて,現代日本語研究会が首都圏の有職男性21名(20代~50代)を調査協力者として, それぞれの職場での自然談話を録音しました。 録音方法はレコーダーを首から下げてもらったり,近くに置いたりして行ってもらいました。 21人の職場は皆異なっています。 それぞれ朝,職場についてから1時間,会議・打ち合わせ1時間,休憩1時間を録音したうちから,おのおの10分前後のまとまった談話を選択し,文字起こししました。 その文字起こしデータを収録したCD-ROMと,それにもとづく研究論文12本が 『男性のことば・職場編』(現代日本語研究会編)としてひつじ書房から刊行されました(現在品切れ,下記合本参照)。 この調査研究に関しては1999年度~2001年度に文教大学文学部から共同研究費として補助を受けました。

 なお,2011年,上記2つの書籍内容・CD-ROMデータを合わせ, 『合本 女性のことば・男性のことば(職場編)』(現代日本語研究会編) としてひつじ書房から刊行され,現在も販売されています。

 この度,現代日本語研究会および,ひつじ書房松本功氏のご理解,ご協力により,これらの文字化テキストを 国立国語研究所にご提供いただきました。

◆ コーパスの名称について ◆
国立国語研究所にご提供いただいた文字化テキストを MeCab + UniDic で解析した結果をコーパスとして公開するに際し, 新たに『現日研・職場談話コーパス』という名称を付しました。


コーパスの公開

本プロジェクトでは,『現日研・職場談話コーパス』の文字化テキストに形態論情報(短単位情報)を付与した上で, オンラインコーパス検索アプリケーション『中納言』 で公開します。

『現日研・職場談話コーパス』は, クリエイティブ・コモンズ 表示-非営利-改変禁止 4.0 国際ライセンスで公開します。 クリエイティブ・コモンズ・ライセンス


参考文献

『現日研・職場談話コーパス』を利用した研究成果等を発表される際は,必ず以下の文献の情報を明記してください。

『合本 女性のことば・男性のことば(職場編)』(現代日本語研究会編)


検索システム公開に伴うデータ整備の概要

  • 形態論情報は,形態素解析器MeCab(ver.0.98)および形態素解析辞書UniDicを用いて自動で付与しました。また,一部の解析結果に対して人手で修正を行っています。
  • 元データは,女性,男性それぞれ一つのファイルで提供されているものですが,本コーパスでは,次のファイル命名規則に基づき分割し,ファイル名を付与しています。

    例:M01A011
    syokuba-file.png
    番号 内容    可能な値    備考
    (1) 男性/女性  M,F      M:『男性のことば・職場編』出典データという意味
                     F: 『女性のことば・職場編』データという意味
    (2) 協力者コード 01,02,...   元データと同じ調査協力者の識別コード
    (3) 場面1    A,K,Q     元データの「朝」「会議」「休憩」の別を示す
    (4) 場面2    01,02,...   連番: 新規に付与
    (5) 場所     1,2,...     連番: 新規に付与

  • メタ情報は,元データに付与されている項目から,下記の項目をピックアップして収録しています。

    場面 1 場面 2 調査日 場所  会話参加者数  協力者コード  発話者コード
    性別  年齢層 職業  職種  役職  出身  最長居住地
    (他のメタ情報は収録しておりません。)

    <場面1>......「朝」「会議」「休憩」の別。
    <場面2>......「場面1」の細分類。
    <協力者コード>......調査協力者(録音してくれた方)の識別コード。
    <発話者コード>......発話者の識別コード。
    <性別>......発話者の性別。「男」「女」「*」が入力されている。「*」は不明ないしは情報無し(他の項目も同様)。
    <年齢層>......発話者の調査当時の年齢層。10年刻み。
    <職業>......発話者の職業。職種との違いが微妙なケースもあり。
    <職種>......発話者の職種。職業との違いが微妙なケースもあり。
    <役職>......発話者の役職。フェイスシートに役職がないことが明示してある場合は「(なし)」と入力。
    <出身>......発話者の出身都道府県。
    <最長居住地>......発話者の4歳~15歳の最長居住都道府県(≒言語形成地)。

  • 「[名字]さん」における[名字]のように伏せ字された要素は,全体を一つの単位とし,「伏せ字」という品詞を付与しています。
  • <笑い>など,原資料に付与されている言語情報以外の要素については,検索対象から除外しています。
  • 相づちなどの挿入要素は,包含する発話から独立させ,本来の発話場所とは異なる位置に記述しています。
  • 元データでは,発話者コードが,『男性のことば・職場編』では「01A」,『女性のことば・職場編』では「01A」のように,数字部分に全角と半角とが用いられています。本コーパスでは,発話者コードはすべて半角にしました。 また,「M01A」や「F01A」のように,先頭にM(『男性のことば・職場編』出典データという意味)あるいはF(『女性のことば・職場編』出典データという意味)を付与して,元データを区別します。 「M」や「F」は,話者の性別を表示するものではなく,元データがどちらの出典のものであるかを区別するものであることにご留意ください。 なお,元データの発話者コードに含まれている全角のクエスチョンは全角のままになっています。