「日本の消滅危機言語・方言の記録とドキュメンテーションの作成」研究発表会 (平成30年9月6日)

主催
科研費 基盤研究A
「日本語諸方言コーパスの構築とコーパスを使った方言研究の開拓」
研究代表者 : 木部 暢子 (国立国語研究所 言語変異研究領域 教授)
共同研究プロジェクト
「日本の消滅危機言語・方言の記録とドキュメンテーションの作成」
リーダー : 木部 暢子 (国立国語研究所 言語変異研究領域 教授)
開催期日
平成30年9月6日 (木) 13:00~17:00
開催場所
国立国語研究所 多目的室 (東京都立川市緑町10-2)
交通案内

方言コ―パス研究発表会 「日本語諸方言コーパスデータを使った方言の分析」

2018年9月6日 (木) に国立国語研究所2階多目的室にて「日本語諸方言コ-パス」研究発表会を開催した。

内容

平成30年度中に公開予定の「日本語諸方言コーパス モニター版」に先だって,コーパスの作成に関する基調講演と「日本語諸方言コーパス モニター版」の基礎データを使った方言の分析に関する発表を行った。

プログラム

13:00~13:10 趣旨説明
木部 暢子

13:10~14:10 基調講演「奄美方言コーパスの作り方」 沢木 幹栄 (信州大学 名誉教授)

発表者が方言コーパスを日本ではじめて作ったことは確実だと思われる。

その経緯は以下の通りである。

まず,岡村隆博氏が『日本語二千文』をもとに「徳之島二千文」を作成した。これの方言文と標準語文を対応するようにして文節切り分けを行った。

文節によるKWICを作成する。ソート順は方言順引き,方言逆引き,標準語順引き,標準語逆引きである。これによって動詞の活用,助詞の検出ができた。コーパス作りの土台となる情報である。KWICは作成するための労力に対して得られる成果が非常に大きい。

文節切りされた方言文kara:zIkacI@tI:danu@tI:tuNda:を形態素に分解し,品詞情報もつけて kara:zI名@kacI助@tI:da名@nu助@tI:tuN動@da:助 のようにする。

形態素で切り分けたデータにプログラムをかけると

<Tok:m ps= noun id= >kara:zI</Tok>
<Tok:m ps=post_p id= type=>kacI</Tok>
<Tok:m ps=noun id= >tI:da</Tok>
<Tok:m ps=post_p id= type=>nu</Tok>
<Tok:m ps=verb id= conjug= aux=>tI:tuN</Tok>
<Tok:m ps=post_p id= type=>da:</Tok>

のようにコーパスのスケルトンができる。これから品詞別の形態素リストを作って,識別番号をつける。リストを作って修正するというサイクルを繰り返すことでコーパスが完成に近づく。

動詞は活用情報,助動詞接続情報と識別番号が与えられればコーパスのなかの形 (実現形) を作ることができる。そのような動作をするプログラムを作った。このプログラムは入力のチェックにも使えるし,少しの修正ですべての活用形を生成することもできる。実現形と活用形を比較して同一であれば,活用形を生成した条件をそのまま実現形の情報と見なすことができる。作業の半自動化が可能になり,コーパス作りのハードルが下がる。

コーパスを作る過程で活用記述の修正,未知の助詞の発見,形態素の形の確定などができた。これらは対面調査による形態論の補完と考えられる。コーパスをコーパスとして利用する前にいろいろなメリットがあることになる。

最後に,聴衆に共同研究のよびかけを行った。徳之島方言以外でもコーパスを作ることと技術移転が目的である。

休憩

14:30~15:00 「二人称代名詞の談話機能の地域間比較」 山本 空 (関西大学大学院生)

基盤研究A「日本語諸方言コーパスの構築とコーパスを使った方言研究の開拓」 (研究代表者 : 木部暢子) において作成されたデータ (以下「日本語諸方言コーパス」) から秋田県湯沢市と兵庫県相生市,大分県大分郡狭間町の談話データを用いて,発話の冒頭部にあらわれる要素を分析した。沖 (2013) を参考に分析した結果,秋田県湯沢市は直截型が最も多く,続いてとりこみ型の中のあいづち型が多いということがわかった。一方で兵庫県相生市は,直截型はそれほど高くはなく,あいづち型は3地点で最も高い数値が出た。また感動詞,フィラーとして用いられるものの値が高かった。大分県大分郡狭間町は感動詞,フィラーとして用いられるもののほかに,共話型の値が高いことが特徴的であった。このように今回分析した3地点でも沖 (2013) の指摘する会話冒頭部の地域差,相手への配慮のしかたの地域差がみられた。その中で,対称詞のフィラー化が進んでいる地域は会話冒頭部に感動詞フィラー型,もしくはフィラーとして用いられているものの出現が多いことから,会話冒頭部に感動詞,フィラーを多く用いる地点は対称詞のフィラー化が進みやすいと考えた。

15:00~15:30 「諸方言コーパスを使った方言の分析 (1) 」 田附 敏尚 (神戸松蔭女子学院大学 講師)

ル語尾動詞語末の「る」と準体助詞「の」 (これに由来する終助詞や接続助詞も含む) が連続したとき,「る」「の」ともに撥音化する可能性があるが,どのように撥音化するか (あるいはしないか) は地域によって異なる。そこで本発表では,「諸方言コーパス」を使った方言の分析例として,この随意的な撥音化現象について調査し,その地域差を分布図として描き出した。具体的には「諸方言コーパス」につけられている共通語訳で「るの」「るん」を検索し,方言テキストの対応箇所を〈ルノ〉〈ンノ〉〈ルン〉〈ン〉〈その他〉の5つに分類,また「るの」の後続要素もあわせて分類した。そして,都道府県ごとに「るの」全体に占めるそれぞれの割合を円グラフで示し,それを地図上に並べることで地域的な傾向を見た。結果をいくつか示すと,①コピュラを後続させるときは東日本が〈ン〉の割合が高く,西日本 (主に中国・四国。以下同じ) が〈ルン〉の割合が高い。②後続する助詞等がない場合,文末では東日本が〈ルノ〉〈ンノ〉が多く,西日本は〈ルン〉〈ン〉が多いが,文中にあると西日本から〈ン〉が消える。③同じ「るのに」という音連続でも,格助詞「に」の場合は全国的に〈ルノ〉が多く,「のに」が逆接の接続助詞だと〈ルノ〉〈ンノ〉が半々程度になる,というようなことなどが看取された。

15:30~16:00 「日本語諸方言コーパスを使った方言の分析 疑問文のイントネーション」 木部 暢子 (国立国語研究所 教授)

最初に,現在構築中の『日本語諸方言コーパス』 (COJADS) の概要について述べ,次にそのモニター版のデータを使用して,諸方言の疑問文のイントネーションに関する分析結果を報告した。

COJADSは,1977~1985年に文化庁が行なった「各地方言収集緊急調査」の談話データを利用した方言コーパスである。現在,23時間分のデータを使ったモニター版を制作中で,30年度中にモニターを公開する予定である。検索方法は,標準語で検索し,対応する方言形を含む談話を方言横断的に検索するシステムである。現在,検索のためにタグを付与している。その種類 (フィラータグ,オノマトペタグ,固有名詞タグ,対応する標準語形がない場合のタグ等) について説明した。

諸方言の疑問文のイントネーションの分析は,木部 (2010) の4類型に基づき,非上昇タイプの弘前市方言,鹿児島県頴娃町方言,相補タイプの広島市方言について行なった。COJADSにより明らかになったことは,以下のとおりである。

・弘前市方言では,疑問詞や疑問を表す文末助詞の有無に限らず,疑問文が下降する。そのため,疑問文と平叙文の両方が下降調になり,両者の音調上の区別が問題となる。
・頴娃町方言では,おおむね木部 (2010) のとおりだが,文末が上昇する例が少数現れる。それは,相手に回答を求めない自問の場合である。
・広島市方言では,質問を表す文末助詞「カ」が使われた場合,真偽疑問文が下降調となる。この点に関して木部 (2010) の修正が必要となる。

休憩

16:15~17:00 ディスカッション