シンポジウム 「津軽方言の統語・意味解析コーパス「松の木」の構築・公開 : 現状と課題」
- 共催
- 国立国語研究所 共同研究プロジェクト 「統語・意味解析コーパスの開発と言語研究」
リーダー : プラシャント・パルデシ (国立国語研究所 理論・対照研究領域 教授) - 弘前大学 人文社会科学部・人文社会科学研究科 バトラー研究室
- 開催期日
- 2022年1月17日 (月) 11:00~13:30
- 開催場所
- 弘前大学 人文社会科学部・人文社会科学研究科校舎 視聴覚ルーム 426 (青森県弘前市文京町)
アクセスマップ
弘前大学関係者に限定 (事前申し込み不要)
プログラム
11:00~11:20 「現代語から津軽方言データの「統語・意味解析コーパス」構築・公開への展開」 プラシャント・パルデシ (国立国語研究所 理論・対照研究領域 教授)
世界の主要な言語において,統語解析情報付きコーパス (ツリーバンク) の整備が進められ,こうしたコーパスを利用した研究が言語学・言語処理の分野で目覚ましい成果を上げている。日本語については,2016年より,国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』がスタートし,現在,NPCMJ (NINJAL Parsed Corpus of Modern Japanese) の構築が進められ,現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報を付与し,多様な機能語や句構造,節の諸類型および複雑な構文を大量の言語データから検索・抽出して研究に活用できるようになっている。本発表では現代語から津軽方言データの「統語・意味解析コーパス」構築・公開への展開について報告する。
11:20~11:50 「統語・意味解析コーパスによる津軽弁研究のきっかけ」 中村 裕昭 (名古屋経済大学 人間生活科学部および国際交流センター 特任教授),吉本 啓 (元東北大学教授)
方言に限らず,言語における音声の重要さはいうまでもない。今日紹介するコーパスが対象とする津軽弁も,この地に住む人たちの生活の中で語られ,体感され,世代を超えて受け継がれてきたものだからである。弘前に津軽方言を大切にしながら,昔話をラジオや弘前近辺の施設で語り継いでいらっしゃる「和の昔こ (わのむかしっこ) 」の活動を知り,本学のバトラー先生や,イングリッシュ・ラウンジの教員たちが中心となってその方たちにラウンジで昔話を語っていただき,録音させていただくことができた。その録音は,年代間や個人により微妙に異なる日常会話の方言ではなく,このグループの方たちが推敲を施し,ていねいに保存に努められた,ある意味で理想化された方言データである。こうして収集された音声や原稿を,国立国語研究所の研究グループが,それまで「統語・意味解析コーパス (NPCMJ) 」で培った技法で分析し,アノテーションを施して公開するのが,本日お話しする津軽弁ツリーバンク「Matsunoki」である。昔話の語りを通じてある程度平準化された津軽弁が音声とともに長く保存され,科学的な文法分析とともに,多様な研究者たちに利用されることが本プロジェクトの願いである。
11:50~13:00 "Matsunoki, a parsed corpus of the Tsugaru dialect" Vance GWIDT, Alastair BUTLER, ONO Mikoto (Hirosaki University)
This talk will discuss the creation of the Matsunoki parsed corpus of the Tsugaru dialect. The data consists of audio samples of local folktales spoken by native speakers of the Tsugaru dialect. The system of morphological analysis uses the WAKACHI2002 inventory of word class and morpheme codes. The tree annotation system is based on the NPCMJ project, including the methods of linguistic analysis and presentation on the Internet. The talk will provide an overview of the corpus and its progress, along with problems and solutions in handling morpho-syntactic analysis of the dialect data.
この発表は英語で行われる。