「コーパス日本語学の創成」研究発表会発表内容の「概要」

プロジェクト名: コーパス日本語学の創成 (略称 : コーパス日本語学)
リーダー名: 前川喜久雄 (国立国語研究所言語資源研究系系長，教授)
開催期日: 平成23年6月4日(土)14:00～17:00
開催場所: 国立国語研究所 2階多目的室

発表概要

「BCCWJのデータを日本語能力試験に使うなら―大規模言語テスト，多変量解析，コーパス」李在鎬 (国際交流基金日本語試験センター専門研究員)

本発表では，大規模テストの問題作成におけるコーパスの利用可能性を考察した。考察においては言語テスト分野におけるコーパス利用の現状を紹介した後，試験問題の作成過程でコーパスを用いる利点について述べる。そして，読解の問題作成での利用を想定し，日本語能力試験の級区分に基づくコーパスデータの分析を試みた。分析においては，日本語能力試験の読解テキストを学習用データ，『現代日本語書き言葉均衡コーパス』の収録データを評価用データにし，判別分析を行った。この分析から『現代日本語書き言葉均衡コーパス』の収録データが１級から4級のどの級に相当するかを明らかにし，問題作成における利用範囲を示した。具体的には，1) 「書籍」は，1級から3級相当のテキストとして分布していること，2) 「Yahoo!知恵袋」は，2級と3級相当のテキストとして分布していること，3) 「国会会議録」は，日本語能力試験のレベル感からは全体的に難しいテキストが多いため，その使用は慎重であるべきことが明らかになった。

「大規模日本語コーパスから得られた言語データの分類 : 統計手法をどう生かすか」石川慎一郎 (神戸大学准教授)

近年，コーパスの大型化が進み，研究者は大量の言語データを手にすることができるようになったが，その処理・活用についてはいまだ標準的な手法が確立していない。本発表ではこうした言語研究の状況をふまえつつ，主として4つの観点から議論を展開した。まず，1点目として，身近な推量副詞を使った実証により，多変量解析手法の選択が言語データの分類に本質的な影響を及ぼすことを指摘した。次に，2点目として，「書籍・図書・書物」という類語を例に取り上げ，コーパスから得られる計量データをふまえて名詞の語義記述を精緻化する可能性について報告した。続いて，3点目として，複合動詞を構成する後項動詞「出す」と「出る」を例に取り上げ，計量データから両者の機能差を記述する試みについて報告した。最後に，4点目として，政権交代時の新聞社説の語彙分析により，各新聞のイデオロギーを言語的に抽出する可能性について検討した。結語として，計量的なコーパス研究の実例収集と計量研究のモデル提示の必要性を主張した。

「対談番組のマルチメディア・コーパスを用いた映像=談話分析の試み」石井正彦 (大阪大学教授)

テレビ放送を対象として，言語 (音声文字化データ) と映像とを同期させ，言語形式とその発話場面の映像・実音声とを双方向に検索できる「マルチメディア・コーパス」を試作した。本発表では，そのうちの対談番組のマルチメディア・コーパスを使って，映像のショット切り替えと談話のターン交替とがどのような関係のもとに進行するかを試行的に分析・検討し，言語と映像との関係性を考慮した新たな言語使用研究の可能性を探った。具体的には，対談における質問－応答の隣接ペアをバーバル記号とし，それを映し出すショットをビジュアル記号として，両者の関係を探り，ゲストの応答時には，バストショットが中心であり，また，ウエストショットからバストショットへの移行も多くみられることなどを見出した。ただし，応答内の具体的な発話と2つのショットとの関係は明らかにできなかった。今後，より大きなデータを対象とした検討と，マルチメディア・コーパスの機能強化が必要となる。