「統計と機械学習による日本語史研究」研究発表会発表内容の「概要」

プロジェクト名: 統計と機械学習による日本語史研究 (略称 : 統計日本語史)
リーダー名: 小木曽智信 (国立国語研究所言語資源研究系准教授)
開催期日: 平成23年9月2日 (金) 13:30～17:30
開催場所: 就実大学 A館 A205 (〒703-8516 岡山県岡山市中区西川原1-6-1)

発表概要

「中古語辞書見出し語認定におけるコーパスと統計指標活用の可能性」須永哲矢 (国立国語研究所コーパス開発センタープロジェクト研究員)

日本語史研究における統計と機械学習の活用例として，辞書の見出し語認定の問題を取り上げた。古典語では，語と語の並びに出会った場合，それらが複合語として一語化しているか否かの判断は困難な場合が多い。本発表では，「名詞－「なし」」「名詞－サ変動詞」を例に，形態素解析済みコーパスを用いれば実例調査が容易に可能になることを紹介した上で，統計指標による実例の整理・序列化が，辞書見出し語認定に客観的な尺度を与える可能性を示した。

「指示詞を組み合わせた語に関する歴史的一考察」岡崎友子 (就実大学人文科学部准教授)

「アレコレ」「ソコココ」等の指示詞と指示詞を組み合わせた語について，形態素解析済みのコーパスを用いて調査し，考察した結果を発表する。実はこれらの組み合わせは，その時代の指示体系と大きく関わるものであり，それは一対もしくは数対の語のみの観察では見えてこない。そこでコーパスを用い，その時代におけるすべてのパターンから分析することにより，時代とともに変化する組み合わせの意味を明らかにしていった。

講演「言語研究における機械学習の活用」小林雄一郎(法政大学非常勤講師 / 大阪大学大学院 / 日本学術振興会)

言語研究における多くの問題は，分類問題に帰着するため，機械学習を応用することが可能である。本発表では，日本語と英語のデータを用いて，著者推定，ジャンル判別，学術論文の質判定といった言語研究における機械学習の活用事例を紹介した。