「統計と機械学習による日本語史研究」研究発表会

プロジェクト名
統計と機械学習による日本語史研究 (略称 : 統計日本語史)
リーダー名
小木曽 智信 (国立国語研究所 言語資源研究系 准教授)
開催期日
平成23年9月2日 (金) 13:30~17:30
開催場所
就実大学 A館 A205 (〒703-8516 岡山県岡山市中区西川原1-6-1)
交通アクセス

発表概要

「中古語辞書見出し語認定におけるコーパスと統計指標活用の可能性」須永 哲矢 (国立国語研究所 コーパス開発センター プロジェクト研究員)

内省のきかない過去の言語は,コーパスの活用が期待される領域である。その一例として,辞書の見出し語認定の問題を取り上げる。古典語では,動詞連用形-動詞,名詞-サ変動詞,名詞-形容詞などの並びに出会った場合,それらが複合語として一語化しているか否かの判断は困難である。従来の辞書見出しにおいてもその扱いに明確な基準は存在しない。本発表では,形態素解析済みコーパスによって可能となる,語と語の連接を対象とした実例調査と,統計指標を用いた整理・序列化を通して,辞書見出し語認定に客観的な尺度を与える可能性を探る。

「指示詞を組み合わせた語に関する歴史的一考察」岡崎 友子 (就実大学 人文科学部 准教授)

「アレコレ」「ソコココ」等の指示詞と指示詞を組み合わせた語について,形態素解析済みのコーパスを用いて調査し,考察した結果を発表する。実はこれらの組み合わせは,その時代の指示体系と大きく関わるものであり,それは一対もしくは数対の語のみの観察では見えてこない。そこでコーパスを用い,その時代におけるすべてのパターンから分析することにより,時代とともに変化する組み合わせの意味を明らかにしていく。

講演 「言語研究における機械学習の活用」小林 雄一郎(法政大学 非常勤講師 / 大阪大学大学院 / 日本学術振興会)

言語研究における多くの問題は,分類問題に帰着するため,機械学習を応用することが可能である。本発表では,日本語と英語のデータを用いて,著者推定,ジャンル判別,学術論文の質判定といった言語研究における機械学習の活用事例を紹介する。