「コーパスアノテーションの基礎研究」共同研究会発表内容「概要」

プロジェクト名
コーパスアノテーションの基礎研究 (略称 : アノテーション)
リーダー名
前川 喜久雄 (国立国語研究所 言語資源研究系 系長)
開催期日
平成22年12月21日 (火) 14:00~17:00
開催場所
NAIST東京事務所 キャンパスイノベーションセンター 6階 602号室 (東京都港区芝浦3-3-6)

発表概要

「語義タグ付コーパスを用いた自然言語処理」奥村 学 (東京工業大学精密工学研究所 教授)

単語に語義ラベルを付与した語義タグ付コーパスは,語義曖昧性解消は言うまでもなく,単語の用例のクラスタリング,新語義発見等,様々な言語処理技術の開発に寄与しうる。本発表では,そのような,語義タグ付コーパスを用いた言語処理研究,特に,我々のグループで最近行っている研究のいくつかを紹介した。
単語の用例を対象としたクラスタリングの場合,語義タグが付与された用例が容易に入手可能であることから,それらの用例を用いた半教師ありクラスタリングにより,従来に比べ高精度なクラスタリングが実現できることをまず紹介した。
また,代表性のある語義タグ付コーパスを現在構築中であるが,複数のジャンルのサブコーパスが内部に存在する。このような状況においては,あるサブコーパス中の用例の語義曖昧性解消を行う際,他のサブコーパスの用例を訓練データとして用いる教師あり語義曖昧性解消手法を用いる場合,ジャンル適応を行う必要がある。そこで,複数のジャンルのサブコーパスからなる代表性のある語義タグ付コーパスを用いて,適切なジャンル適応手法を自動で選択する手法を開発する研究についても紹介した。