「コーパスアノテーションの基礎研究」研究発表会

プロジェクト名
コーパスアノテーションの基礎研究 (略称 : アノテーション)
リーダー名
前川 喜久雄 (国立国語研究所 言語資源研究系 系長,教授)
開催期日
平成23年7月19日 (火) 14:00~17:00
開催場所
NAIST東京事務所 キャンパスイノベーションセンター 6階 602号室 (東京都港区芝浦3-3-6)
NAIST東京事務所

発表概要

「複合辞アノテーションの枠組み構築に向けて」松吉 俊 (山梨大学大学院 医学工学総合研究部 助教)

「について」や「なければならない」などに代表される日本語複合辞を,機能的長単位の語として,コーパスにアノテーションする枠組みについて検討する。
アノテーション作業時のゆれをできる限り少なくするためには,複合辞に関する次の5つの問題を考慮した基準を明確に定める必要がある。

  1. 文法化の認定 (「(太郎) にかわって(出席する)」は複合辞か?),
  2. 1長単位の認定 (「(走っ) ていないかもしれなかった」はいくつの長単位からなるか?),
  3. 異形の範囲 (「なければならない」と「ないといけない」は別見出しか?),
  4. 並立の扱い (「(行く) にせよ (行かない) にせよ」をどう扱うか?),
  5. 語義の定義 (「によって」はいくつの語義を持つか?)。

本発表では,複合辞辞書編纂に関する先行研究を紹介し,上記の問題に対処したアノテーション枠組みの試案を提示する。

「単語単位の係り受け解析」森 信介 (京都大学 学術情報メディアセンター 准教授)

実用に耐える日本語の係り受け解析を実現することを目的して,係り受けの単位を単語とし,部分的にアノテーションされたコーパスを代表とする様々な言語資源を利用することができる係り受け解析を提案する。単語としては『現代日本語書き言葉均衡コーパス』の短単位を採用することで,複合名詞の構造や複合動詞のそれぞれの動詞の主語や目的語が明示される。自動解析の実現では,文の一部の単語にのみ係り受けを付与したコーパスなどが利用でき迅速に分野適応が可能な枠組みを提案する。