「コーパスアノテーションの基礎研究」研究発表会 「概要」

プロジェクト名
コーパスアノテーションの基礎研究 (略称 : アノテーション)
リーダー名
前川 喜久雄 (国立国語研究所 言語資源研究系 系長)
開催期日
平成22年1月15日 (金) 13:30~15:30
開催場所
国立国語研究所 2階 多目的室 (東京都立川市緑町10-2)

発表概要

「日本語書き言葉コーパスへの重層的意味情報付与に向けて」乾 健太郎 (奈良先端科学技術大学院大学 准教授)

高度な言語情報編集を計算機で実現するためには,形態素,統語解析技術に加え,意味解析,談話解析と呼ばれるような言葉の意味に踏み込んだ処理が必要である。語義曖昧性解消,固有表現抽出,照応・共参照解析,述語項構造解析,モダリティ解析,談話関係,時間解析などがそれに当たるが,こうした技術の研究を 推し進めるためには,実際のテキストに個々のレイヤの意味情報を注釈付けしたコーパスを構築し,技術の開発・評価用のデータとして研究者間で共有すること が不可欠である。本発表では,意味情報のレイヤとして我々のグループがこれまで携わってきた照応・共参照,述語項構造,モダリティ,談話関係の4つを取り 上げ,それぞれについて注釈付けの動向を概観するとともに,仕様設計上の主な課題を整理し,最後に重層的意味情報付与の動向と展望を論じる。

「日本語機能表現の言語解析体系および言語資源構築とその分析」宇津呂 武仁 (筑波大学 准教授)

日本語においては,複数の機能語や自立語から構成されて,文中で機能的な役割をする機能表現が多数存在し,そのなかでも特に,複数の語が非構成的に組み合わされた表現は複合辞と呼ばれる。自然言語の解析においては,これらの機能表現の表記を的確に同定するための辞書が不可欠である。さらに,「代表として参加する」,「閑散として寂しい」の「として」のように,複合辞としての機能的用法と,本来の動詞としての内容的用法の間の判別が必要な表現も多数存在し,これらの多義性解消も重要な課題である。日本語機能表現に関する言語資源としては,

(1) 国立国語研「現代語複合辞用例集」に収録されている125機能表現,およびその異表記を展開した300表現,
(2) (1) について機能的用法・内容的用法を判別した用例のデータベース,
(3) 日本語機能表現の約17,000表記を網羅的・階層的に収録した辞書「つつじ」,

等が構築されてきた。本発表では,これらの言語資源に関して,我々のグループがこれまでに行ってきた研究,および,現在の研究の概要と展望を紹介する。

「話し言葉コーパス韻律アノテーションの活用事例」前川喜久雄 (国立国語研究所 言語資源研究系 教授)

2004年に公開された『日本語話し言葉コーパス』のコアに付与された X-JToBI 韻律アノテーションを活用することによって,音声研究にどのような新生面が開拓されたかを,以下のような事例に触れながら報告する。

(1) /z/ および /b/, /d/, /g/ における閉鎖の変異,
(2) 日本語F0下降モデルの再検討,
(3) 韻律ラベルを利用した「口調」の自動分類。

アノテーションの付された大量データを解析することによって,従来の調音音声学的ないし実験音声学的研究において無批判に用いられてきた概念の曖昧さが,あぶりだされることが少なくない。たとえば (1) の研究では従来単に「語頭」と呼ばれてきた環境は,形態論的,韻律的,音声的な環境条件にしたがって細分化し,再構築される必要があることを示していた。また (2) においては,音韻ないし韻律構造の影響を受けない生理学的現象という意味で従来「自然下降」(declination)と呼ばれてきた F0 下降メカニズムが,実際には韻律構造の影響を強くうけていることが明らかになってきている。