「文脈情報に基づく複合的言語要素の合成的意味記述に関する研究」研究発表会 概要

プロジェクト名
文脈情報に基づく複合的言語要素の合成的意味記述に関する研究 (略称:合成的意味記述)
リーダー名
山口 昌也 (国立国語研究所 准教授)
開催期日
平成24年8月28日 (火) 13:30~17:30
開催場所
国立国語研究所 1階 中会議室1

発表概要

「辞書の例文とパラレルコーパスから自動獲得した例文に基づく語義曖昧性解消」白井 清昭 (北陸先端科学技術大学院大学 准教授)

日本語学習者向けの読解支援システムで用いることを前提とし,精度を重視した用例に基づく語義曖昧性解消 (WSD) 手法について述べた。提案手法では,コロケーションと統語的関係の2つの観点から文の類似度を測り,辞書中の用例の中から最も似ていてかつ類似度が十分高い用例の語義を選択する。再現率を向上させるため,用例に基づく WSD 手法は Naive Bayes モデルと組み合わせて用いる。また,パラレルコーパスから語義ごとに例文を獲得し,用例データベースを拡張することで WSD の性能を向上させる。実験の結果,コーパスから自動獲得された例文の正解率は85%であった。また,提案手法の WSD の正解率は65%であり,ベースラインから7%の改善が見られた。

「多言語句構造データベースの設計と構築」千葉 庄寿 (麗澤大学 准教授)

名詞句の構造,述語の構造パターンを類型論的に調査するための統語情報のデータベース化を検討した。日本語,英語,フィンランド語について,統語解析ツールを用いて解析した結果に基づき,主要部の依存関係をノード単位で記録する浅い統語構造のデータベースと,より深い木構造を記録するデータベースの2種類を検討し,目標とする分析のためにはそれぞれにメリットがあることを述べた。

「『複合動詞レキシコン』データベースの構築」神崎 享子 (国立国語研究所)

複合動詞に必要な情報を,既存の複合動詞データベースや複合動詞研究などの多角的な観点から考察し,日本語レキシコンプロジェクト (リーダー : 影山太郎) で開発を進めている複合動詞レキシコンに付与する形態的・統語的・意味的情報について述べた。

「複合動詞データベースの構築と活用」山口 昌也 (国立国語研究所 准教授)

本発表では,日本語の複合動詞データベースの構築について述べた。対象とする複合動詞は,主として,語彙的複合動詞である。本データベースを構築する目的は,複合動詞とその構成動詞との関係について,格支配構造の面から分析することである。そのため,複合動詞 (約3300語) に加えて,その構成動詞 (約1000語) を収録している。また,格支配構造の分析には,大量の用例が必要となることから,Webから当該動詞の用例を収集し,形態素解析・構文解析済みの文として,保持している。用例数は,複合動詞が平均1096文,構成動詞が平均7972文である。当日の発表では,複合動詞データベースの構築方法のほか,活用例として,Web上に実現した複合動詞データベース検索システムのデモンストレーション,および,複合動詞・構成動詞間の格要素の比較分析例などを示した。