「文脈情報に基づく複合的言語要素の合成的意味記述に関する研究」研究発表会発表内容「概要」

プロジェクト名
文脈情報に基づく複合的言語要素の合成的意味記述に関する研究 (略称 : 合成的意味記述)
リーダー名
山口 昌也 (国立国語研究所 言語資源研究系 助教)
開催期日
2010年7月25日 (日) 13:30~17:30
開催場所
国立国語研究所 1階 大会議室

発表概要

「複合動詞の合成的な意味記述と用例の収集」山口 昌也 (国立国語研究所 助教)

本研究では,大量の用例に基づいて,複合動詞の意味記述を合成的に行う手法の確立を目指している。本発表では,その第一歩として,複合動詞の用例とその構成要素の動詞の用例から,構文パターン,および,意味の対応関係を獲得する試みについて述べる。複合動詞の構造分析に関しては,これまで多数の研究がなされている。そこで,まず,関連研究のサーベイを行い,その結果を示した。さらに,サーベイ結果に基づき,用例から自動的に対応関係を獲得する際にどのような辞書が必要になり,どのような問題が生じうるのかを考察した。また,提案手法の検証にあたっては,大量の用例が必要になる。そこで,用例の収集と利用を行うためのプラットフォームとして,全文検索システム「ひまわり」を拡張する計画について説明した。

「クラスタリングならびに分類器学習に基づく語義曖昧性解消」白井 清昭 (北陸先端科学技術大学院大学 准教授)

本発表ではクラスタリングに基づく手法と分類器学習に基づく手法という2つの異なるタイプの語義曖昧性解消手法について述べる。クラスタリングに基づく手法では,用例のクラスタを作成した後,クラスタと辞書の語義との類似度を計算し,クラスタ単位で語義を判定する。このとき,辞書のどの語義とも類似度が低い場合,そのクラスタは新語義の集合であるとみなす。一方,分類器学習に基づく手法では,個々の用例に対して語義を決定する分類器を教師あり学習する。この際,簡単なドメイン適応の手法として,学習に使う素性をジャンルに固有の素性とそうでない素性とに弁別し,未知の単語の語義を判定する際に異なるジャンルに固有の素性を削除した。また,クラスタリングと分類学習に基づく手法を組み合わせた手法についても述べた。最後に SemEval-2 のテストデータを用いた手法の評価実験について報告した。

「テキストタイプのアノテーション作業の検討
―『現代日本語書き言葉均衡コーパス』の収録書籍を用いて―」
柏野 和佳子 (国立国語研究所 准教授)

大規模コーパスのより有効な活用のためには,収録される大量の種々の文章を,さまざまな観点から分類できることが望ましい。現在,国立国語研究所で構築中の『現代日本語書き言葉均衡コーパス』(BCCWJ) に収録されている書籍については,その分類指標に,あらかじめ付与されているNDCが利用できる。しかし,それだけでは不十分であると考え,人手で付与すべき観点として「難易,主観的・客観的,硬軟,書き言葉的・話し言葉的」の4つを選び,人手によるアノテーション作業の試行を行っている。アノテーション作業を進める際には,安定した判断結果を得ることが課題となる。よって,4つの観点を付与するためのアノテーション作業の方法を検討し,試行結果についてはカッパ係数及び,相関関数を用いて評価した結果について報告した。