「文脈情報に基づく複合的言語要素の合成的意味記述に関する研究」研究発表会

プロジェクト名
文脈情報に基づく複合的言語要素の合成的意味記述に関する研究 (略称 : 合成的意味記述)
リーダー名
山口 昌也 (国立国語研究所 言語資源研究系 助教)
開催期日
2010年7月25日 (日) 13:30~17:30
開催場所
国立国語研究所 1階 大会議室

発表概要

「複合動詞の合成的な意味記述と用例の収集」山口 昌也 (国立国語研究所 助教)

本研究では,大量の用例に基づいて,複合動詞の意味記述を合成的に行う手法の確立を目指している。本発表では,その第一歩として,複合動詞の用例とその構成要素の動詞の用例から,構文パターン,および,意味の対応関係を獲得する手法を提案する。また,提案手法の検証にあたっては,大量の用例が必要になる。そこで,用例の収集と利用を行うためのプラットフォームとして,全文検索システム「ひまわり」を拡張する計画について述べる。

「クラスタリングならびに分類器学習に基づく語義曖昧性解消」白井 清昭 (北陸先端科学技術大学院大学 准教授)

本発表では2つの異なるタイプの語義曖昧性解消手法について述べる。クラスタリングに基づく手法では,用例のクラスタを作成した後,クラスタ単位で語義を判定する。一方,分類器学習に基づく手法では,個々の用例に対して語義を決定する分類器を学習する。両者を組み合わせた手法についても述べる。最後に SemEval-2 のテストデータを用いた手法の評価実験について報告する。

「テキストタイプのアノテーション作業の検討
―『現代日本語書き言葉均衡コーパス』の収録書籍を用いて―」
柏野 和佳子 (国立国語研究所 准教授)

大規模コーパスのより有効な活用のためには,収録される大量の種々の文章を,さまざまな観点から分類できることが望ましい。現在,国立国語研究所で構築中の『現代日本語書き言葉均衡コーパス』(BCCWJ) に収録されている書籍については,その分類指標に,あらかじめ付与されている NDC が利用できる。しかし,それだけでは不十分であると考え,人手で付与すべき観点として「難易,主観的・客観的,硬軟,書き言葉的・話し言葉的」の4つを選び,人手によるアノテーション作業の試行を行っている。アノテーション作業を進める際には,安定した判断結果を得ることが課題となる。よって,4つの観点を付与するためのアノテーション作業の方法を検討し,試行結果についてはカッパ係数及び,相関関数を用いて評価した結果について報告する。