「文脈情報に基づく複合的言語要素の合成的意味記述に関する研究」研究発表会

プロジェクト名: 文脈情報に基づく複合的言語要素の合成的意味記述に関する研究 (略称 : 合成的意味記述)
リーダー名: 山口昌也 (国立国語研究所言語資源研究系助教)
開催期日: 2010年7月25日 (日) 13:30～17:30
開催場所: 国立国語研究所 1階大会議室

発表概要

「複合動詞の合成的な意味記述と用例の収集」山口昌也 (国立国語研究所助教)

本研究では，大量の用例に基づいて，複合動詞の意味記述を合成的に行う手法の確立を目指している。本発表では，その第一歩として，複合動詞の用例とその構成要素の動詞の用例から，構文パターン，および，意味の対応関係を獲得する手法を提案する。また，提案手法の検証にあたっては，大量の用例が必要になる。そこで，用例の収集と利用を行うためのプラットフォームとして，全文検索システム「ひまわり」を拡張する計画について述べる。

「クラスタリングならびに分類器学習に基づく語義曖昧性解消」白井清昭 (北陸先端科学技術大学院大学准教授)

本発表では2つの異なるタイプの語義曖昧性解消手法について述べる。クラスタリングに基づく手法では，用例のクラスタを作成した後，クラスタ単位で語義を判定する。一方，分類器学習に基づく手法では，個々の用例に対して語義を決定する分類器を学習する。両者を組み合わせた手法についても述べる。最後に SemEval-2 のテストデータを用いた手法の評価実験について報告する。

「テキストタイプのアノテーション作業の検討
―『現代日本語書き言葉均衡コーパス』の収録書籍を用いて―」柏野和佳子 (国立国語研究所准教授)

大規模コーパスのより有効な活用のためには，収録される大量の種々の文章を，さまざまな観点から分類できることが望ましい。現在，国立国語研究所で構築中の『現代日本語書き言葉均衡コーパス』(BCCWJ) に収録されている書籍については，その分類指標に，あらかじめ付与されている NDC が利用できる。しかし，それだけでは不十分であると考え，人手で付与すべき観点として「難易，主観的・客観的，硬軟，書き言葉的・話し言葉的」の4つを選び，人手によるアノテーション作業の試行を行っている。アノテーション作業を進める際には，安定した判断結果を得ることが課題となる。よって，4つの観点を付与するためのアノテーション作業の方法を検討し，試行結果についてはカッパ係数及び，相関関数を用いて評価した結果について報告する。