「コーパスアノテーションの基礎研究」研究発表会

プロジェクト名
コーパスアノテーションの基礎研究 (略称 : アノテーション)
リーダー名
前川 喜久雄 (国立国語研究所 言語資源研究系 系長 / 教授)
開催期日
平成25年12月11日 (水) 14:00~15:45
開催場所
国立情報学研究所 22階 2208会議室 (東京都千代田区一ツ橋2丁目1-2)
アクセス

発表概要

BCCWJ-TimeBank浅原 正幸,保田 祥,小西 光,今田 水穂,前川 喜久雄

時間情報抽出は大きく分けて時間情報表現抽出,時間情報正規化,時間的順序関係解析の三つのタスクに分類される。一つ目の時間情報表現抽出は,固有表現・数値表現抽出の部分問題として解かれてきた。二つ目の時間情報正規化は書き換え系により解かれることが多い。三つ目のタスクである時間的順序関係解析は,事象の時間軸上への対応付けと言い換えることができる。日本語においては時間的順序関係解析のための言語資源が整備されているとは言い難く,アノテーション基準についても研究者で共有されているものはない。本研究では国際標準であるISO-TimeMLを日本語に適応させた時間情報正規化と時間的順序関係アノテーション基準を示す。我々は『現代日本語書き言葉均衡コーパス』(BCCWJ) の新聞記事の部分集合に対して,時間情報表現抽出を行い,時間情報正規化を行った。さらに,動詞・形容詞事象表現にTimeML の<EVENT> 相当タグを付与し,その事象の性質に基づき分類を行った。また,この事象表現と正規化された時間情報表現との間の関係として,TimeML の<TLINK> 相当タグを付与した。事実に基づき統制可能な時間情報正規化と異なり,事象構造の時間的順序関係の認識は言語受容者間で異なる傾向がある。このようなレベルのアノテーションにおいては唯一無二の正解データを作ることは無意味である。むしろ,言語受容者がいかに多様な判断を行うかを評価する被験者実験的なアノテーションが求められている。そこで,本研究では三人の作業者によるアノテーションにおける時間的順序関係認識の齟齬の傾向を分析した。アノテーション結果から,時間軸上の相対的な順序関係については一致率が高い一方,時区間の境界については一致率が低いことがわかった。