「テキストの多様性を捉える分類指標の策定」研究発表会 「概要」
- プロジェクト名
- テキストの多様性を捉える分類指標の策定 (略称 : テキスト分類指標)
- リーダー名
- 柏野 和佳子 (国立国語研究所 言語資源研究系 准教授)
- 開催期日
- 平成21年12月11日 (金) 13:30~17:00
- 開催場所
- 国立国語研究所 2階 多目的室
発表概要
「テキストの多様性を捉える分類基準の検討」柏野 和佳子 (国立国語研究所 言語資源研究系 准教授)
テキスト研究や,コーパス活用のために必要となる,詳細なテキスト分類指標の設計と検証を目的とする。
はじめに,BCCWJ の書籍テキストを分析し,その多種多様な形式,内容,表現に関する特徴を捉えるための観点24項目を挙げた。
次に,書籍83文書 (BCCWJ のコアサンプル) に対し,作業者3名による分類試行を2度行った。まずは形式 (平易な文章形式か否か) を分類し,平易な文章形式についてはさらに内容,表現について細分類を行った。細分類では,当研究において優先すべき分類項目と,一度に無理なく判断可能な数とを考慮し,分類項目を「難易,硬軟,丁寧さ,書き言葉的か話し言葉的か,客観的か主観的か,(主人公・話者の) 人称」の6つに絞った。また,段階を問う際は中間をなくし,4段階 (2段階) にした。しかし,4段階のうち3段階にわたって判断がゆれる例が少なくなく,作業拡大には,分類基準の再検討と指示の具体化が課題である。
「日本語テキストの難易度推定」佐藤 理史 (名古屋大学 教授)
本発表では,日本語テキストの難易度推定に関する研究を概観した後,我々のグループがこれまで行なってきた研究内容を紹介した。
我々は,まず,難易度推定の規準となるコーパスとして,教科書コーパスを編纂した。このコーパスは,13段階の学年区分に対応する難易度が付与された総計1478サンプル,約105万字からなるコーパスである。難易度の推定には,文字bigramモデルに基づく最尤推定を用いる。この推定は,すでに公開済の難易度推定システム『帯』によって実行される。
現在,上記の教科書コーパスを規準コーパスとする「帯 / T13」の他に,9段階の相対難易度を付与したBCCWJ2009を規準コーパスとする「帯 / B9」をウェブで公開している。本発表では,後者の作成方法と性能についても述べた。
「心理実験によるシステムの評価」徳永 健伸 (東京工業大学 教授)
1990年代から自然言語処理の分野では,コーパスに基づく統計的な手法が中心であった。システムの評価は,あらかじめコーパスに人手で付与された正解との比較によっておこなう intrinsic な評価によっておこない,性能を改善してきた。しかし,最近では人間とのインタラクションを含む実際のアプリケーションに組み込んで評価をおこなう extrinsic な評価,あるいはタスク指向の評価が注目と集めている。
この講演では,被験者を用いておこなうタスク指向の評価実験について,過去の事例を題材として実験設計の注意点について紹介する。特に,アノテーションの作業者に期待すべきことと評価実験の被験者に期待すべきことは性質が異なることを強調する。
「テキスト評定実験の紹介」小磯 花絵 (国立国語研究所 理論・構造研究系 准教授)
書き言葉の分類尺度を構築することを目的に,今年度実施したテキスト評定実験の手続き,評定結果,問題点について報告した。
評定項目の抽出のため,予備実験を2回実施し,8つの評定尺度を選定した。また評定対象として,書籍,新聞,政府刊行白書,ブログ,小中高の教科書など,様々なレジスターのサンプルから,テーマを「社会」に限定してサンプルを選定し,3名の被験者を対象に評定実験を実施した。
発表では,上記評定実験の手続きの詳細を中心に報告した。また評定結果として,評定者間の一致率や評定項目間の関係などを示し,実験の問題と今後の課題について報告した。