「テキストの多様性を捉える分類指標の策定」研究発表会発表内容の「概要」

プロジェクト名
テキストの多様性を捉える分類指標の策定 (略称 : テキスト分類指標)
リーダー名
柏野 和佳子 (国立国語研究所 言語資源研究系 准教授)
開催期日
平成23年8月30日 (火) 9:40~12:00
開催場所
公立はこだて未来大学 (〒041-8655 北海道函館市亀田中野町 116番地2)

発表概要

「書籍テキストへの分類指標付与試行作業の進捗報告」柏野 和佳子 (国立国語研究所 言語資源研究系 准教授)

コーパスに収録されるテキストに付与する,適切で有用な分類指標を設けることを目標に,『現代日本語書き言葉均衡コーパス』 (BCCWJ) の収録書籍テキストを対象に,「難易,主観的・客観的,硬軟,直接的な語り性の有無」という,4観点の人手分類を重点的に進めている。1テキストにつき,3人のアノテーターが付与しているが判断のゆれは大きい。昨年度末までに約3,000テキストへの試行付与が完了した。現在,典型例の抽出と分析を行い,付与基準のマニュアル化を目指している。
当日の議論では,アノテータ間のゆれは,あいまいなものはあいまいとして処理してよいのでは,という意見や,現在の幅広い書籍テキストの分析は興味深いが,ここからビジネス文書のスタイル研究に役立つ知見が得られるかとなると,扱うテキストの差異が大きそうだ,との意見があった。

「テキストの難易度に対する人間の判断と機械の判断」佐藤 理史 (名古屋大学 教授)

テキストに対して人間が素朴に感じる難易度を測定する調査研究の現状について報告した。本調査では,4つのテキストをやさしい順に並べてもらう課題を被験者に実行してもらい,その結果を集計することで,人間が感じる難易度の信頼性および個人差,さらに,機械的に測定した難易度との比較を行うことをもくろんでいる。本発表では,課題の設計と,20課題に対する11人の被験者実験の結果,および,BCCWJコアに対する難易度付与の現状について報告した。