「テキストにおける語彙の分布と文章構造」研究発表会 概要

プロジェクト名
テキストにおける語彙の分布と文章構造 (略称 : 語彙と文章構造)
リーダー名
山崎 誠 (国立国語研究所 言語資源研究系 准教授)
開催期日
平成23年3月6日 (日) 14:00~17:00
開催場所
国立国語研究所 3階 セミナー室

発表概要

「『手』の慣用句を指標とした文章の所属ジャンル判別の可能性
―現代日本語書き言葉均衡コーパスを用いて―」
村田 年 (慶應義塾大学 日本語・日本文化教育センター 教授)

本研究では慣用句を指標とした文章ジャンルの判別の可能性を探った。「手」を含む慣用句の中から,「手を」「手が」「手に」を含む動詞慣用句,形容詞慣用句 (74項目) を選び,それらを指標として,現代日本語書き言葉均衡コーパスの書籍文章資料を対象に,「人文科学系」「社会科学系」「自然科学系」の三つのジャンルについて多変量解析法を用いて分析を行った。その結果,判別に寄与する慣用句は5つあり,それらの指標によって高率で三つのジャンルが判別されることが分かった。人文科学系を他の系から分離するのは「手に余る」「手を打つ」で,社会科学系を自然科学系から分離するのは「手をこまねく」「手をあける」「手を取り合う」であった。

「接続表現の二重使用と文章ジャンル」馬場 俊臣 (北海道教育大学 教授)

本研究では,文章構造分析の重要な指標となる接続表現 (接続詞及び接続詞的機能を果たす連語等) の二重使用 (特に異種併用) の使用率と文章ジャンルとの関係について試行的な調査分析を行った。『現代日本語書き言葉均衡コーパス』モニター公開データ (2009年度版) を用い,二重に使用された接続表現の用例を抽出し,「書籍」 (下位区分として NDC 第1次区分) 「国会会議録」「白書」「Yahoo! 知恵袋」での使用率の偏りを調査した。その結果,「国会会議録」では他のジャンルに比べ二重使用の接続表現の割合が高く文章ジャンルによる偏りが見られること,「書籍」の下位区分では「哲学」「言語」で割合が高い傾向があることが分かった。「国会会議録」では多種類の二重使用の接続表現が使われていたが,頻用されるのは「そしてまた,あるいはまた,また一方,ただしかし」など全体で添加,対比,補足の機能を果たす表現が多いことなども指摘した。

「文節の語彙属性パターンに基づいた文体分析」 金 明哲 (同志社大学 教授)

匿名文章の書き手を推定する際,文章を構成する諸要素から書き手の特徴をどのように抽出し,計量分析するかは非常に重要である。本研究では,日本語における文節パターンに基づいた書き手の推定法を提案し,文学作品,学生作文,日記のコーパスを用いて実証分析を行った。その結果,文節パターンには書き手の特徴が顕著に現れることが実証できた。ランダムフォレストを用いた任意の2人間の書き手の推定の正解率は,文学作品および学生作文では約99%,日記では約92%である。このような結果を踏まえ,代筆疑惑がもたれている川端康成の作品と関連の三島由紀夫,北条誠と沢野久雄の作品について分析を行った。その結果,文節のパターンに関するデータからは,川端康成の「眠れる美女」「古都」「みづうみ」などの代筆説を支持する結論には至らなかった。