「テキストにおける語彙の分布と文章構造」研究発表会発表内容の「概要」

プロジェクト名
テキストにおける語彙の分布と文章構造 (略称 : 語彙と文章構造)
リーダー名
山崎 誠 (国立国語研究所 言語資源研究系 准教授)
開催期日
平成23年9月24日 (土) 10:00~12:00 (公開),14:00~15:00 (非公開)
開催場所
北海道教育大学 札幌駅前サテライト 教室2 (〒060-0005 札幌市中央区北5条西5丁目7)
アクセスマップ

発表概要

「文章における共起語率の分布」山崎 誠 (国立国語研究所 准教授)

文の連続における語の繰り返しを手がかりに文章全体の結束性や文章の構成を探った。具体的には,文章中のある文に対してその直前の文との共起語の割合(以下,共起語率と言う。)及び直後の文との共起語率を算出し,文章全体における共起語率の分布を観察した。データとして利用したのは,「現代日本語書き言葉均衡コーパス」の出版書籍,図書館書籍,白書,雑誌,新聞である(いずれも可変長データ)。
全体的な傾向としては,白書が直前直後のどちらの文に対しても共起語率が高く,新聞・雑誌はその逆に直前直後のどちらの文に対しても共起語率が低かった。また、直前の共起語率と直後の共起語率がほぼ同じ場合(出版書籍、雑誌、図書館書籍)と直後のほうが値が高い場合(白書、新聞)があったがその原因は突き止められなかった。書籍のNDCで見ると,分類なしを除き、文学がその他のジャンルに対して値が低いことが分かった。
段落内の共起語率の推移の傾向については、今回使用したデータが文単位というよりもやや段落に近いものであったことが分かったため今後の検討としたいが、文章全体における共起語率の推移と文章構成上のまとまりとは概ね関連があることを指摘した。