「テキストにおける語彙の分布と文章構造」研究発表会

プロジェクト名
テキストにおける語彙の分布と文章構造 (略称 : 語彙と文章構造)
リーダー名
山崎 誠 (国立国語研究所 言語資源研究系 准教授)
開催期日
平成23年9月24日 (土) 10:00~12:00
開催場所
北海道教育大学 札幌駅前サテライト 教室2 (〒060-0005 札幌市中央区北5条西5丁目7)
アクセスマップ

発表概要

「文章における共起語率の分布」山崎 誠 (国立国語研究所 准教授)

文の連続における語の繰り返しを手がかりに文章全体の結束性や文章の構成を探る。
具体的には,文章中のある文に対してその直前の文との共起語の割合 (以下,共起語率と言う。) 及び直後の文との共起語率を算出し,文章全体における共起語率の分布を観察した。データとして利用したのは,「現代日本語書き言葉均衡コーパス」の出版書籍,図書館書籍,白書,雑誌,新聞である。全体的な傾向としては,白書が直前直後のどちらの文に対しても共起語率が高く,雑誌はその逆に直前直後のどちらの文に対しても共起語率が低かった。書籍のNDCで見ると,文学よりも自然科学,社会科学のほうが共起語率が高い (約2倍) ことが分かった。
文章中の共起語率の分布については,共起語率の高い文章では,ひとつの段落内において,直後の文との共起語率が次第に減っていく一方,直前の文との共起語率が次第に増えていく傾向が観察された。