「テキストにおける語彙の分布と文章構造」研究発表会「概要」

プロジェクト名
テキストにおける語彙の分布と文章構造 (略称 : 語彙と文章構造)
リーダー名
山崎 誠 (国立国語研究所 言語資源研究系 准教授)
開催期日
平成24年7月1日 (日) 14:00~17:00
開催場所
お茶の水女子大学 文教育学部 1号館 5階 513室 (〒112-0012 東京都文京区大塚2-1-1)

発表概要

「学術論文における専門用語の分野基礎性に関する一考察」内山 清子 (国立情報学研究所 特任研究員)

学術論文に含まれる専門用語の中で,その分野に馴染みがない初心者などが必ず優先的に学ぶべき重要な基本的用語を分野基礎性が高い用語と定義し,分野基礎性が高い用語を自動抽出するための指標について考察した。頻度,網羅性,語構成性を指標として設定し,自然言語処理分野の論文データを対象として,各指標について実データに基づいて議論した。また,論文の論理構造 (タイトル,抄録,はじめに,本文,実験,考察,おわりに) の中で,分野基礎性が高い用語の分布がどのようになっているのかを調べ,分析を行った。これらの結果に基づいて,専門用語の分野基礎性の特徴を分析し,自動抽出および自動シソーラス構築への応用を考察した。

「状態空間表現を用いた文章の特徴付けの試み」馬場 康維 (統計数理研究所) ,小森 理 (統計数理研究所)

文を構成する句,句を構成する品詞,というように一つの文を分解して,文章を文を構成する要素の系列で表現した。品詞や句を“状態”と考え,文を状態間の推移として表現した。文を表す状態系列の特徴を抽出することにより,文体の違い,文章の書かれた分野の違いなどを分析することを試みた。