「テキストの多様性を捉える分類指標の策定」研究発表会発表内容「概要」

プロジェクト名
テキストの多様性を捉える分類指標の策定 (略称 : テキスト分類指標)
リーダー名
柏野 和佳子 (国立国語研究所 言語資源研究系 准教授)
開催期日
平成22年11月18日 (木) 15:00~18:00
開催場所
国立国語研究所 2階 多目的室

発表概要

「PACLIC24ポスター発表報告
An Approach toward Register Classification of Book Samples in the Balanced Corpus of Contemporary Written Japanese」
柏野 和佳子 (国立国語研究所 言語資源研究系 准教授)

Japanese books are usually classified into ten genres by Nippon Decimal Classification (NDC) based on their subject. However, this classification is sometimes insufficient for corpus studies which describe characteristics of the texts in the book. Here, we propose a method of classifying text samples taken from Japanese books into some registers and text types. Firstly, we discuss useful viewpoints to describe various characteristics of the texts and propose a two-step approach for stable annotation. We then apply our method to 161 book samples from the prerelease version of the Balanced Corpus of Contemporary Written Japanese (BCCWJ), a balanced Japanese corpus comprising 100 million words developed by National Institute for Japanese Language and Linguistics. Finally, we evaluate our method in terms of stability of annotation using kappa coefficients and correlation coefficients.

「大きなコーパスを基準に文の機能性を定量する技術」玉城 伸仁 (京都大学 情報学研究科 知能情報学専攻 黒橋研究室 博士課程)

はじめに,書記言語の中にも観察される「話し言葉らしさ」のような「文体」を定量的に把握する技術について報告した。WWW コーパスから会話調 / 丁寧調 / 論説調に属する文を自動抽出する過程と,助動詞,接頭辞,指示詞といった機能的要素の各文体における出現傾向を定量する過程を交互に反復的に適用して,各文体を特徴づけていると考えられる機能要素の出現パタンを導出した。加えて,文末表現という日本語の文体を強く規定する要素の文体指標を提示した。
後半は,言語の機能を反映すると思われる多数の潜在因子や潜在クラスをまとめて抽出した結果を報告した。副詞×文末表現の共起行列を因子分析によって分解し,因子得点,負荷量として種々の言語機能を定量する試みを中心に,機能的要素との共起によって言語要素を分類する試みについて報告した。