
テキストの多様性を捉える分類指標の策定 (略称 : テキスト分類指標)
柏野 和佳子 (国立国語研究所 言語資源研究系 准教授)
平成22年11月18日 (木) 15:00~18:00
国立国語研究所 2階 多目的室


An Approach toward Register Classification of Book Samples in the Balanced Corpus of Contemporary Written Japanese」
柏野 和佳子 (国立国語研究所 言語資源研究系 准教授)

Japanese books are usually classified into ten genres by Nippon Decimal Classification (NDC) based on their subject. However, this classification is sometimes insufficient for corpus studies which describe characteristics of the texts in the book. Here, we propose a method of classifying text samples taken from Japanese books into some registers and text types. Firstly, we discuss useful viewpoints to describe various characteristics of the texts and propose a two-step approach for stable annotation. We then apply our method to 161 book samples from the prerelease version of the Balanced Corpus of Contemporary Written Japanese (BCCWJ), a balanced Japanese corpus comprising 100 million words developed by National Institute for Japanese Language and Linguistics. Finally, we evaluate our method in terms of stability of annotation using kappa coefficients and correlation coefficients.

「大きなコーパスを基準に文の機能性を定量する技術」玉城 伸仁 (京都大学 情報学研究科 知能情報学専攻 黒橋研究室 博士課程)

はじめに,書記言語の中にも観察される「話し言葉らしさ」のような「文体」を定量的に把握する技術について報告した。WWW コーパスから会話調 / 丁寧調 / 論説調に属する文を自動抽出する過程と,助動詞,接頭辞,指示詞といった機能的要素の各文体における出現傾向を定量する過程を交互に反復的に適用して,各文体を特徴づけていると考えられる機能要素の出現パタンを導出した。加えて,文末表現という日本語の文体を強く規定する要素の文体指標を提示した。