「近代語コーパス設計のための文献言語研究」研究発表会 「概要」

プロジェクト名
近代語コーパス設計のための文献言語研究 (略称 : 近代語コーパス)
リーダー名
田中 牧郎 (国立国語研究所 言語資源研究系 准教授)
開催期日
平成21年12月13日 (日) 14:30~16:00
開催場所
国立国語研究所 1階 中会議室1

発表概要

「研究計画の概要と国立国語研究所の近代語資源」田中 牧郎 (国立国語研究所 言語資源研究系 准教授)

本共同研究では,将来構築する予定の「近代語コーパス」を次の二つのアプローチによって設計する。
① 既存の言語資源を使ったコーパスの原型作成
② 近代語文献全体を見わたした資料選定法の研究
①は「太陽コーパス」や「近代文語 UniDic」など,独立行政法人国立国語研究所が整備してきたコーパスや解析辞書を多角的に利用しながらこれを検証し,コーパス近代語研究の新領域を開拓しながら,実践する。
②は,独立行政法人化以前の国立国語研究所が次の二つの言語資源を整理・活用することから着手する。
ア) 近代語研究室が研究した近代語資料
イ) 国語辞典編集室 (準備室を含む) が整備した文学作品・雑誌・ベストセラー等の目録
これらで不足する文献やその情報を加えた,文献資料のシソーラスを作成し,これを台帳として資料性の検討を進めながら,実践する。

「近代語テキストの形態素解析」小木曽 智信 (国立国語研究所 言語資源研究系 准教授)

「近代文語 UniDic」の開発により,近代文語文に形態素解析を施すことが可能になり,文字列検索ベースの用例収集を超えた,本格的なコーパス言語学の方法による近代語研究が可能になりつつある。本発表では近代文語 UniDic の概要と,現在開発中の「旧仮名 UniDic (仮称)」 (歴史的仮名遣いの口語文を対象とした形態素解析辞書) について説明するとともに,解析結果を集計・検索する「形態論情報データベース」とこれを利用するためのツールを紹介した。
発表では「太陽コーパス」の文語記事を近代文語UniDicで解析した結果を形態論情報データベースに格納したものを用いて,不特定の語の品詞別集計や,前後の語と組み合わせての検索・集計の例として,動詞・サ変動詞の語彙頻度表,動詞と完了の助動詞との連鎖の頻度表などを提示した。