「統計と機械学習による日本語史研究」研究発表会 概要

プロジェクト名
統計と機械学習による日本語史研究
リーダー名
小木曽 智信 (国立国語研究所 言語資源研究系 准教授)
開催期日
平成23年3月4日 (金) 14:00~17:00
開催場所
国立国語研究所 4階 405号室

発表概要

「"統計と機械学習による日本語史研究"がめざすもの」小木曽 智信 (国立国語研究所 言語資源研究系 准教授)

プロジェクト最初の研究発表会開催にあたり,全体の目標と個別の研究テーマについて説明した。現在利用可能なツールとデータの紹介を交えつつ,形態素解析辞書をはじめとする自然言語処理技術の日本語史研究への応用の見通しと,データベースに格納した形態素解析済みコーパスを用いた日本語史研究の可能性について述べた。

「明治初期の雑誌データを対象とした濁点の自動付与」岡 照晃 (奈良先端科学技術大学院大学 大学院生)

近代文語文で書かれた資料の中では,発音上は濁る仮名文字であっても濁点を付けないで表記されていることがあり,辞書による形態素解析を行う際の精度に影響を及ぼしている。本発表では,統計的機械学習手法を用いて,テキストデータ化された明治初期の雑誌を対象に,予め濁点を自動で付与する方法について論じた。漢字のクラスタリングを取り入れた最大エントロピーモデルを用いる手法を提案し,約97%の精度で濁点の自動付与が行えるプログラムを開発した。