「統計と機械学習による日本語史研究」合同研究発表会

プロジェクト名,リーダー名
統計と機械学習による日本語史研究 (略称 : 統計日本語史)
小木曽 智信 (国立国語研究所 言語資源研究系 准教授)

人間文化研究連携共同推進事業「海外に移出した仮名写本の緊急調査 (第2期) 」
高田 智和 (国立国語研究所 理論・構造研究系 准教授)
開催期日
平成25年2月7日 (木) 13:00~17:00
開催場所
国立国語研究所 3階 セミナー室

発表概要

「平安仮名文学作品テキストの形態素解析」小木曽 智信 (国立国語研究所 言語資源研究系 准教授)

近年「中古和文 UniDic」が公開されたことにより,課題とされていた古典の形態素解析が可能になった。これにより,コーパス言語学の手法を導入した日本語史研究が可能になり,また,資料に対してより高度なアノテーションを施すことが可能になってきた。
本発表では,平安仮名文学作品を中心に,古典の形態素解析の現状と問題点,今後の可能性について述べる。

「統計的機械学習を用いた歴史的資料の表記整理支援」岡 照晃 (奈良先端科学技術大学 大学院生)

生の歴史的資料の中には,濁点無表記や仮名遣の不統一,送り仮名の不徹底,踊字による省略表記といったように,表記のバリエーションが多く含まれている。表記のバリエーションは,可読性・検索性を下げるため,歴史コーパス整備の際にはその表記を整理する作業が行われる。しかしながら,表記整理は専門家にしか行えないため,作業人員の確保が大きな課題となっている。また,作業対象が膨大であるため,作業を完了するまでにも時間がかかる。
本発表では,統計的機械学習を使った表記整理作業を支援する試みについて述べる。主として,これまでに行なってきた近代文語論説文を対象にした濁点の自動付与について解説を行う。

「米国議会図書館蔵『源氏物語』の全巻翻字本文公表と原本画像の一部公開」高田 智和 (国立国語研究所 理論・構造研究系 准教授)

米国議会図書館蔵『源氏物語』写本の全巻翻字本文のWeb公表と,研究者向けではなく,原本で古典を読みたい一般や,変体仮名の学習者向けに設計した原本画像公表について述べる。

「文字表記資料としての米国議会図書館本源氏物語」斎藤 達哉 (専修大学 教授)

平成22年から24年度にかけて,室町末期から江戸初期の仮名資料である米国議会図書館本「源氏物語」写本の調査に参加してきた。この調査の成果としては,電子テキストに翻字したものが,国立国語研究所からウェブ公開されている。調査では,翻字データのほかに,一部の異体仮名の字母のデータ化も行ってきた。発表では,異体仮名【八】【盈】についての調査結果を報告し,表記の関係を考察するとともに,文字表記資料としての可能性について述べる。