「近代語コーパス設計のための文献言語研究」共同研究会 概要
- プロジェクト名
- 近代語コーパス設計のための文献言語研究 (略称 : 近代語コーパス)
- リーダー名
- 田中 牧郎 (国立国語研究所 言語資源研究系 准教授)
- 開催期日
- 平成22年7月4日 (日) 13:00~17:00
- 開催場所
- 国立国語研究所 2階 セミナー室
発表概要
「コーパス設計のための近代語文献リストについて」田中 牧郎 (国立国語研究所 准教授)
「近代語コーパス」の設計にあたっては,「通時コーパス」と「現代日本語書き言葉均衡コーパス」との間を接続させること (接続性) と,近代語を代表できること (代表性) とが特に重要であるが,この二つの性質を満たす文献選定のあり方を考えようとした。
具体的には,国立国語研究所がかつて作成した「ベストセラー目録」及び「主要文学作品目録」をデータベース化し,これに「明治文化全集」等の既存の叢書に収録されている文献を加えた「近代語文献リスト」を作成し,時代・文体・ジャンル・媒体・著者などの観点から概観し,文献選定の方法を論じた。
「使用漢字における経験的重みづけと度数調査
―東京築地活版製造所四號五號活版摘要文字鑑と太陽コーパス―」高田智和 (国立国語研究所准教授)
近代の印刷資料の文字量を測るための目盛りについて検討した。方法として,既存の文字コードセットの目盛りを利用する方法,近代の活版印刷の文字セットを利用する方法の2種を取り上げた。前者では,太陽コーパスの「外字」を例に,現状の太陽コーパスが準拠している JIS X 0208 のほか,JIS X 0213 と Unicode4.0 とをあてはめた場合のカバー率を測定し,JIS X 0213 文字セットではのべ字数の77.7%,Unicode4.0 ではのべ数の95.3%をカバーするとの結果を得た。後者では,太陽コーパスが準拠する JIS X 0208 と,東京築地活版製造所の『四號五號活版摘要文字鑑』とでは,漢字字体の粒度に違いがあることを指摘するとともに,近代の印刷資料の文字量を測るためには,既存の文字コードセットよりも,近代の活版印刷の文字セットを目盛りとして利用する方法が妥当ではないかと提案した。
「蘭学資料にみえる三字漢語 ―明治期の三字漢語とのつながりを求めて―」朱京偉 (国立国語研究所 客員教授 / 北京外国語大学 教授)
明治初期の資料で三字漢語の様子を調べてみると、人文科学系と自然科学系を問わず、現代日本語で行なわれているような造語パターンがすでにできあがっていたとみられる。その最大な特徴は、後接一字語基を軸に種々の二字漢語と結合することによって、多くの三字漢語を造り出しているところにある。
このような事実をふまえて、三字漢語の語構成パターンがいつ、どのようにできたかという問題を解明しようとすれば、さらに時代を遡って、幕末・明治初期の英学の前身にあたる蘭学資料を調べなければならない。
本発表の目的は、複数の蘭学資料を対象に、三字漢語の形をもつ用語を最大限に抽出して、その語構成パターンや語の性質を明らかにすることである。