「情報発信のための言語資源の整備に関する研究」



研究実施計画の概要

これまで,国語教育,日本語教育,および外国語教育の各研究領域はそれぞれの事情から独立して研究が進められてきた感がある。しかし,今やこの3つの研究領域の理諭・方法論・知見を統合してより高度な学術研究の進展を図るとともに,一層実用的な言語教育方法を確立する時期にきている。そのための第1段階として,言語教育の実態を把握し,共通論議の基礎となる調査研究を行う。具体的には,日本の義務教育期の学校教育で行われている言語教育に根本的な調査・検討を加えることによって,言語教育の改善を図ること,次の学習指導要領の改善のために何らかの貢献をはたすことを目標においている。その改善の対象とする言語教育は,次に示すようにまとめることができる。
1)学校教育で行われている言語教育の改善
1学校教育で行われている国語教育
2学校教育で行われている日本語教育
3学校教育で行われている外国語教育

2)学校の各教科で使用されている言葉の改善
4他教科の教科書の言語表現
5教師の言葉遣い
教科としての「国語」は,明治以降100年に余る長年の蓄積・伝統に支えられている。それは長所にも短所にも働いている。その短所から言えば,学習内容がふくらんでいて,根本的な洗い直しを必要としているし,新たに加えるべき領域・項目もありそうである。その検討を行うためには,上記2種5類の言語教育の実態およびあるべき姿の探究が必要になるのである。




国際会議等においては同時通訳者を含む通訳・翻訳者が不可欠であるが,その養成体制は十分に整備されているとは言い難い。「同時通訳」とはなにか?どうしてこれが可能であるか? そのメカニズムを科学的に明らかにすることによって,通訳・翻訳技法の体系化を目指した研究を行う。また通訳・翻訳者の不足を補う機械翻訳システムの有効な利用法を探索する。




言語情報処理において重要な役割を果すのが,コーパスと称される機械可読の文章データである。ごく最近の資料については,書物を作成する際に機械可読化することが多く,わざわざコーパスを作成しなくても,既存のものを集めるだけですむことが多い。しかし古い文献になると人手で入力する以外に方法がない。そこで近代日本語の重要な資料として,総合雑誌『太陽』(1895~1928)および『英華字典』(1866~1869)のコーパス化がわれわれの当面の目標となった。『太陽』は生の文章データ,『英華字典』は英語と中国語の対訳辞書と,それぞれ性格を異にしている。『太陽』は日本における出版マスプロの先駆であり,政治・経済・社会・科学・文学等あらゆる分野にわたって時代をリードするものであった。また幕末から明治にかけて流入した外国語とその訳語は,近代日本語,特にその漢語(漢字文字連結により表記する日本語)の語史・語彙研究上,重要な言語資料である。それらの訳語の成立には,中国における漢訳の成果が不可欠だったのであり,その意味で『英華字典』の資料価値は大きい。

日本語が今後どのように変りうるか,またどうなるのが自然の理にかなうのか,不変の部分は何かということを知るためには,時期的変遷についてのデータが必要である。漢字を含めた文字の頻度・用法などの表記問題から始まって,語の意味用法の時期的変化と内容(記事の種別)による差異などを調べることが本研究の目的である。本研究は,文字による歴史的言語資料をコンピュータ・データ化する際に,いかなる問題があり,いかにその障礙をクリアすべきなのか,そのデータをいかに活用すべきか,いかに活用することができるのか,といった視点でおこなう実験的研究である。



現在,JIS X0208 をはじめ各国語を統合することを目的にISO/IEC 10646-1 や拡張UNIXコードが情報交換用漢字符号として使用されている。しかし,これらの漢字符号は,一般文章を符合化することを目的に制定されたため,古典・漢籍や大規模の漢字字典を符号化する充分な文字種や保存機能をもっていない。一方,東アジア漢字使用国には,人類の遺産として未来に継承すべき膨大な文献・資料が蓄積されている。これら,文献・資料・辞書を電子化し,長期間安定した状態で保存するためには,新たな漢字符号を開発することが必要である。

本研究は,東アジア漢字使用国で蓄積されているこれらの文献・資料を電子化できる構造をもった4バイトコードを開発し,効果および活用法について検討を行なうことを目的とする。構造をもった4バイトコードに対する検討事項は,(1) 漢字符号に構造を導入する方法は,文字と符号に対する規範の実現方法,(2) 正字と異体字の関係を同一符号で表現する方法,(3) 中国・台湾・日本・韓国語に対する多言語化を指向したと漢字符号の開発と既存の漢字符号との併用方法,(4) 文字集合の全体と部分に関する規定方法,(5) 文字の利用実態の変化の履歴を漢字符号に記録する方法の検討の5点である。




ホームページ / インデックス / 戻る