研究班4:情報発信のための言語資源の整備に関する研究



木村チーム「日本語コーパスの作成とその活用」

田中牧郎(国立国語研究所)

 日本語のコーパス作成は,三,四十年前から行われているが,古典語や現代語に比べて,明治から昭和初期にかけての文献のコーパス作成は,遅れていた。木村チームでは,その部分を埋めるようなコーパス作成,コーパス作成の方法論の研究,さらに,作成したコーパスに基づいた言語研究を目標とした。対象資料に選定したのは,総合雑誌『太陽』と『英華字典』の二種であり,それぞれ,国立国語研究所国語辞典編集室と,言語変化研究部第二研究室が担当した。
 総合雑誌『太陽』は,1895(明治28)年から1928(昭和3)年までに刊行された総合雑誌で,幅広いジャンル,豊富な執筆陣,多数の読者をもっており,当時を代表する言語資料として一級のものである。この資料に対しては,国語辞典編集室の「国語辞典編集のための用例採集」の一環として,任意選択(スカウト)方式によって用例抽出が行われており,コーパスを作成することによって,抽出された用例に文脈が付与できるようになることも,狙いとされた。この事業には,編集室本来の予算と新プロ予算との両方が投入されている。対象とした号は,1895,1901,1909,1917,1925年の各12冊と,1928年(2号で終刊)の2冊,合わせて62冊である。これらを機械可読化する作業を進めると同時に,コーパス作成方法,コーパスを利用した研究として,次のような研究報告を行った。

 ・原資料の漢字をJISコードの漢字によって入力するための,漢字の同定規準の検討と策定(新プロ報告書「『太陽』コーパスの作成と活用」平成9年3月,「『太陽』コーパスの漢字処理」平成11年2月)
 ・エントロピーの計算(新プロ報告書「『太陽』コーパスの作成と活用」平成9年3月)
 ・ルビの出現状況(「『太陽』本文におけるルビの調査」平成11年3月,新プロ『研究論文集』2所収)





「多国語を統一する情報交換用4バイトコードの研究」
-5年間の成果-

斎藤秀紀(国立国語研究所)

 情報交換用漢字符号JIS C6226 は,1978年に日本工業規格として日本語による情報交換を円滑に行うための規格として制定された (1987年3 月にJIS X0208-1983) 。しかし,一般国語の表記や情報交換用に作られたJIS X0208 は,大規模の漢和辞典や古典・漢籍を符号化するための文字集合を規定していない。また,JIS X0208は,連続番号を使用したことも,文字の追加に対して規範の維持を困難にした。
 ISO/IEC 10646-1についても同様の問題がある。 ISO/IEC 10646-1は,中国・台湾・日本・韓国語の漢字に対して「字形統合」と,「ソースコード分離」を併用し,各国漢字を識別する機能を与えていない。ISO/IEC 10646-1が,識別符号を規定しなかったことは多言語機能を不完全にし,二つの規則の併用は異体字に対する符号化基準を曖昧にした。
 本研究では,これらの問題を解決するため,設定する機能を構造の要素と構造および構造間の関係を使い4バイトコードで表現した。漢字符号に設定する単位機能は,漢字処理の運用面で確定した機能やJIS X0208に追加すべき機能の候補を基に決定した。単位機能は,構造の要素に対応させ,要素を結合して論理符号を作った。論理符号と既存の漢字符号との間には,論理符号を上位とする階層関係を設定し,符号空間の拡張と適正規模の文字集合による処理の効率化など,相反する機能を一つの符号に実装した。2バイトコードを2個組み合わせて4バイトコードを作り,8,836字を単位とする94個の領域と4バイトコードの併用を可能にした。
 さらに,論理符号は,データベースによる編成方式や内部符号からの独立と,符号化情報の一元的な管理を行うため,情報規定と符号規定に分け,それぞれを3層化した。情報規定の3層表現は,(1)データベースで規定した情報を,(2)転置リストに展開し,(3)この2項対を論理符号とした。漢字符号は,(1)論理符号の下位構造に,(2)最大94個の既存の漢字符号をおき,(3)4バイトコードに投影した。二つの符号間には,符号変換を認めた。また,論理符号は,3 バイトと1 バイトに分け,見出し漢字と,異体字や各国漢字の集合を配当する1字体1符号表現を行った。論理符号の1バイト部には,符号間に文字を追加する機能を持たせた。論理符号は,諸橋轍次編「大漢和辞典」で規定した見出しに付けられた10進数5 桁の検字番号を基に作成した。
 属性情報に対する符号化処理は,データベースや漢字辞書に記録されている漢字の読み・画数・部首・国名情報と対応する漢字の対を転置リストに展開し,この2項対を論理符号とした。これらの情報は,転置リストに展開することによって,漢字と,異体字および属性情報は,4バイトコードで統一表現できることを示した。提案した方法は,コンピュータ処理で確認した。





「放送通訳の研究」

放送通訳の話す速度の研究(96,97年度)

木佐敬久(NHK放送文化研究所)

「放送通訳の日本語」の具体的な調査には,ビデオを視聴して,その場で答えるという方法が必要である。96年度と97年度の2回,ビデオによる視聴者の反応調査を行った。

Ⅰ.調査方法
(1) 放送通訳には,①同時通訳,②時差通訳(ビデオを何回か見て準備できる)の違いがある。調査では,②時差通訳を対象とした。
(2) 英日(英語→日本語)の放送通訳を対象とした。題材は,CNNとABCのニュース。
(3)
メリカのニュースでは「読みニュース」はほとんどフラッシュニュースである。
フラッシュ……15秒~30秒程度のニュースを,何本か連続して伝える。
          原語の話し手は1人。通訳は1人。
談話入りニュース…1分50秒以上の長いものが多い。通訳は基本的に1人だが,原語の話し手は,キャスター,リポーター,専門家など複数。
(4)被験者
  第1回調査(97年2月,151人)と第2回調査(98年2月,154人)の2回,都内で行った。被験者の年代は20代から60歳以上まで。
(5)調査ビデオ
新規吹き込みの通訳者は,さまざまな速度の通訳者がそろうように選んだ。
 第1回調査……5人。うち男性1人。
 第2回調査……6人。全員女性。ほかに,女性アナウンサー1人も参加。

Ⅱ.アナウンサーの読みニュースの速度
 話す速度は,ふつう分速(拍/分)で表す。拍は日本語音節の単位で,俳句は17拍。
 90年代のテレビニュースの速度は,440~490拍,平均465拍程度。

Ⅲ.調査結果
 具体例を1つだけ挙げておく。同じフラッシュ,同じアナウンサーで,訳量が「大」 「中」「小」の「速度感」。

速度(訳出率)かなり速いやや速い適   度ややゆっくり
大515拍(86.7%)36%55%9%0%
中475拍(79.2%)3359
小436拍(71.9%)245420

    *アナウンサーの平均速度465拍付近以下が,放送に適した速度である。

速度が500拍以上は「聞きにくい速度」,450拍以下は「聞きやすい」速度。
放送通訳は一般ニュースよりも厳しい条件に置かれているため(原語が聞こえている,など),アナウンサーの平均速度(465拍)をなるべく上回らないことが必要。
「速度感」はトーク速度をほぼ正確に反映する。通訳者やニュースが違っても,トーク速度が等しければ,「速度感」もほぼ等しい。速度以外の要素の影響はかなり少ない。
通訳ニュースに対する「接触者」「非接触者」の差,年層差はあまり見られない。
「聞きやすさ」もかなり「速度」に対応している。
「わかりやすさ」は「聞きやすさ」と同程度になることが多い。
ニュースによる速度の違いは,「談話ニュース」のほうが「読みニュース」(フラッシュ)よりも大きい。
  フラッシュ(全訳)………601拍~540拍(5本)
  談話ニュース(全訳)……630拍~499拍(9本)
全訳はいずれもアナウンサーの速度の上限(490拍)を超えており,放送に適さない。
「適切な訳出率」は元の英語ニュースの速度に左右される。
フラッシュでは465拍(アナウンサーの平均速度)以下,訳出率は80%が目安。
談話ニュースでは450拍以下が望ましく,適切な訳出率は75%が大体の目安である。
ボイス速度(発声部分の速度)は,1分間に600拍(0.1秒で1拍)弱が普通。
意味の大きな区切りで十分にポーズを取っている通訳は,視聴者の評価が高い。
英語のシラブルと日本語の拍との関係は,1シラブル=1.8拍程度,と推定される。



ニュースの英語放送通訳の研究(98年度)

柴田 実・最上勝也・塩田雄大(NHK放送文化研究所)

 在日外国人と2か国語放送との関係を知るために,グループインタビュー(対象者14 人)を行なった。ここでは,2か国語放送とふだんどのように接しているか,またこの調 査用に作成した2か国語ニュースを視聴させてどのような反応が得られるかを調べた。
 また,在日外国人と2か国語放送とが現在どのような関係にあるのかを計量的に把握す るために,在日外国人に対して質問紙による調査(有効回答数218件)を行った。ここ では,2か国語放送とふだんどのように接しているか,2か国語放送に望むものは何か, などといったことを質問した。この結果,「現行の2か国語放送(英語)には,英語とし て不自然な表現もみられるが,2か国語放送に求めているのは“英語らしさ”ではなく“内容”なので,現行のものである程度満足している」という視聴者像が描かれた。





教育チーム「日本人及び外国人に対する言語教育の統合的研究」
これまでの活動を振りかえって


柳澤好昭(国立国語研究所)

 新プロ第4班教育チームでは,初等中等教育における言語教育に関する意識調査,外国の学習指導要領に相当するものとの比較研究,初等中等教育機関における教室コミュニケーションの様相に関する研究,教科書の言語表現に関する研究,日本語の基本語彙に関する文献研究などを通じて,国語科をはじめとして教科学習における国語教育の問題や外国人児童生徒に対する日本語教育の問題を追究してきました。また,これまで多くの方々と研究会や国際シンポジウム専門部会などにおいて言語教育について論議してきました。
 例えば,国内外の学習指導要領に関する研究では,英国とオーストリアのものを比較し,児童生徒の学習活動のとらえ方,活動の位置付けや内容,活動の体系化,文化と教育との関係といったことについて検討を行いました。教室活動でのコミュニケーション能力育成に関する研究では,生徒と先生との間のコミュニケーションを場面と指導内容・方法,生徒の理解とコミュニケーションへの態度といったことについて,小学校の算数の授業などでの事例研究を行いました。教科書の言語表現に関する研究では,国語科の教科書での「気持ち」といった情意的なことについての表現とその指導,他教科の教科書の語彙や表現の選択などについて検討しました。外国人児童生徒の日本語習得については,中学校の教科理解を支援する活動を通じて,言語習得の事例研究を行いました。意識調査は,学校教育における言語教育の役割について社会一般の方を対象に行いました。また,基本語彙研究文献の研究において,基本語彙選定の観点や結果の相違について分析をしました。
 これまでの研究活動を通じて得られた知見や情報を活用しての研究会や専門部会では,知識としての言語と能力としての言語とをどのようにとらえるかについて,幅広い意見があることが分かりました。平成10年度に教育課程審議会答申が出ましたが,コミュニケーション能力をどうとらえるか,その育成の方法はどうするのかといったことに寄与する資料や情報を提供し,言語教育の改善や新たなる観点や方策を見出すことに資することができればと考えています。現在,最終報告書をまとめているところです。これまで得られた知見は,この報告書や国立国語研究所ホームページを使って公開していきたいと思います。 なお,1998年8月17日に教育チームの協力者であり,子どもの言語教育について精力的に活動されてこられました太田垣明子氏がご逝去されました。謹んでご冥福をお祈り申し上げます。


ホームページ/ インデックス/ 前ページ/