新プロ「日本語」日本語観国際センサス
これからが勝負
統計数理研究所名誉教授
新プロ「日本語」企画推進委員
林 知己夫
新プロ「日本語」もそろそろ終りに近づいた。12月16,17日に行われ
た研究発表もその感じを伝えている。だが,少なくとも日本語観国際
センサス班の仕事は,実のところ,やっと始まったばかりで,これか
らが正念場である。ここを理解していただかないと本当の成果は出て
くるものではない。12月16日に発表されたことは,ほんの序の口なの
である。
「これだけの調査がデータベースとなるための準備作業」と「出来上 がったデータベースをデータ科学の方法を駆使して分析し,宝物のよ うな情報を探し出したり,紡ぎ出したりすること」はこれからの仕事 なのである。地道な苦難に堪える努力を温かく見守って欲しいもので ある。 調査はどこの国でも統計学の教科書に書いてあるような正統な方法で 出来ているわけではない。これに固執すれば調査できる国はほとんど なくなってしまう。どこまで許容できるかを科学的に明確にしなくて はならない。 調査が出来上がったから仕方がないというのでは,科学にならない。 どのような方法で出来上がったのかをまず報告書から評価しなくては ならない。このような報告書の記述を見ただけでは一般的にその本当 の姿を理解し尽くせるものでないことは,私の経験からよく解る。幸 いにして,研究者が現地に出張して廻っているので,その知見と報告 書とを突き合わせれば解ってくることも多かろう。それでもなお理解 できない所はさらに詳しい手続きを問い合わせる必要があろう。こう して,調査の実態をまず明らかにしておくことが大事である。これが, 比較可能性を確かめる第一歩である。このようにして,どの国とどの 国をきちんと比較できるか ―比較の目の粗さも含めて― を知ること が出来るのである。 性別,年齢別,学歴別などは,全体はもとより層別してどの程度差の あるものかをはっきりさせておく。国全体としては国連統計などとの 突き合わせも必要となろう。ランダムサンプリング(或いはランダム サンプリングらしいもの ―標本抽出の最後の段階のランダム性の確 保が不十分なもの―)してあるものでは,その精度のオーダー位はつ かんでおく必要があろう。地域間の誤差の大きいと思われる所は,個 人間の誤差より遙かに大きくなるので注意する必要がある。この段階 では,非ランダム性による歪みの問題の評価などの検討も重要である。 |
これが一応出来上がったら,質問文の再翻訳による質問の同一性の検
討に入る。これが異なれば,比較の議論にはならない。このようなこ
とを言ったからといって,今になっていたずらに難題を吹きかけてい
るわけではない。どの程度の,どの位の目の粗さの議論をするかの見
当付けの重要性を言っているのである。回答に5%差があるだの10%
差があるだののことは恐らく二の次であろうと思っているのである。
データの構造から何を読みとるかの見極めをここで確認する必要性を
強調しているのである。
ここがすめばデータベースの作成となる。それぞれの国別のデータベ ースと同時に比較のためのデータベース ―共通ファイルとするのが 便利である― が必要となる。この両者の差異を明確に表現しておく 必要がある。各国別の調査票は母国語,英語訳,日本語訳,オリジナ ルの日本語で表現しておくのが基本でそのほかいくつあってもよい。 共通ファイルの調査票も同様であろう。この二つの調査票に差のある ときは,それを明確に記述しておくことが不可欠である。比較のため に共通ファイル化されたデータベースには,「比較の目の粗さ」に応 じて幾種類のものもありうる。精密を要求すれば少しの国になり,大 雑把でよければ国の数が増えることになる。これをきちんと表現して おけば「誤りなきデータベースの利用」のための基本となるのである。 闇雲のデータ公開は世界に誤解,不要・不毛の論争を巻き起こすこと になり,いわば文化的罪悪である。 ここが出来上がって始めて分析ということになる。焦ってはいけない。 倦まず弛まず一歩一歩地道に研究を築き上げることである。センサス 班の新プロ「日本語」はこれからなのであり,これが完成される頃に, 新・新プロ「日本語」第2回日本語センサスの企画が始まることになろ う。 (はやしちきお,統計数理) |