ここでは,さまざまな研究成果のうち,代表的なものをいくつか紹介しましょう。
語彙調査:基礎の確立と計量国語学への展開
国立国語研究所では,国民の言語生活に大きな影響を与えるマスメディアや教科書での言葉の使われ方の調査,いわゆる「語彙調査」を行ってきました。
最初の語彙調査は,女性向けの雑誌を対象とした研究です。
昭和25(1950)年に発行された『主婦の友』と『婦人生活』を調査対象として,全体の15~16%にあたるページを対象に延べ20万語を選んで,言葉の使われ方を分析しました。これらの雑誌を選んだのは,日常の家庭生活用語,特に衣食住に関する語彙について分析しようと考えたからです。この調査では,データを選び出すのに進んだ統計的技術が用いられており,のちの語彙調査の手法の基礎が築かれました。
雑誌を対象とする語彙調査はその後も継続され,総合雑誌16種類(昭和28・29(1953・1954)年発行分)を対象にした調査,さらに一般雑誌90種類(昭和31(1956)年発行分)を対象にした調査,と進んでいきました。
とくに規模の拡大という面で画期的な「雑誌九十種」の調査は,単にデータ数が多いだけではなく,取り組んだ時期の早さ,群を抜くデータの統計的精度など,世界的に見ても先駆的な研究成果です。
このような語彙調査は,大型電子計算機を導入して語彙データの分析を開始したことによって,さらなる展開をします。
昭和41(1966)年から,新聞(昭和41年発行の朝日・毎日・読売各紙)を対象にした語彙調査が行われました。この時,当時は理工系の研究所でも珍しかった大型電子計算機を導入して語彙データの処理を開始しました。この取り組みによって,データ量が増えたのはもちろん,さまざまな計量的分析や,文脈付き用例集(KWIC)作成システムの設計など,多くの新しい研究手法が生み出されました。こうして,国語研を中心に,計量国語学という研究分野が確立していきます。
雑誌の語彙・漢字調査の伝統は受け継がれ,平成13~17(2001~2005)年には一般雑誌70種類(平成6(1994)年発行分)を対象にした「現代雑誌200万字言語調査」が実施されています。
語彙調査の総合的な成果の一つに,『分類語彙表』があります。シソーラス(類義語辞典)の草分け的存在として,昭和39(1964)年の刊行以来,幅広く利用されました。平成16(2004)年に増補改訂版を刊行しました。
平成16(2004)年,通信総合研究所(現・情報通信研究機構)および東京工業大学と5年間にわたる共同研究を行い,大規模な話し言葉のデータベースを構築しました。このデータベース「日本語話し言葉コーパス」は752万語を収めた,質量共に世界最高水準のものです。
また,平成23(2011)年には,約1億語からなる日本語では最大規模の均衡コーパス「現代日本語書き言葉均衡コーパス」を公開しました。