「通時コーパス」シンポジウム2020

新型コロナウィルス感染拡大予防のため中止となりました。

主催
国立国語研究所共同研究プロジェクト 「通時コーパスの構築と日本語史研究の新展開」
リーダー : 小木曽 智信 (国立国語研究所 言語変化研究領域 教授)
共催
国立国語研究所共同研究プロジェクト 「現代語の意味の変化に対する計算的・統計力学的アプローチ」
リーダー : 持橋 大地 (統計数理研究所 数理・推論研究系 准教授)
科研費 基盤研究 (A) 19H00531 「昭和・平成書き言葉コーパスによる近現代日本語の実証的研究」
研究代表者 : 小木曽 智信 (国立国語研究所 言語変化研究領域 教授)
開催期日
2020年3月13日 (金) 10:00~16:30
開催場所
立川総合研究棟 (国立極地研究所,国文学研究資料館,統計数理研究所) 2階 大会議室 (東京都立川市緑町10-3)
アクセス
研究棟案内

一般参加可,参加無料,事前登録不要

プログラム

10:00~11:40 口頭発表 (大会議室)

  • 「『日本語歴史コーパス』ver.2020.3 通時コーパス構築進捗報告」
    小木曽 智信 (国立国語研究所)

    『日本語歴史コーパス』の2020年3月の公開バージョンでは,新たに「奈良時代編Ⅱ宣命」として続日本紀宣命が,「江戸時代編Ⅲ近松浄瑠璃」として近松の世話物浄瑠璃24作品が公開される。いずれのサブコーパスでも同一箇所に多重の単語情報を付与する「多重形態論情報」機能を活かした検索を可能にしている。このようなコーパスの最新の構築状況や今後の計画について報告するほか,プロジェクト外でのコーパス構築の支援やコーパスへのアノテーション共有のための取り組みについて述べる。

  • 「近現代における副詞の仮名表記化」
    髙橋 雄太 (国立国語研究所 / 明治大学大学院生)

    本研究では,近代語の雑誌コーパスと,昭和・平成の雑誌コーパス (未公開) を用いて和語の副詞の仮名表記化の過程を分析する。副詞の仮名表記化については,「当用漢字表」 (1946年) などの国語政策の影響が強いことが指摘されるが,コーパスを用いて副詞の仮名表記化の過程を観察すると,「当用漢字表」施行後に仮名表記化が急に進行する語もあれば,「当用漢字表」施行前に仮名表記化がおおよそ完了する語もあるなど,語によって異なることがわかる。本研究では仮名表記化の時期や緩急によってパターンを分類し,分類毎の語彙的・表記的特徴を考察する。また,国語政策の有無によって,副詞の仮名表記化への影響に有意差があるのかを,統計的な検定によって測る。

  • 「近世近代における「あて字」と熟字訓 ―人情本の漢字表記を中心に―」
    銭谷 真人 (日本学術振興会特別研究員PD)

    人情本の漢字表記においては「息災 (たっしゃ) 」や「弱官 (わかうど) 」など,字音や字訓に基づかない種々の「あて字」が見られる。これらの「あて字」であるが,現在一般的に用いられている「白粉 (おしろい) 」や「時雨 (しぐれ) 」のような熟字訓として,当時は通用していたことも考えられる。人情本コーパスを用い,「小児 (こども) 」や「侍女 (こしもと) 」など,複数の人情本において使用が確認されているものについて,現在一般的に用いられている表記 (子供,腰元) との出現回数の比較を行い,その可能性を検証する。さらにそれらの表記について,洒落本コーパスおよび太陽コーパスを用いて同様の調査を行い,その発生と伝播についても考察を加える。

  • 「中世アスペクト体系の変遷」
    野村 剛史 (東京大学名誉教授)

    古代から中世にかけて,日本語のアスペクト体系は,「古代」< (動詞の) 不完了相 (無標形) >⇔<「動作性完了相,ツ・ヌ」↔「状態性完了相,タリ (リ) 」>のような体系から,「中世」<「動作性不完了相 (無標形) 」↔「動作性完了相,タリ (タ) 」>⇔<状態相,テアル・テイル>のような体系に移行した。今回は特に,「たり」が次第に「つ・ぬ」を凌駕してゆく様相,及びその過程が,タリの「状態辞」から「完了辞」への移行に相関していることを示す。「源氏物語」「今昔物語集」「宇治拾遺物語」「平家物語延慶本」「平家物語覚一本」「太平記」「天草本平家物語」などのコーパスを使用する。

11:40~12:40 ポスター発表

  • 「叙述語から見た平安鎌倉時代の文学作品の文体類型」
    大川 孔明 (東北大学大学院生)
  • 「同音衝突と類音牽引 ―庄川流域における「桑の実」と「燕」の方言分布と変化―」
    大西 拓一郞 (国立国語研究所)
  • 「『日本語歴史コーパス奈良時代編Ⅰ万葉集』から『オックスフォード・NINJAL 上代日本語コーパス』『万葉集校本データベース』へのリンクについて」
    小木曽 智信 (国立国語研究所)
  • 「国語教育用UI「ことねり」の開発と活用」
    小木曽 智信 (国立国語研究所),河内 昭浩 (群馬大学)
  • 「『日本語歴史コーパス江戸時代編Ⅲ近松浄瑠璃』の公開に向けて」
    片山 久留美 (国立国語研究所)
  • 「上代日本語の疑問詞の位置 ―オックスフォード・NINJAL 上代語コーパスに基づいた研究」
    ケーレン・チャン (コーネル大学学部生)
  • 「『日本語歴史コーパス 奈良時代編Ⅱ宣命』の公開に向けて」
    呉 寧真 (国立国語研究所),池田 幸恵 (中央大学),須永 哲矢 (昭和女子大学)
  • 「特徴語から見る明治・大正期の会話文の位相差」
    近藤 明日子 (国立国語研究所)
  • 「明治初期小学校理科教科書の語彙」
    田中 牧郎 (明治大学),髙橋 雄太 (国立国語研究所 / 明治大学大学院生),仲村 怜 (国立国語研究所 / 明治大学大学院生)
  • 「近代日韓両国語における字順逆転語の様相と現代語への変化」
    張 元哉 (啓明大学)
  • 「国定教科書における口語文 ―明治・大正期の口語文典と比較して―」
    服部 紀子 (国立国語研究所)
  • 「『万葉集』と「八代集」に見られる地名の分布とその傾向」
    松崎 安子 (国立国語研究所)
  • 「近代の新聞・雑誌に見られるルビの実態 : 形態論情報アノテーションとの関わり」
    間淵 洋子 (国立国語研究所)
  • 「日本古辞書研究資料の利用について ―和名類聚抄と日本語歴史コーパスとの連携を例に―」
    劉 冠偉 (北海道大学大学院生 / 日本学術振興会)
  • "Tense and temporal reference in Early Middle Japanese"
    Federico Manglavite (Graduate Student, University of Oxford)
  • 12:40~14:00 休憩

    14:00~16:30 テーマセッション (大会議室)『統計と日本語史研究』

    コーディネーター:持橋 大地 (統計数理研究所)

    • 「平安時代の文学作品における『源氏物語』の特徴語の抽出―『日本語歴史コーパス 平安時代編』を用いて―」
      土山 玄 (お茶の水女子大学 文理融合AI・データサイエンスセンター)

      『日本語歴史コーパス 平安時代編』には『源氏物語』などの物語文学が8作品,『土佐日記』などの6作品の日記文学が含まれている。そこで,本発表ではこの『日本語歴史コーパス 平安時代編』を使用し,他の13作品に比べ『源氏物語』に偏って頻出する単語,すなわち特徴語の抽出を試みる。抽出においては機械学習の手法の1つであるランダムフォレストを用いる。ランダムフォレストはデータを分類するための分析手法であるが,データを分類した際の変数の重要度を求められる。本研究ではこの変数重要度を用い『源氏物語』の特徴語を抽出する。このような計量的な分析を通じ,『源氏物語』における単語の出現傾向の特徴について検討を加える。

    • 「単語分散表現の結合学習による単語の意味の通時的変化の分析」
      相田 太一 (長岡技術科学大学学部生),小町 守 (首都大学東京),小木曽 智信 (国立国語研究所),高村 大也 (産業技術総合研究所 / 東京工業大学),坂田 綾香 (統計数理研究所),小山 慎介 (統計数理研究所),持橋 大地 (統計数理研究所)

      言語は時代とともに変化するものであり,現代社会においても,日々新しい単語が生まれている。既存の単語についても,ある単語が時間の経過とともに,全く異なる意味で使われる場合も少なくない。そこで,我々はまず従来の共起行列を用いた単語分散表現学習手法を拡張して,従来手法に多く見られた線形変換による対応付けを用いることなしに各時期の単語分散表現を同時に学習させた。次に,学習した分散表現を用いて単語ベクトルの通時的な変化を算出し,ベクトルの変化が大きい単語を中心に意味が変化したとされる単語を,言語学の側面から網羅的に分析した。

    • 「短単位の頻度列から見た古典文学作品の特徴」
      山崎 誠 (国立国語研究所)

      本発表は,『日本語歴史コーパス』の中古の文学作品を対象にして,文を構成する各短単位について,当該作品における出現頻度の値に置き換えた,「頻度列」を用いて,各作品の語彙の量的特徴,特に,ジャンルとの関係を探るものである。分析に用いた統計量は,文ごとの (相対化した) 平均頻度の分布,文頭と文末の短単位の頻度,各文における高頻度語列と低頻度語列の割合等である。文ごとの平均頻度の分布は,どの作品もほぼ正規分布を示したが,「古今集」と「枕草子」が低頻度の位置に分布の山が出来ているのが特徴的である。文頭と文末の短単位の頻度では,文末の低頻度語と高頻度語との割合から歌物語と作り物語が対照的な値を示すことが分かった。また,高頻度語列と低頻度語列の割合からも同様に,歌物語と作り物語とがそれぞれ近い値を持つグループとして分類された。これらのジャンルとの関係については,言語学的解釈などにおいて不明な点が多く,今後さらなる解明が俟たれる。

    • 「歴史的に見た日本語の文節長について」
      近藤 泰弘 (青山学院大学)

      日本語は,特に,述語文節において,長さが長くなる傾向がある。自立語動詞のあとに,ヴォイス・アスペクト・テンス・モダリティの助動詞が連接し,そのあとに各種の助詞がさらに連接する。理論的には十数個あるいはそれ以上の単語が連接する可能性がある。「動詞-られ-ぬ-べかり-し-なり-けり-と-なむ」など,どんどんと接続していく形が想定できる。コーパスでは,短単位の連接を容易に調べることが可能なので,それによって,通時的な文節長の推移や,実際の最大文節長 (単語数) を計算可能である。今回の発表では,歴史コーパスと,BCCWJ とを用いて,以上の問題についての記述と解釈を行った。その結果,現実的には,最大の文節長は10単語 (短単位) 程度に留まることが明らかになり,予想よりも小さい価であった。また,時代的に見ると,平安時代の方が短く,近代文語文などでは長くなる傾向もある。その他,古代語と現代語との短単位の性格の差などについても述べていきたい。