「コーパス日本語学の創成」研究発表会

プロジェクト名
コーパス日本語学の創成 (略称 : コーパス日本語学)
(語彙・文法・文体・歴史グループ)
リーダー名
前川 喜久雄 (国立国語研究所 言語資源研究系 系長,教授)
開催期日
平成24年10月21日 (日) 14:00~17:00
開催場所
国立国語研究所 2階 多目的室

発表概要

「BCCWJに対する節境界解析」丸山 岳彦 (国立国語研究所 准教授)

『現代日本語書き言葉均衡コーパス』 (BCCWJ) に対して「節境界解析」を実施し,自動的に「節境界ラベル」を付与した実験の結果について報告する。あるテキストに現れる節の終端境界を自動的に検出し,その形態的・文法的特性を表す「節境界ラベル」を付与する処理を「節境界解析」と呼ぶことにする。かつて『日本語話し言葉コーパス』 (CSJ) の構築過程では,自動的に付与された節境界ラベルをもとに発話分割処理が行なわれた。この考え方に基づき,現在,BCCWJ の短単位データベースに対して節境界ラベルを自動的に付与する実験を行なっている。本発表では,現時点における節境界解析の結果と問題点,応用の可能性などについて論じる。

「コーパスに見る複合 (格) 助詞の節性 (仮題) 」杉本武 (筑波大学 教授)

いわゆる複合格助詞は,従来より,格助詞とは異なる性格を持つことが指摘されることがあった。複合格助詞には,テ形節に由来するもの,また,「ために」のように連体修飾節が前接するようなものがあることから,ある程度,節としての性格を残していることが予想される。本発表では,コーパスの用例から,複合格助詞の前接要素,後接要素の出現傾向を単純格助詞と比較しつつ見ることによって,複合格助詞句には,節としての性格を持つものがあることを指摘する。

「和語や漢語のカタカナ表記 ―BCCWJ 収録の書籍テキストにおける使用実態―」柏野 和佳子 (国立国語研究所 准教授)

先行研究で新聞や雑誌においてカタカナ表記されやすいと指摘のある和語や漢語を対象にして,BCCWJ収録の書籍テキストを用いた実態調査について報告する。調査結果より,必ずしも書籍ではカタカナ表記率の高くない語もあり,表記傾向には媒体差のあることを明らかにする。また,カタカナ表記になりやすい語のタイプやケース別に使用実態を分析し,同じ語のタイプやケースによっても,カタカナ表記率の高い語とそうでもない語とがあり,表記の使用傾向は個々に吟味,分析が必要であるという点を捉える。つまり,表記情報というものは語別の情報であり,辞書に個々に記述すべきものであること,そして,大規模コーパスの用例分析から得られる個々の語の使用状況は,そのまま辞書の見出し語の表記情報の充実に役立つものであることを示す。