国立国語研究所 〒190-8561 東京都立川市緑町10-2 Tel. 0570-08-8595 (ナビダイヤル)
© National Institute for Japanese Language and Linguistics
CEJCには、研究用付加情報(アノテーション)として、形態論情報(短単位・長単位)、係り受け情報、談話行為情報、韻律情報が付与されています。これら複数の情報に関わる分析を効率的に行うためには、各種情報を相互に関連付けて表現したデータが必要です。そこで、各種情報を相互に関連付けて表現したリレーショナルデータベース(CEJC-RDB, SQLite版)を新たに作成しました。
CEJCの有償版契約者は【ダウンロードサイト】から入手することができます。
CEJC-RDBでは、談話中の要素を記述する複数の単位(セグメント)と、単位間の関係を記述するリンクによって、アノテーションを一般的に表現しています。各単位は、右図のように層化されており、単位ごとに別々のテーブルで関連情報が表現されています。このテーブルをセグメント・テーブルと呼びます。また、親子(先祖・子孫)関係にある2つの単位間の対応関係も、それぞれテーブルの形式で表現されています。これを親子関係テーブルと呼びます。
セグメント・テーブルは、上図の各単位ごとに、談話中の要素を記述したテーブルです。すべてのセグメント・テーブルに共通する情報として、会話ID、各単位のID、単位の開始時間、単位の終了時間、話者IDがあります。これらの共通情報に加えて、各単位に固有の情報(例えばアクセント句であれば句末音調など)が記されています。図2は、節単位と文節のセグメント・テーブルの例です。
親子関係テーブルとは、上図に表された階層関係に従って、単位間の親子関係をIDの対で表現したものです。例えば、下図のように、セグメント・テーブルとして「発話単位テーブル」とそれに対応する「文節テーブル」があるとします。発話単位と文節は親(先祖)と子(子孫)の関係にあるため、両者の間の対応関係を表現した親子関係テーブルが提供されます。
この親子関係テーブルを用いることによって、例えば、発話単位の最後の文節の継続長を取り出したり、10個以上の文節から構成される発話単位を取り出す、といった検索ができます。他の単位間の親子関係も同様に記述されているため、例えば発話単位の最後の短単位が属するアクセント句の句末音調が上昇調のものを抽出する、といった検索もできます。
セグメント・テーブル、親子関係テーブルの他に、非整列セグメントテーブル、関連テーブル、リンク・テーブル、メタ情報テーブルがあります。CEJC-RDBの全体の構造は次の通りです。
各テーブルの詳細については【こちら】をご覧ください。