Webデータに基づく複合動詞用例データベース/利用者マニュアル

1.収録語

  • 複合動詞(動詞(連用形) + 動詞タイプ)
    • 主として,語彙的複合動詞を収録対象とする。
    • 統語的複合動詞の用法しかない複合動詞は,基本的に収録しない。
  • 収録される複合動詞を構成する動詞(以後,「構成動詞」と表記する)
  • いずれの動詞も,Web 上で一定量(後述)の用例を取得できる場合に限り,収録する。

2.語に付与される情報

2.1 付与情報

  • 表記: 当該の語の基本形とする。
  • 読み: 当該の語の基本形の読みを付与する。
  • 語構成情報: 前項と後項の表記と読みを付与する。
  • 用例: 当該の語を含む「文」を収録する。それぞれの用例には,次の情報が付与される。
    • 格要素情報: 用例中の当該語に依存する格要素を格助詞とペアで格納する。それぞれのペアは出現ページ数の情報を保持する。
    • URL: 用例を取得した Web ページの URL

2.2 実例

 
表記聞き出す
読みききだす
語構成情報聞く(きく) + 出す(だす)
格要素情報
(出現ページ数)
ヲ格情報(159)/話(67)/番号(59)/名前(37)/本音(33)/住所(31)/場所(31)/秘密(24)
カラ格人(15)/本人(11)/相手(9)/者(9)/男(7)/彼女(6)/彼(6)/こちら(4)/口(4)/子供(3)
デ格電話(7)/中(7)/会(5)
ニ格人(6)/中(5)/時(4)/前(4)
 

3.データベース構築の流れ

  • 構築は,次の二つの部分からなる。
    • 複合動詞部分の構築の流れ(下図「複 廖繊嵎」)
    • 構成動詞部分の構築の流れ(下図「構 廖繊峭臭Α)
  • それぞれの処理の詳細は,以下「4.収録語の選定」「5.用例と格要素」を参照のこと。
 
flow.png
 

4.収録語の選定

 複合動詞の構成要素として多用される構成動詞を「種動詞」として,次の手順で,収録語の複合動詞,構成動詞を漸進的に選定する。なお,種動詞は,野村・石井(1987)による構成動詞の頻度調査に基づき,「出す,合う,切る,掛ける,込む,取る,過ぎる,付ける,引く,上げる」の10語とした。

  1. 種動詞をキーとして,Web 検索し,種動詞を含む Web ページを収集する。
    • 収集量は,連用形,終止形をそれぞれ5000ページ収集する。
    • 収集方法は,Baroni,Bernardini (2004) の方法を基本とした。
  2. 収集した Web ページを形態素解析し,V1+種動詞,種動詞+V2 を抽出し,複合動詞候補とする。
  3. 複合動詞候補を人手で選別する。
  4. 収集した複合動詞をキーとして,Web 検索し,当該複合動詞を含む Web ページを収集する。
    • 収集量は,複合動詞ごとに2000ページする。
    • 収集方法は,Baroni,Bernardini (2004) の方法を基本とした。
    • 一定量以上の用例(今回は100例以上)が収集できた複合動詞を収録語とする。
    • 収録語の構成動詞は,種動詞となる。
  5. 決定した収録語の構成動詞(V1, V2)を種動詞として,1〜5を再帰的に実行する。
 
参考文献
  • 野村雅昭,石井正彦 (1987) 複合動詞資料集,科研費特定研究(1) 言語データの収集と処理の研究
  • M. Baroni and S. Bernardini (2004) "BootCaT: Bootstrapping corpora and terms from the web", Proceedings of LREC 2004

5.用例と格要素

5.1 収集方法

 用例は,Web データ集(「収録語の選定」の 1, 4で作成されるもの)から収集する。その際,用例は,当該動詞用に作成した Web データ集のみから収集している。また,それぞれの用例には構文解析・格解析を行い,格要素の情報を付与している。収集方法は,次のとおりである。

  1. Web ページ集を文区切りし,形態素解析する。
    • 文区切りは,句点相当文字(句点,!,?)の直後で分割し,個々の分割結果を用例とする。
    • 形態素解析は,JUMAN ver.6.0 を用いた。
  2. 収録語が含まれる文だけを構文解析・格解析(KNP ver.3.01)する。
  3. 収録語が格要素(副詞的な要素も含む)を持つ場合,用例とする。ただし,次のような用例はデータベースに登録しない。
    • 重複する用例(一つだけ登録する)
    • 格要素を持たない用例

5.2 出現ページ数

 Web データの性質を考慮して,用例,および,格要素は出現頻度ではなく,「出現ページ数」で計測する。使用する際は,次の点に注意されたい。

  • 前述のとおり,収集語ごとに Web データ集を構築し,用例も当該収集語の Web データ集のみから取得している。出現ページ数の計測も当該収集語の Web データ集のみから行っている。
  • まったく同一の用例は,複数の Web ページに出現していたとしても,出現ページ数1とカウントする。
  • ある格助詞・格要素のペアが同一の Web ページ内に複数回出現したとしても,出現ページ数1とカウントする。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2012-09-14 (金) 00:00:00 (2593d)