Webデータに基づく複合動詞用例データベース/利用者マニュアル/収録データ
をテンプレートにして作成
開始行:
[[Webデータに基づく複合動詞用例データベース/利用者マニュ...
//&size(25){&color(red){本ページは構築中です};};
//#br
* 1.収録語 [#yc2a73fb]
- 複合動詞(動詞(連用形) + 動詞タイプ)
-- 主として,語彙的複合動詞を収録対象とする。
-- 統語的複合動詞の用法しかない複合動詞は,基本的に収録し...
- 収録される複合動詞を構成する動詞(以後,「構成動詞」と...
- いずれの動詞も,Web 上で一定量(後述)の用例を取得でき...
* 2.語に付与される情報 [#j070c2d9]
** 2.1 付与情報 [#s8fdf8c3]
- 表記: 当該の語の基本形とする。
- 読み: 当該の語の基本形の読みを付与する。
- 語構成情報: 前項と後項の表記と読みを付与する。
- 用例: 当該の語を含む「文」を収録する。それぞれの用例に...
-- 格要素情報: 用例中の当該語に依存する格要素を格助詞と...
-- URL: 用例を取得した Web ページの URL
** 2.2 実例 [#p58f3740]
#br
|表記|>|聞き出す|
|読み|>|ききだす|
|語構成情報|>|聞く(きく) + 出す(だす)|
|格要素情報&br;(出現ページ数)|ヲ格|情報(159)/話(67)/番号(...
|~|カラ格|人(15)/本人(11)/相手(9)/者(9)/男(7)/彼女(6)/彼(...
|~|デ格|電話(7)/中(7)/会(5)|
|~|ニ格|人(6)/中(5)/時(4)/前(4)|
#br
* 3.データベース構築の流れ [#hb28f367]
- 構築は,次の二つの部分からなる。
-- 複合動詞部分の構築の流れ(下図「複?」〜「複?」)
-- 構成動詞部分の構築の流れ(下図「構?」〜「構?」)
- それぞれの処理の詳細は,以下「4.収録語の選定」「5....
#br
|&ref(./flow.png,90%);|
#br
* 4.収録語の選定 [#c331a295]
複合動詞の構成要素として多用される構成動詞を「種動詞」...
+ 種動詞をキーとして,Web 検索し,種動詞を含む Web ページ...
-- 収集量は,連用形,終止形をそれぞれ5000ページ収集する。
-- 収集方法は,Baroni,Bernardini (2004) の方法を基本とし...
+ 収集した Web ページを形態素解析し,V1+種動詞,種動詞+V2...
+ 複合動詞候補を人手で選別する。
+ 収集した複合動詞をキーとして,Web 検索し,当該複合動詞...
-- 収集量は,複合動詞ごとに2000ページする。
-- 収集方法は,Baroni,Bernardini (2004) の方法を基本とし...
-- 一定量以上の用例(今回は100例以上)が収集できた複合動...
-- 収録語の構成動詞は,種動詞となる。
+ 決定した収録語の構成動詞(V1, V2)を種動詞として,1〜5...
#br
LEFT:''参考文献''
-野村雅昭,石井正彦 (1987) 複合動詞資料集,科研費特定研究...
-M. Baroni and S. Bernardini (2004) "BootCaT: Bootstrappi...
* 5.用例と格要素 [#a53eda9e]
** 5.1 収集方法 [#i6cf7f2a]
用例は,Web データ集(「収録語の選定」の 1, 4で作成され...
+ Web ページ集を文区切りし,形態素解析する。
-- 文区切りは,句点相当文字(句点,!,?)の直後で分割し...
-- 形態素解析は,[[JUMAN ver.6.0>http://nlp.ist.i.kyoto-u...
+ 収録語が含まれる文だけを構文解析・格解析([[KNP ver.3.0...
+ 収録語が格要素(副詞的な要素も含む)を持つ場合,用例と...
-- 重複する用例(一つだけ登録する)
-- 格要素を持たない用例
** 5.2 出現ページ数 [#c19faac2]
Web データの性質を考慮して,用例,および,格要素は出現...
- 前述のとおり,収集語ごとに Web データ集を構築し,用例も...
- まったく同一の用例は,複数の Web ページに出現していたと...
- ある格助詞・格要素のペアが同一の Web ページ内に複数回出...
終了行:
[[Webデータに基づく複合動詞用例データベース/利用者マニュ...
//&size(25){&color(red){本ページは構築中です};};
//#br
* 1.収録語 [#yc2a73fb]
- 複合動詞(動詞(連用形) + 動詞タイプ)
-- 主として,語彙的複合動詞を収録対象とする。
-- 統語的複合動詞の用法しかない複合動詞は,基本的に収録し...
- 収録される複合動詞を構成する動詞(以後,「構成動詞」と...
- いずれの動詞も,Web 上で一定量(後述)の用例を取得でき...
* 2.語に付与される情報 [#j070c2d9]
** 2.1 付与情報 [#s8fdf8c3]
- 表記: 当該の語の基本形とする。
- 読み: 当該の語の基本形の読みを付与する。
- 語構成情報: 前項と後項の表記と読みを付与する。
- 用例: 当該の語を含む「文」を収録する。それぞれの用例に...
-- 格要素情報: 用例中の当該語に依存する格要素を格助詞と...
-- URL: 用例を取得した Web ページの URL
** 2.2 実例 [#p58f3740]
#br
|表記|>|聞き出す|
|読み|>|ききだす|
|語構成情報|>|聞く(きく) + 出す(だす)|
|格要素情報&br;(出現ページ数)|ヲ格|情報(159)/話(67)/番号(...
|~|カラ格|人(15)/本人(11)/相手(9)/者(9)/男(7)/彼女(6)/彼(...
|~|デ格|電話(7)/中(7)/会(5)|
|~|ニ格|人(6)/中(5)/時(4)/前(4)|
#br
* 3.データベース構築の流れ [#hb28f367]
- 構築は,次の二つの部分からなる。
-- 複合動詞部分の構築の流れ(下図「複?」〜「複?」)
-- 構成動詞部分の構築の流れ(下図「構?」〜「構?」)
- それぞれの処理の詳細は,以下「4.収録語の選定」「5....
#br
|&ref(./flow.png,90%);|
#br
* 4.収録語の選定 [#c331a295]
複合動詞の構成要素として多用される構成動詞を「種動詞」...
+ 種動詞をキーとして,Web 検索し,種動詞を含む Web ページ...
-- 収集量は,連用形,終止形をそれぞれ5000ページ収集する。
-- 収集方法は,Baroni,Bernardini (2004) の方法を基本とし...
+ 収集した Web ページを形態素解析し,V1+種動詞,種動詞+V2...
+ 複合動詞候補を人手で選別する。
+ 収集した複合動詞をキーとして,Web 検索し,当該複合動詞...
-- 収集量は,複合動詞ごとに2000ページする。
-- 収集方法は,Baroni,Bernardini (2004) の方法を基本とし...
-- 一定量以上の用例(今回は100例以上)が収集できた複合動...
-- 収録語の構成動詞は,種動詞となる。
+ 決定した収録語の構成動詞(V1, V2)を種動詞として,1〜5...
#br
LEFT:''参考文献''
-野村雅昭,石井正彦 (1987) 複合動詞資料集,科研費特定研究...
-M. Baroni and S. Bernardini (2004) "BootCaT: Bootstrappi...
* 5.用例と格要素 [#a53eda9e]
** 5.1 収集方法 [#i6cf7f2a]
用例は,Web データ集(「収録語の選定」の 1, 4で作成され...
+ Web ページ集を文区切りし,形態素解析する。
-- 文区切りは,句点相当文字(句点,!,?)の直後で分割し...
-- 形態素解析は,[[JUMAN ver.6.0>http://nlp.ist.i.kyoto-u...
+ 収録語が含まれる文だけを構文解析・格解析([[KNP ver.3.0...
+ 収録語が格要素(副詞的な要素も含む)を持つ場合,用例と...
-- 重複する用例(一つだけ登録する)
-- 格要素を持たない用例
** 5.2 出現ページ数 [#c19faac2]
Web データの性質を考慮して,用例,および,格要素は出現...
- 前述のとおり,収集語ごとに Web データ集を構築し,用例も...
- まったく同一の用例は,複数の Web ページに出現していたと...
- ある格助詞・格要素のペアが同一の Web ページ内に複数回出...
ページ名: