[[Compositional Semantic Representation]]


*準備 [#n13404dc]
+[[JUMAN>http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/juman.html]] のインストール
+[[KNP>http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/knp.html]] のインストール
+(Windows の場合)環境変数の設定 → [[JUMAN/KNPのチュートリアルのスライド>http://www-lab25.kuee.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp/20090930-juman-knp.ppt&name=20090930-juman-knp.ppt]] の「環境設定」(p.14)を参照
+[[Java>http://www.java.com/ja/]] のインストール
+[[Yahoo! アプリケーションIDの取得>https://e.developer.yahoo.co.jp/webservices/register_application]]
+[[csrtoolsパッケージ>http://dl.dropbox.com/u/506451/csrtools20101110.zip]]を適当な場所に解凍

*crawl [#g0681d5b]
**機能 [#o7c4a55f]
-小さな Web コーパスを作成する。

**書式 [#q5021b95]
 java -jar crawl.jar TARGET_STR nQeuery nQResult nQYahoo nQSeed yahooAppID

-TARGET_STR: 検索対象文字列
--指定しない場合は,汎用の Web コーパスとなる。
--Yahoo!複数指定しない場合は,汎用の Web コーパスとなる。
-nQeuery: Yahoo! API 検索の回数
-nQResult: 1回のYahoo! API 検索結果から選択する URL 数(nQYahoo 以下)
-nQYahoo: 1回のYahoo! API 検索時に取得する最大URL数(20以下)
-nQSeed: 検索時の種の数(ランダムに生成)
-yahooAppID: Yahoo! アプリケーションID

この結果,(nQeuery x nQResult) ページの Web ページが取得できる。

**凡例 [#qb723a3b]
-「走る」が含まれるページを 1000 (= 100 x 10) ページ取得する。結果を result.txt に保存する。
 java -jar crawl.jar '走る' 100 10 20 2 xxx_yahoo_id > crawl_result.txt
-何も指定せず,1000 (= 100 x 10) ページ取得する。結果を result.txt に保存する。
 java -jar crawl.jar '' 100 10 20 2 xxx_yahoo_id > crawl_result.txt
-注: DOS 窓で csrtools をインストールしたフォルダに移動してから実行してください。


*la [#nf6ec3c9]
**機能 [#b1b110bb]
-crawl の結果ファイルから,特定の形態素を含む「文」を抽出する。

**書式 [#n86f9d53]
 java -jar la.jar CORPUS_FILE TARGET_STR

-CORPUS_FILE: crawl の結果ファイル
-TARGET_STR: 検索対象文字列
--Juman の辞書の見出しの表記(活用語の場合は,基本形)で指定する。


**凡例 [#qb949b91]
-「走る」が含まれる「文」を抽出し,hashiru.txt に保存する。
 java -jar la.jar crawl_result.txt 走る > hashiru.txt
-注: DOS 窓で csrtools をインストールしたフォルダに移動してから実行してください。


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS