国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
#author("2020-08-25T04:39:42+00:00","default:rd","rd") #author("2020-08-25T04:49:02+00:00","default:rd","rd") [[全文検索システム『ひまわり』]] &size(20){&color(red){本ページは現在構築中です};}; RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2020-08-xx #br * 1.概要 [#x0562e5e] このページでは,[[日本語諸方言コーパス (COJADS)>https://www2.ninjal.ac.jp/cojads/]]のCSVデータを『ひまわり』で利用する方法について説明します。 なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。 * 2.準備 [#a003392e] + [[利用方法>https://www2.ninjal.ac.jp/cojads/index.html?targ=howto]]の[[「日本語諸方言コーパス」モニター版利用規約>https://chunagon.ninjal.ac.jp/static/COJADS_TermsOfService.pdf]]をよくお読みください。 + [[データDL>https://www2.ninjal.ac.jp/cojads/index.html?targ=data]]から「一括ダウンロード,UTF8,ZIP」で,CSVデータをダウンロードし,展開してください。以後,展開したフォルダを「COJADSフォルダ」とします。 + COJADS→『ひまわり』変換パッケージをダウンロードし,展開してください。以後,展開したフォルダを「変換Pフォルダ」とします。 + [[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。 *3 変換手順 [#ka191cce] + COJADSフォルダ中のすべてのファイルの拡張子を .csv から .txt にリネームしてください。 -- 例: 01_b_099_utf8.csv → 01_b_099_utf8.txt -- Windows 用ですが,変換パッケージに一括変換用のスクリプトを用意しています。変換Pフォルダ中のnamae_kaeru.batをCOJADSフォルダにコピーし,ダブルクリックしてください。 + 変換Pフォルダ中の cojads_sample.htd を『ひまわり』フォルダ中の resources → htd フォルダにコピーしてください。 -- macOSの場合,アプリケーションフォルダの『ひまわり』を右クリックし,「パッケージの内容を表示」→ Contents → Java → resources → htd フォルダです。 + 『ひまわり』を起動してください。 + COJADSフォルダを『ひまわり』にドラッグ&ドロップしてください。 + 出現したウィンドウ左下に「詳細オプション」がありますので,次のように設定してください。 -- 「コーパス名」を「COJADS」に変更 -- 「テキスト変換」を「cojads_sample.htd」に変更 -- 「コーパス構築」の「索引付けを実行しない」にチェックを入れる + 「インポート」ボタンを押して,インポートを実行してください。 + 変換Pフォルダ中の Package フォルダを『ひまわり』にドラッグ&ドロップしてください。 -- これにより,各種の設定ファイルが『ひまわり』にインストールされます。 -- なお,上書きの警告がでますが,無視してかまいません。 + 『ひまわり』上部のメニューから[ファイル]→[コーパス選択]で「COJADS変換サンプル」を選択してください。 + 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。この処理には,数分かかります。 + 以上で終了です。 //-- [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]の[[インポート(基礎編)>https://youtu.be/Z6N5pwd4UVU]]も参考にしてください。簡単な使い方の説明もあります。 //-- 単語検索したい場合は,[[インポート(応用編)>https://youtu.be/wU2_YLs4sig]]を参考にしてください。なお,チュートリアルのページでは,形態素解析システムMeCabのインストールの方法も説明しています。 * 4.使い方 [#j4398ff6] - 『ひまわり』の使い方については, [[ビデオチュートリアル>全文検索システム『ひまわり』/ビデオチュートリアル]]やマニュアルなどを参考にしてください。 - 検索文字列欄の左のメニューで「標準語」「方言」「標準語(正規表現)」「方言(正規表現)」を選択できます。正規表現検索は,通常の検索よりも低速です。 - 検索結果は,CSVデータの列と同じになるようになっています。 - 検索結果をクリックすると,Webブラウザで対話全体が表示されます。 -- 検索文字列は,赤い文字で表示されます。 -- 話者にカーソルをあわせると,生年,年齢,性別がポップアップ表示されます。 //&size(20){&color(red){この方法は現在作成中です};};