[PukiWiki]

全文検索システム『ひまわり』/日本語諸方言コーパス (COJADS)のCSVデータの利用

Top/全文検索システム『ひまわり』/日本語諸方言コーパス (COJADS)のCSVデータの利用

全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2021-02-25(更新)/2020-08-25(公開)
 

1.概要 †

 このページでは,日本語諸方言コーパス (COJADS)のCSVデータを『ひまわり』で利用する方法について説明します。

 なお,本ページの内容を利用することにより直接的,間接的に生じたいかなる損害についても,保証しません。

↑

2.準備 †

(ビデオチュートリアルも用意しました。チュートリアル一覧も参照してください)

  1. 利用方法の「日本語諸方言コーパス」モニター版利用規約をよくお読みください。「研究成果の公表等に際しては、モニター版の利用規約に準ずる」ことが求められます(詳細は,「データDL」参照)。
  2. データDLから「一括ダウンロード,UTF8,ZIP」で,CSVデータをダウンロードし,展開してください。以後,展開したフォルダを「COJADSフォルダ」とします。
  3. 「COJADS→『ひまわり』変換パッケージ」をダウンロードし,展開してください。以後,展開したフォルダを「変換Pフォルダ」とします。
    • COJADS→『ひまわり』変換パッケージ (2021-02-24)
  4. 『ひまわり』をインストールしてください。
↑

3 変換手順 †

  1. COJADSフォルダ中のすべてのファイルの拡張子を .csv から .txt にリネームしてください。
    • 例: 01_b_099_utf8.csv → 01_b_099_utf8.txt
    • Windows 用ですが,変換パッケージに一括変換用のスクリプトを用意しています。変換Pフォルダ中のnamae_kaeru.batをCOJADSフォルダにコピーし,ダブルクリックしてください。
  2. 変換Pフォルダ中の cojads_sample.htd を『ひまわり』フォルダ中の resources → htd フォルダにコピーしてください。
    • macOSの場合,アプリケーションフォルダの『ひまわり』を右クリックし,「パッケージの内容を表示」→ Contents → Java → resources → htd フォルダです。
  3. 『ひまわり』を起動してください。
  4. COJADSフォルダを『ひまわり』にドラッグ&ドロップしてください。
  5. 出現したウィンドウ左下に「詳細オプション」がありますので,次のように設定してください。
    • 「コーパス名」を「COJADS」に変更(「詳細オプション」の上)
    • 「テキスト変換」を「cojads_sample.htd」に変更
    • 「コーパス構築」の「索引付けを実行しない」にチェックを入れる
  6. 「インポート」ボタンを押して,インポートを実行してください。
    • 「インポートが正常に終了しました」となれば,OKです。
  7. 変換Pフォルダ中の Package フォルダを『ひまわり』にドラッグ&ドロップしてください。
    • これにより,各種の設定ファイルが『ひまわり』にインストールされます。
    • なお,上書きの警告がでますが,無視してかまいません。
  8. 『ひまわり』上部のメニューから[ツール]→[構築]→[インデックス生成]を実行してください。この処理には,数分かかります。
  9. 以上で終了です。
↑

4.使い方 †

  • 『ひまわり』上部のメニューから[ファイル]→[コーパス選択]で「日本語諸方言コーパス(COJADS)」を選択してください。
  • 『ひまわり』の使い方については, ビデオチュートリアルやマニュアルなどを参考にしてください。
  • 検索文字列欄の左のメニューで「標準語」「方言」「標準語(正規表現)」「方言(正規表現)」を選択できます。正規表現検索は,通常の検索よりも低速です。
  • 検索結果は,CSVデータの列と同じになるようになっています。
     
    himawari_cojads.png
     
  • 検索結果をクリックすると,Webブラウザで対話全体が表示されます。
    • 検索文字列は,赤い文字で表示されます。
    • 話者にカーソルをあわせると,生年,年齢,性別がポップアップ表示されます。
 
browse_cojads.png
 

論文などで引用する際の
成果物の短縮URL

 

メニュー

  • コーパス
    • 『日本語話し言葉コーパス』
    • 『太陽コーパス』
    • 『近代女性雑誌コーパス』
       
  • 辞書関連
    • 形態素解析辞書『UniDic』
    • 語種辞書『かたりぐさ』
    • 『表記統合辞書』
    • 『分類語彙表増補改訂版』
       
  • 用例データベース
    • 複合動詞
    • サ変動詞
    • 形容詞
       
  • ソフトウェア
    • 全文検索システム『ひまわり』
    • 観察支援ツール FishWatchr
    • 観察支援ツール FishWatchr
      Mini
    • 作文支援システム TEachOtherS
    • 『ひまわり』支援ツール
    • 『たんぽぽ』,『プリズム』
       
  • 成果物の短縮URL
 
最新の10件
2021-02-25
  • 全文検索システム『ひまわり』/日本語諸方言コーパス (COJADS)のCSVデータの利用
2021-02-24
  • cojads
  • 成果物の短縮URL
  • 観察支援ツール FishWatchr/Mini/履歴
2021-02-19
  • 全文検索システム『ひまわり』/履歴
2021-02-17
  • 全文検索システム『ひまわり』
  • 全文検索システム『ひまわり』/ダウンロード/CSJサンプルデータ
2021-01-15
  • 全文検索システム『ひまわり』/『ひまわり』で『日本語話し言葉コーパス』を利用する方法
2021-01-14
  • csj
2020-12-24
  • 全文検索システム『ひまわり』/ビデオチュートリアル

total:535
today:11
yesterday:6

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2021-02-25 (木) 15:08:44
Site admin: anonymous

PukiWiki 1.5.3 © 2001-2020 PukiWiki Development Team. Powered by PHP 7.4.15. HTML convert time: 0.011 sec.