全文検索システム『ひまわり』

『Wikipedia』パッケージの概要

 本パッケージは,『Wikipedia日本語版』の記事(88万)を『ひまわり』用にインポートしたデータです。

収録データの内容

  • サイト 『Wikipedia日本語版』
  • 収録記事
    • Wikipedia が公開しているデータベース(2013-11-07時点のデータを使用)に収録されている約88万記事
    • 全記事をランダムに並び替え,10万記事ごとに分割し,計9個のコーパスとしています。
    • パッケージの配布は,最初の10万記事(01/09)と残りの約78万記事(02〜09 / 09)の二つです。
  • テキストの抽出方法
    • Wikipedia Extractor (ver.2.5) によりテキスト部分を抽出
      • 実行時のオプションは,"-sl" を指定(詳細は,マニュアルページを参照のこと)。抽出時に図表や(Wikipediaの)テンプレートなどの要素は削除されるので注意されたい。
      • 記事に該当するタグ(doc タグ)以外は削除
      • 過度なクリーニング処理*1の抑制,タイトルの2重出力の処理を補正するために一部スクリプトを修正した
    •  いわゆる半角文字を全角文字に統一

ダウンロード

パッケージ

ライセンス・実行時の注意など

  • 本パッケージは,Wikipedia が公開しているデータベース(2013-11-07時点のデータ)の派生物です。ライセンスは,オリジナルデータのライセンス「クリエイティブ・コモンズ 表示-継承 3.0 非移植」に準じます。
    クリエイティブ・コモンズ・ライセンス
  • 本パッケージは無保証です。本パッケージを利用したことにより生じる,いかなる損害も保証しません。
  • 以下の環境で動作確認をしています。ただし,検索条件,他に起動しているアプリケーションなどにより,メモリが不足する場合があるかもしれません。よろしければ,ページ末のアンケートの「ご意見・ご感想」欄にて,動作環境(OS名,バージョン, 搭載メモリサイズ),動作の可否をご報告下さい。
    • Ubuntu 12.04 (64bit), メモリ8GB
    • Windows7 (64bit) , メモリ4GB
    • Windows7 (32bit) , メモリ2GB (02〜09 / 09 ではメモリ不足が多発)

使用方法

インストール方法

  1. 『ひまわり』をインストールしてください。
  2. パッケージをダウンロードし,次の手順でインストールして下さい。
    • 『ひまわり』ver.1.5.4以降では,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
    • 『ひまわり』ver.1.5.3までのバージョンでは,次の手順でインストールを行います。
      1. ダウンロードしたファイルを解凍すると,WikipediaHimawari フォルダが現れます。その中に次のファイルがあることを確認してください。
          Corpora フォルダ ... 『Wikipedia』データを格納したフォルダ
          config_wikipedia.xml ... 設定ファイル (01 / 09 の場合)
          config_wikipedia_all.xml ... 設定ファイル (02〜09 / 09 の場合⇒01 〜 09 / 09 が検索対象になります)
      2. 上記のフォルダ,ファイルを,『ひまわり』がインストールされているフォルダの中にコピーしてください。
      • Windows の場合,上書きの確認がでるかもしれませんが,そのまま続行してください。
      • Mac の場合,上書きすると,元あったフォルダの内容が消えてしまうので,Corpora フォルダの中身を個別にコピーして下さい。

 以上で,インストールは終了です。

 なお,インストール直後は,01/09版はconfig_wikipedia.xml,02〜09/09 版は,config_wikipedia_all.xml が『ひまわり』に読み込まれた状態になります。

検索

  • 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある設定ファイル(config_wikipedia.xml,もしくは,config_wikipedia_all.xml) を読み込んでください。
    • Windows をお使いの方は,検索状況を確認するために,himawari_debug.exe を利用することをお勧めします。
  • 検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。

アンケート

 よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。

所属
大学・高専等 小中高・専門学校等 研究機関 企業 個人 その他
身分
教職員 研究員 学生 その他
専門分野
日本語(国語)学 英語学 言語学 言語教育 自然言語処理・人工知能 その他(人文社会系) その他(理工系)
母国語
日本語 日本語以外
年齢
10代未満 10代 20代 30代 40代 50代 60代 70代以上
使用OS
Windows Mac Linux その他
コンピュータ使用歴
1年未満 1年以上3年未満 3年以上
ご意見・ご感想

謝辞

 記事の著者,Wikipedia の運営者の方々,Wikipedia Extractorの著者に心より感謝いたします。


*1 日本語に適用した場合,リストの項目が一部出力されないなどの問題があるようです。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-02-12 (金) 00:00:00 (1347d)