全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2017-04-05
 

『青空文庫』パッケージの概要

 本パッケージは,『青空文庫』の作品(13554作品)を『ひまわり』用にインポートしたデータです。また,「作家別作品一覧拡充版」や作品に含まれる文字数などの情報を取り込んでいます。

収録データの内容

  • サイト:『青空文庫』
  • 収録作品
    • 「作家別作品一覧拡充版」(2017-04-01時点のデータを使用。リンク先は現在のものなので注意)から次の条件を満たす13554作品
      • 著作権が切れていること
      • XHTML 版が存在し,かつ,『青空文庫』サイトから配布されていること
      • 『ひまわり』用にインポートできること
      • なお,底本が複数ある作品は,「文字遣い種別」が新字,新仮名の作品を優先しました
  • 原資料からの変更点
    • 『ひまわり』のインポート機能を利用し,『ひまわり』用のデータに変換しています。
    • 変換時に本文には変更を加えていませんが,インポート後,画像で表現されている外字(サロゲートペアによる文字は除く)を文字に変換しています。
    • ルビ,注記などの付与情報についても,基本的に改変を加えていませんが,『ひまわり』用のデータ形式の関係上,反映できなかった情報(例:head要素中の書誌情報)もあります。

使用条件

  • 本パッケージの使用条件は,青空文庫収録ファイルの取り扱い規準に準じます。
  • 本ページで公開しているパッケージを利用したことにより直接的,間接的に生じる,いかなる損害も保証しません。

ダウンロード

  • 『青空文庫』パッケージ(20170401)(圧縮時約792MB,解凍時約1.2GB, ZIP形式,履歴・旧バージョン
     
  • (通常版) 形態素解析結果追加パッケージ (圧縮時約1GB,解凍時約6.4GB, 7z形式)
    • 利用には,上記の『青空文庫』パッケージと『ひまわり』ver.1.5が必要です。
    • 収録作品を MeCab (ver.0.996) で形態素解析した結果です。
    • 『ひまわり』ver.1.5に標準で付属している「青空文庫サンプル」と同様,当該検索文字列の前後2形態素が表示されます。検索には時間がかかるため,じっくり分析する人向けです。
    • ファイルは,7z形式で圧縮されています。OS標準の機能では,解凍できません。7-Zip7-Zip Portableなどを利用して,解凍して下さい。
  • (ver.1.6専用) 形態素解析結果追加パッケージ (圧縮時約1GB,解凍時約1.8GB, zip形式)
    • 上記の通常版と内容に違いはありませんが,『ひまわり』ver.1.6専用です。検索の高速化,パッケージサイズの軽量化が図られています。
    • 圧縮形式もzipなので,他のパッケージと同様ドラッグ&ドロップでインストール可能です。
    • ただし,ver.1.6は現在開発版なので,通常版よりも不具合を多く含む可能性があります。

使用方法

インストール方法

  1. 『ひまわり』(ver.1.5以降)をインストールしてください。
  2. 『青空文庫』パッケージをダウンロードし,次の手順でインストールして下さい。
    • 『ひまわり』ver.1.5.4以降では,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
    • 『ひまわり』ver.1.5.3までのバージョンでは,次の手順でインストールを行います。
      • ダウンロードしたファイルを解凍すると,AozoraHimawari フォルダが現れます。その中に次のファイルがあることを確認してください。
         Corpora フォルダ ... 『青空文庫』データを格納したフォルダ
         config_aozora.xml ... 設定ファイル(ver.1.3, 1.5共用)
         config_aozora.db.xml ... 設定ファイル(ver.1.5専用;メモ機能・形態素解析結果の利用)
      • 上記のフォルダ,ファイルを,『ひまわり』がインストールされているフォルダの中にコピーしてください。ただし,コピー時は「統合」オプションを使うなど,元あったフォルダが消えないように気をつけてください。
  3. 形態素解析結果追加パッケージをインストールする場合
    • (従来版追加パッケージ)パッケージをダウンロード・解凍後,himawari.h2.db を 『ひまわり』フォルダの中の Corpora/Aozora/ フォルダにコピーして下さい。
    • (1.6専用追加パッケージ) ダウンロードした追加パッケージを起動している『ひまわり』にドラッグ&ドロップして,インストールして下さい。

 以上で,インストールは終了です。

 次回以降は,『ひまわり』フォルダにインストールされた設定ファイル(config_aozora.xmlかconfig_aozora_db.xmlなど)を以下「検索」の説明にしたがって読み込んで下さい。

 なお,検索時にメモリ関連のエラーが出る場合は,FAQの「メモリ関連のエラーが出ます」の対処方法をお試し下さい。

検索

 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある設定ファイル(config_aozora.xmlかconfig_aozora_db.xml) を読み込んでください。なお,設定ファイルは,上記のとおり,2種類を収録していますので,適宜使い分けてください。検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。

  • 書誌情報は,基本的に「作家別作品一覧拡充版」(2016-04-01時点のデータを使用。リンク先は現在のものなので注意)に準じます。
    • 「作家別作品一覧拡充版」から取り込んだ情報は,次のとおりです。なお,括弧内は,『ひまわり』の検索結果における欄名です。

      作品ID,副題,初出,分類番号,文字遣い種別,姓(著者,*後述),名(著者,*後述),図書カードURL,人物ID,役割フラグ(役割),生年月日,没年月日,底本名1(底本名),底本出版社名1(底本出版社名),底本初版発行年1(底本初版発行年),入力に使用した版1(入力に使用した版),XHTML/HTMLファイルURL(ファイルURL)

  • 検索結果の「著者」欄の内容は,「作家別作品一覧拡充版」の「姓」「名」欄を統合したものです。統合後,姓名の間は,空白で区切られます。また,例2のように,姓名がカタカナと記号からなる場合は,「名」「姓」の順に表示しています。
    • 例1: 「芥川」「竜之介」 ⇒ 「芥川 竜之介」
    • 例2: 「ポー」「エドガー・アラン」 ⇒ 「エドガー・アラン ポー」
  • 「著者」欄などで複数の著者が入る場合は,「::」で区切られます。
  • 「文字数」欄は,当該の作品の「本文」に含まれる文字数です。ここで言う「本文」とは,青空文庫のXMLファイルの中から,冒頭の作品名,著者名,末尾の書誌情報・注記などを除いたテキスト部分です。半角空白や改行は,文字数に含まれていません。
  • 収録作品のリストは,[ツール]⇒[一覧]⇒[作品別書誌情報一覧]を実行して下さい。

形態素解析結果追加パッケージの利用

  • 通常版
    • 検索時には,config_aozora.db.xml を読み込んでください。
    • 使用方法は,利用者マニュアルをご覧ください。
    • config_aozora.xml と同様,全文検索機能もそのまま使えますが,検索速度は落ちます。
  • ver.1.6専用版
    • 検索時には,config_aozora.sd.xml を読み込んでください。それ以外は,通常版と同様です。

アンケート

 よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。

所属
大学・高専等 小中高・専門学校等 研究機関 企業 個人 その他
身分
教職員 研究員 学生 その他
専門分野
日本語(国語)学 英語学 言語学 言語教育 自然言語処理・人工知能 その他(人文社会系) その他(理工系)
母国語
日本語 日本語以外
年齢
10代未満 10代 20代 30代 40代 50代 60代 70代以上
使用OS
Windows Mac Linux その他
コンピュータ使用歴
1年未満 1年以上3年未満 3年以上
ご意見・ご感想

謝辞

 収録作品の著者の方々,有益なデータを提供してくださる青空文庫の運営者,工作員の方々に心より感謝いたします。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2017-05-09 (火) 16:43:33 (76d)