1.『「青空文庫」変換スクリプトパッケージ』の概要

  • このページでは,『「青空文庫」変換スクリプトパッケージ』を使って,青空文庫の文書から『ひまわり』検索用データを作成する方法について説明します。
  • 『「青空文庫」変換スクリプトパッケージ』は,書籍『インターネット図書館青空文庫』付属 DVD-ROM からデータを取り込み,XML 形式のコーパスファイルに変換するものです。変換結果の XML ファイルに『ひまわり』用の索引付け処理を行うことで,高速な検索が可能となります。
    • 本パッケージは,Windows 上で利用することを前提としています。動作確認は,OS: WindowsXP,CPU: Intel Core Duo 1.66GHz, Memory: 1GB で行いました。
    • 書籍『インターネット図書館青空文庫』付属の DVD-ROM をご用意ください。本ページで利用するデータは,「青空文庫」の Web サイトからダウンロードするものではありません。

2.資料について

2.1 『インターネット図書館青空文庫』

  • 資料名:『インターネット図書館青空文庫』
  • 著者:野口英二
  • 出版社:株式会社 はる書房
  • 出版年:2005
  • 底本情報:作品ごとに異なる。このパッケージで変換の対象となる作品については,下記「対象作品について」を参照。
  • 作成者名:青空文庫工作員(作品ごとに異なる)。詳細は,上記書籍参照。
  • 著作権情報:基本的に著作権が切れている作品のみ。詳細は,上記書籍参照。

2.2 対象作品について

 本パッケージは,『インターネット図書館青空文庫』付属 DVD-ROM から,次の条件を満たす作品だけを変換対象としました。

  • XHTML 形式のデータがある作品
  • 『ひまわり』が検索可能な XML 形式に変換できた作品

 変換対象となったのは,2560 作品です。詳細は,「青空文庫」変換スクリプトパッケージ 変換対象作品リストをご覧ください。

3.変換スクリプトの使用方法

3.1 ダウンロード

  1. まず,はじめに『ひまわり』がお手持ちの PC にインストールされているかを確認してください(Ver.1.3 を推奨)。インストールされていない場合は,をダウンロードし,インストールしてください。変換の作業は,すべて『ひまわり』がインストールされているフォルダ(以後,「Himawari フォルダ」)の中で行います。
  2. 変換パッケージをダウンロードしてください。
    • 「青空文庫」変換パッケージ filehimawari_aozora_1_0.lzh (動作環境 Windows)
    • 本パッケージは GPL ライセンスに基づいて配布します。著作権表示は以下のとおりです。
      Copyright (c)  2007  Masaya YAMAGUCHI, Sae UENO, Miwa FUJIMOTO
    • また,本パッケージには,文字コード変換ツール nkf を同梱しています。nkf の著作権表示は,次のとおりです。
      Network Kanji Filter Version 2.0.7 (2006-06-13) for Win32
      Copyright (C) 1987, FUJITSU LTD. (I.Ichikawa),2000 S. Kono, COW
      Copyright (C) 2002-2006 Kono, Furukawa, Naruse, mastodon
    • パッケージの詳細については,パッケージ内容の詳細を御覧ください。
  3. ダウンロードしたファイルは,LZH 形式で圧縮されています。Lhasa32 などの解凍ソフトを利用して,解凍してください。
  4. 解凍した変換パッケージを開くと,Corpora というフォルダと config_aozora.xml というファイルがあります。
    この2点を Himawari フォルダの中に移してください(このフォルダの中には元々 Corpora というフォルダが入っていますが,上書きしてかまいません)。

    フォルダは,下図のようになります。以上で,変換の準備は完了です。

     
     
    Himawari_folder.png
     
     

3.2 変換する

  1. まずはじめに,『インターネット図書館青空文庫』の付属 DVD-ROM を,お使いのパソコンの CD-ROM/DVD ドライブにセットしてください。
  2. 先に移動した Corpora フォルダを開き,その中に aozora というフォルダがあることを確認してください。
    その aozora フォルダの中から aozora.bat というアイコンを探してください。aozora_bat.png
    これをダブルクリックすると,下のような黒い画面が立ち上がります。
    画面の指示通り,お使いのパソコンの CD-ROM ドライブまたは DVD ドライブ名をアルファベットで入力し,Enter キーを押してください。これで HTML ファイルの取り込みが始まります。なお,この処理には,30分程度かかります。
     
     
    DOS_CDDrive.png
     
     
  3. HTML ファイルのコピーが終わると,再び CD-ROM/DVD ドライブ名を聞かれます。もう一度 CD-ROM/DVD ドライブ名を入力し,Enter キーを押してください。これによって,以下の動作がすべて自動で行われます。
    • 画像ファイルの取り込み
    • XHTML 形式から XML 形式への変換
    • 出来上った XML ファイルをまとめてコーパスファイルを生成
    • 文字コード・改行コードの調整

      注:「0個のファイルをコピーしました。」等が表示されることがありますが,エラーではありません。
      注:この作業は10分から数十分かかることがあります。

  4. 最後に,黒い画面に「続行するには何かキーを押してください」というメッセージが出たら,変換は成功です。何かキーを押すと黒い画面は閉じられます。
    aozora フォルダの中には,aozora.xml というファイル(これがコーパスファイルとなります)が生成されています。

3.3 『ひまわり』索引付け

できあがったコーパスファイル(aozora.xml)を『ひまわり』で検索するためには,索引(インデックス)付けの作業が必要です。

  1. 『ひまわり』を起動する。
  2. [ファイル]→[新規]を選択すると「設定ファイルの選択」ウィンドウが開きます。ここからconfig_aozora.xmlを選んでください。
     
     
    Himawari_sinki.png
     
                  
     
    Himawari_index.png
     
  3. 次に,[ツール]から[インデックス生成]を選択してください。「インデックスの生成」を実行すると,索引(インデックス)付けが開始します。この処理には,30分程度かかります。
     
     
    Himawari_pulldown.png
     
                  
     
    Himawari_indexjikko.png
     
     
     
  4. 「インデックス生成処理が正常に終了しました。」というウィンドウが出たら完成です。

    これで検索の準備ができました。

4.『ひまわり』で検索する

  1. 『ひまわり』を起動してください。[ファイル]→[新規]より config_aozora.xml を選択すると,青空文庫のコーパスファイルが検索できます。
  2. 「検索文字列」欄に検索したい文字列を入力し,「検索」をクリックすると図1のように検索結果が表示されます。
  3. 検索結果をより詳しく見たい場合,検索結果の当該の行をダブルクリックすると,その作品の全文がブラウザで表示されます。
    キー文字列は赤で表示されます。(図2)

図1:検索結果

tukaikata.png
 
 

図2:作品全体の表示

browser.png
 
 
  • 以下の情報は,ブラウザ表示の際にカーソルを合わせると上図2のように詳細情報が表示されます。
    • 傍点・傍線・強調
    • 上付き・下付き
    • ぶら下げ・字下げ・地付き
  • 底本情報を含む書誌情報(元の XHTML タグで <div class="bibliographical_information">がついている部分)および「表記について」(同 <div class="notation_notes">)は,検索対象から外してあります。ここに書かれている情報は,検索結果行をダブルクリックしてブラウザで表示し,フッタ(グレーで表示されている部分)をご覧ください。

※詳細な検索方法は,全文検索システム『ひまわり』のマニュアルを参照してください。

謝辞

  • 『インターネット図書館青空文庫』の著者である野口英二氏,青空文庫の XHTML ファイルのタグに関する問い合わせに回答してくださった富田倫生氏,また,有益なデータを提供してくださる青空文庫の運営者,工作員の方々に深く感謝いたします。
  • 本パッケージは,『博報「ことばと文化・教育」研究助成』を受けて行われた「言語資料の共有,利用を支援する環境構築に関する研究」の成果の一部です。研究助成してくださった財団法人博報児童教育振興会に感謝いたします。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-01-18 (月) 00:00:00 (3505d)