全文検索システム『ひまわり』/青空文庫の文書を『ひまわり』で利用する方法2?

変換スクリプトの内容と定義

「青空文庫」変換スクリプトパッケージの内容

  • config_aozora.xml : 『ひまわり』設定ファイル
  • Corporaフォルダ
    • aozora.xml : コーパスファイル
    • aozora.bat : 全てのバッチファイルを実行するバッチファイル
    • copy_html.bat : CD-ROMからHTMLファイルをダウンロードするバッチファイル
    • copy-pics.bat : CD-ROMから画像ファイルをダウンロードするバッチファイル
    • xsl.bat : HTMLファイルをXMLファイルに変換するバッチファイル
    • allinone.bat : 全てのファイルをまとめたコーパスファイルを作成し,文字コード・改行コードを調整するバッチファイル
    • aozora.xsl : XHTMLファイルをXMLファイルに変換するXSLファイル
    • xslt.js : XHTMLファイルをXMLファイルに変換するスクリプト
    • head.xml : コーパスファイルの宣言とルートノード
    • foot.xml : コーパスファイルのルートノードを閉じるタグ
    • xsltフォルダ
      • kotobun_written.xsl : 検索文字列が含まれる記事を表示するためのXSLファイル
      • kotobun_written.css : 検索文字列が含まれる記事を表示するためのカスケードシート
      • illustrationフォルダ : 画像ファイル
      • gaijiフォルダ : 外字の画像ファイル
    • xhtmlフォルダ : ダウンロードしたHTMLファイルを格納するフォルダ
    • xmlフォルダ : 生成したXMLファイルを格納するフォルダ

オレンジ色で書かれたものは,変換スクリプト(aozora.bat)を実行することによって生成されるファイル・フォルダです。

「青空文庫」変換スクリプト タグ定義

  • 以下に「青空文庫」のXHTMLタグに対応するXMLタグを示しました。尚,全てのXHTMLタグをXML化したわけではありません。
  • ここには「青空文庫」のXHTMLタグと対応しているもののみ載せました。全体の仕様は,以下のページと合わせてご覧ください。
    • 共有データ形式/書き言葉? (準備中)

タグリスト

※以下 「青空文庫」XHTMLタグ : Kotobun XMLタグ で示しました。
※タグの分類はKotobunの仕様に合わせてあります。

  • 文書構造に関連するタグ
    • 文書の構造
      • <html> : <記事 タイトル="作品名" 著者="著者名">
      • <body> : <テキスト 種別="本文">
      • <div class="main_text"> : <階層 種別="h1" タイトル="作品名">
    • ヘッダ・フッタ
      • <head> : <ヘッダ>(内容は<!-- 著作権情報 -->「タイトル」「サブタイトル」「原題」「著者」「翻訳者」「編者」)
      • 該当なし : <フッタ>(内容は<ブロック 種別="書誌情報"> <ブロック 種別="表記について"> 著作権情報
    • タイトル・著者等
      • <h1 class="title"> : <記事 タイトル="作品名">/<タイトル>/ヘッダ内で「タイトル」として要素内容を表示
      • <h2 class="author"> : <記事 著者="著者名">/<著者>/ヘッダ内で「著者」として要素内容を表示
      • <h2 class="editor"> : <著者>/ヘッダ内で「編者」として要素内容を表示
      • <h2 class="original_title"> : <タイトル>/ヘッダ内で「原題」として要素内容を表示
      • <h2 class="subtitle"> : <タイトル>/ヘッダ内で「サブタイトル」として要素内容を表示
      • <h2 class="translator"> : <著者>/ヘッダ内で「翻訳者」として要素内容を表示
    • ブロック
      • <div class="burasage"> : <ブロック 種別="ぶら下げ">
      • <div class="chitsuki_0" style="text-align:right; margin-right: 0em"> : <ブロック 種別="地付き" style="text-align:right; margin-right: 0em">
      • <div class="jisage_3" style="margin-left: 3em"> : <ブロック 種別="字下げ" style="jisage_3" style="margin-left: 3em">
      • <div class="bibliographical_information"> : <ブロック 種別="書誌情報">
      • <div class="notation_notes"> : <ブロック 種別="表記について">
  • 位置に関するタグ
    • <br> : <b />
  • 注記・校正に関するタグ
    • <span class="notes">[#注記内容]</span> : <注 種別="注記" 付与="入力" 内容="[#注記内容]"></注>
    • <span class="warichu"> : <割書>
  • 文字・表記に関するタグ
    • <ruby><rb>先刻</rb><rp></rp><rt>さっき</rt><rp></rp></ruby> : <r rt="さっき">先刻</r>
    • <small> : <小書>
  • その他のタグ
    • <b> : <span 種別="強調">
    • <em class="underline_double"> : <span 種別="傍線" 備考="underline_double">
    • <strong class="BLACK_CIRCLE"> : <span 種別="傍点" 備考="BLACK_CIRCLE">
    • <sub> : <span 種別="強調" 備考="下付き">
    • <sup> : <span 種別="強調" 備考="上付き">
  • 画像に関するタグ
    • <img gaiji="gaiji" src="ディレクトリ名・画像名" alt="解字・文字コード)" class="gaiji" /> : <画像 src="ディレクトリ名・画像名" alt="解字・文字コード" 備考="gaiji">
    • <img class="illustration" width="画像幅" height="画像高" src="画像名" alt="画像の説明" /> : <画像 src="ディレクトリ名・画像名" alt="画像の説明" height="画像幅" width="画像高" 備考="illustration"/>

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-01-18 (月) 00:00:00 (3502d)