#author("2021-09-07T15:28:09+09:00","default:rd","rd") [[全文検索システム『ひまわり』]] &color(red){&size(25){本ページは構築中です。};}; //&color(red){&size(25){本ページは構築中です。};}; RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2018-xx-xx RIGHT:2020-05-12 #br *『青空文庫TOP100』パッケージの概要 [#ec8e3188] 本パッケージは,[[『青空文庫』>http://www.aozora.gr.jp/]]のの作品(13606作品)を[[『ひまわり』>全文検索システム『ひまわり』]]用にインポートしたデータです。また,[[「作家別作品一覧拡充版」>http://www.aozora.gr.jp/index_pages/list_person_all_extended.zip]]や作品に含まれる文字数などの情報を取り込んでいます。 本パッケージは,[[『青空文庫』>http://www.aozora.gr.jp/]]の[[アクセスランキング>http://www.aozora.gr.jp/access_ranking/]](2009-2017)に基づきアクセス数上位100作品を抽出し,[[『ひまわり』>全文検索システム『ひまわり』]]用にインポートしたデータです。[[『青空文庫』パッケージ>../『青空文庫』パッケージ]]では追加パッケージだった形態素解析結果も同梱(ver.1.6用のみ)しています。 次のような利用方法を想定して,作成しました。 - 『ひまわり』で検索の練習がしたい。 - [[『青空文庫』パッケージ>../『青空文庫』パッケージ]]を使う前に,試してみたい。 *収録データの内容 [#o33facbc] - サイト:[[『青空文庫』>http://www.aozora.gr.jp/]] - 収録作品 -- [[「作家別作品一覧拡充版」>http://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip]](2017-10-01時点のデータを使用。リンク先は現在のものなので注意)から次の条件を満たす[[13606作品>http://csd.ninjal.ac.jp/archives/Aozora/aozora_list_20171001.xlsx]] --- 著作権が切れていること --- XHTML 版が存在し,かつ,『青空文庫』サイトから配布されていること --- 『ひまわり』用にインポートできること --- なお,底本が複数ある作品は,「文字遣い種別」が新字,新仮名の作品を優先しました -- [[青空文庫アクセスランキング>http://www.aozora.gr.jp/access_ranking/]](2009-2017,XHTML版,&ref(./aozora_top_all(2009-2017).xlsx,全年合計結果);)のアクセス数&ref(./aozora_top100(2009-2017).xlsx,上位100冊);です。 -- ダウンロード後,[[『青空文庫』パッケージ>../『青空文庫』パッケージ]]と同様の方法で『ひまわり』にインポートしています。 -- 注記 --- 底本が複数ある作品は,アクセスランキングが上位の作品のみ収録しています。 --- 上下巻などに分冊されている作品でも,ランキングに入っている冊のみ収録しています。 --- 「[[萩原 朔太郎:月に吠える>http://www.aozora.gr.jp/cards/000067/files/859_21656.html]]」は,XHMLファイルがwell-formedでないので,不要なタグを削除した後,収録しています(&ref(./859_21656.html.patch,patch);)。 - 原資料からの変更点 -- 『ひまわり』のインポート機能を利用し,『ひまわり』用のデータに変換しています。 -- 変換時に本文には変更を加えていませんが,インポート後,画像で表現されている外字(サロゲートペアによる文字は除く)を文字に変換しています。 -- ルビ,注記などの付与情報についても,基本的に改変を加えていませんが,『ひまわり』用のデータ形式の関係上,反映できなかった情報(例:head要素中の書誌情報)もあります。 *使用条件 [#te59028f] - 本パッケージの使用条件は,[[青空文庫収録ファイルの取り扱い規準>http://www.aozora.gr.jp/guide/kijyunn.html]]に準じます。 - 本ページで公開しているパッケージを利用したことにより直接的,間接的に生じる,いかなる損害も保証しません。 *ダウンロード [#g26eb865] // 20160401は,旧版から一部仕様に変更があります。旧版を利用している方は,必ず[[履歴>./履歴]]をご確認下さい。なお,問題があれば,[[履歴>./履歴]]のページ末に旧バージョンへのリンクがありますので,そちらを利用して下さい。 - [[『青空文庫TOP100』パッケージ(20200512)>https://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari100_20200512.zip]](圧縮時約51MB,解凍時約93MB, ZIP形式,[[履歴・旧版>./履歴]]) - [[『青空文庫』パッケージ(20171001)>http://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari_20171001.zip]](圧縮時約811MB,解凍時約1.2GB, ZIP形式,[[履歴・旧バージョン>./履歴]]) //- [[『青空文庫』パッケージ>https://docs.google.com/open?id=0B3ugrVEv6NiAR1R6X2tueHR2SWs]](圧縮時約599MB,解凍時約882MB, ZIP形式) //-- &color(red){Windows をお使いの方は,ダウンロードしたファイルを右クリックし,[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。}; //-- 20130927版 を ver.1.5でも使えるように,設定ファイルを修正しました(現在,公開しているパッケージ20130927_01版はそのまま使えます)。収録されている作品に変更はありません。[[差分>http://csd.ninjal.ac.jp/archives/aozora_himawari_20130927_01_diff.zip]]をダウンロード・解凍し,内容(Corporaフォルダ,各種config_xxx.xml)を『ひまわり』がインストールされているフォルダにコピーして下さい。 #br - [[(通常版) 形態素解析結果追加パッケージ>http://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari_20171001_db.7z]] (圧縮時約1.1GB,解凍時約6.3GB, 7z形式) //-- &color(red){4月6〜10日にかけて,ダウンロードした方はお手数ですが,ファイルの更新をお願いいたします。};該当ファイル名はaozora_himawari_20170401_db.7z,最新版は日付部分が20170401aとしてあります。誤って,青空文庫の本文以外(著作権情報など)も形態素解析対象になっていました。大変失礼しました。 -- &color(red){利用には};,上記の『青空文庫』パッケージと[[『ひまわり』ver.1.5>http://www2.ninjal.ac.jp/lrc/index.php?%C1%B4%CA%B8%B8%A1%BA%F7%A5%B7%A5%B9%A5%C6%A5%E0%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9%2F%A5%C0%A5%A6%A5%F3%A5%ED%A1%BC%A5%C9%2F%A1%D8%A4%D2%A4%DE%A4%EF%A4%EA%A1%D9ver.1.5]]が必要です。 -- 収録作品を [[MeCab>http://taku910.github.io/mecab/]] (ver.0.996) で形態素解析した結果です。 -- 『ひまわり』ver.1.5に標準で付属している「青空文庫サンプル」と同様,当該検索文字列の前後2形態素が表示されます。検索には時間がかかるため,じっくり分析する人向けです。 -- ファイルは,7z形式で圧縮されています。OS標準の機能では,解凍できません。[[7-Zip>http://sevenzip.sourceforge.jp/download.html]],[[7-Zip Portable>http://portableapps.com/apps/utilities/7-zip_portable]]などを利用して,解凍して下さい。 - [[(ver.1.6専用) 形態素解析結果追加パッケージ>http://csd.ninjal.ac.jp/archives/Aozora/aozora_himawari_morph_20171001.zip]] (圧縮時約964MB,解凍時約1.8GB, zip形式) -- 上記の通常版と内容に違いはありませんが,『ひまわり』&color(red){ver.1.6専用};です。検索の高速化,パッケージサイズの軽量化が図られています。 -- 圧縮形式もzipなので,他のパッケージと同様ドラッグ&ドロップでインストール可能です。 -- ただし,ver.1.6は現在開発版なので,&color(red){通常版よりも不具合を多く含む可能性があります。}; *使用方法 [#lcd27131] ** インストール方法 [#ad87ca23] + [[『ひまわり』>全文検索システム『ひまわり』]](ver.1.6以降)をインストールしてください。 + [[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。形態素解析結果を用いる場合は,ver.1.6が必要です。 + 『青空文庫』パッケージをダウンロードし,ダウンロードしたzipファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。 以上で,インストールは終了です。 // 次回以降は,『ひまわり』フォルダにインストールされた設定ファイル(config_aozora.xmlかconfig_aozora_db.xmlなど)を以下「検索」の説明にしたがって読み込んで下さい。 次回以降は,『ひまわり』フォルダにインストールされた設定ファイルを以下「検索」の説明にしたがって読み込んで下さい。config_aozora100.xmlは形態素結果のアノテーション「なし」,config_aozora100.sd.xmlが「あり」です。 ** 検索 [#xd38c47d] // 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある設定ファイル(config_aozora.xmlかconfig_aozora_db.xml) を読み込んでください。なお,設定ファイルは,上記のとおり,2種類を収録していますので,適宜使い分けてください。検索結果の時に詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。 『ひまわり』を起動し,[ファイル]⇒[コーパス選択]で「青空文庫TOP100」を選択してください。「外部DB」が「なし」だと全文検索のみ,「あり(sd)」にすると形態素解析結果を利用した検索ができます。使い方の詳細は,[[『青空文庫』パッケージ>../『青空文庫』パッケージ#xd38c47d]]を参照して下さい。 //-書誌情報は,基本的に[[「作家別作品一覧拡充版」>http://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip]](2016-04-01時点のデータを使用。リンク先は現在のものなので注意)に準じます。 //-- 「作家別作品一覧拡充版」から取り込んだ情報は,次のとおりです。なお,括弧内は,『ひまわり』の検索結果における欄名です。 //>>>作品ID,副題,初出,分類番号,文字遣い種別,姓(著者,*後述),名(著者,*後述),図書カードURL,人物ID,役割フラグ(役割),生年月日,没年月日,底本名1(底本名),底本出版社名1(底本出版社名),底本初版発行年1(底本初版発行年),入力に使用した版1(入力に使用した版),XHTML/HTMLファイルURL(ファイルURL) //-- 検索結果の「著者」欄の内容は,「作家別作品一覧拡充版」の「姓」「名」欄を統合したものです。統合後,姓名の間は,空白で区切られます。また,例2のように,姓名がカタカナと記号からなる場合は,「名」「姓」の順に表示しています。 //---例1: 「芥川」「竜之介」 ⇒ 「芥川 竜之介」 //---例2: 「ポー」「エドガー・アラン」 ⇒ 「エドガー・アラン ポー」 //-- 「著者」欄などで複数の著者が入る場合は,「::」で区切られます。 //- 「文字数」欄は,当該の作品の「本文」に含まれる文字数です。ここで言う「本文」とは,青空文庫のXMLファイルの中から,冒頭の作品名,著者名,末尾の書誌情報・注記などを除いたテキスト部分です。半角空白や改行は,文字数に含まれていません。 //- 収録作品のリストは,[ツール]⇒[一覧]⇒[作品別書誌情報一覧]を実行して下さい。 *アンケート [#u7dd9448] よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。 #qa1(masaya,masaya,[himawari-aozora_top100],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),母国語:日本語/日本語以外,年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81) *謝辞 [#xc4d4323] 収録作品の著者の方々,有益なデータを提供してくださる青空文庫の運営者,工作員の方々に心より感謝いたします。 *アンケート [#d2bd366e] #html{{ <div style="text-align:center"> <iframe width="95%" height= "480px" src= "https://forms.office.com/Pages/ResponsePage.aspx?id=WgYfnQMt70Gf98AUO1nLLK1_3DY3SyJFoMYGxl173Z1UN1lTWjA0ODgwVUFCMVlTSEtFMjZHUUFTRi4u&embed=true" frameborder= "0" marginwidth= "0" marginheight= "0" style= "border: solid thin #aaaaaa; max-width:100%; max-height:100vh; text-align: center" allowfullscreen webkitallowfullscreen mozallowfullscreen msallowfullscreen> </iframe> </div> }}