[[全文検索システム『ひまわり』]]
//&size(20){&color(red){本ページは現在構築中です};};
RIGHT:2014-06-24
RIGHT:作成者:山口昌也 (国立国語研究所)
#br
* 1.概要 [#x0562e5e]
このページでは,[[『CD-毎日新聞データ集』>http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html]](&color(red){本社版,1994年以降};)を『ひまわり』にインポートする方法を示します。ただし,2.1 節のとおり,実行環境に制限があります。&color(red){必ず,事前に実行環境を確認して下さい。};
なお,本ページの内容,および,配布パッケージの動作は,無保証です。自己責任での実行をお願いいたします。
* 2.準備 [#a003392e]
** 2.1 実行環境の確認 [#a49e3d9a]
インポート時は大量のメモリを使用するため, 次の条件を満たす PC が必要です。
+ OSが64ビット版であること
-- Windowsの場合:(microsoft.com) [[自分のパソコンが 32 ビット版か 64 ビット版かを確認したい>http://support.microsoft.com/kb/958406/ja]]
-- macOSの場合は,確認の必要はありません(64ビット版でないと『ひまわり』自体が動きません)。
+ 8GB 以上のメモリが搭載されていること
+ Windowsの場合,64ビット版の JRE (Java の実行環境)がインストールされていること
-- インストールしていない場合は,64ビット版の JRE を [[Oracle のサイト>https://java.com/ja/download/manual.jsp]]からダウンロードし,インストールしてください。
+ [[ver.1.6>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6]]を使います。ver.1.5以下では動作しません。
** 2.2 「毎日新聞データ集用変換パッケージ」のインストール [#i04c1787]
+ 「毎日新聞データ集用変換パッケージ」([[himawari_mainichi.zip>http://csd.ninjal.ac.jp/archives/Himawari/himawari_mainichi_201808xx.zip]])をダウンロードしてください。
+ 『ひまわり』を起動し,ダウンロードしたファイル(himawari_mainichi.zip)を『ひまわり』にドラッグ&ドロップして下さい。なお,ファイルは展開(解凍)する必要はありません。
* 3.変換手順 [#j99c5630]
変換は,&color(red){1年分ずつ};行います。変換結果をまとめて検索する場合は,3.4 節を参照して下さい。
** 3.1 毎日新聞データの配置 [#vc95c8d5]
+ 毎日新聞のテキストデータを格納するために,「Mainichi」というフォルダを新規に作成して下さい。
+ インポートする毎日新聞のファイルをMainichiフォルダにセットアップします。このとき,次のように年ごとにフォルダを作成し,そこに毎日新聞のファイルをコピーして下さい。なお,&color(red){ファイル末尾が .TXT のように大文字の場合};は,小文字にして下さい(例:MAI95.TXT → MAI95.txt)
-- Mainichi
--- 1994
--- 1995
--- :
--- 2000
--- :
** 3.2 『ひまわり』の起動 [#c6a46152]
- コマンドラインから実行する場合は,次のように『ひまわり』を起動してください。
% java -Xmx3072m -jar himawari.jar
- コマンドラインでの操作が不慣れな方のために,起動用プログラムを用意しています。
-- Windows 用: execute_himawari_win.bat
-- Mac 用: execute_himawari_mac.command
--- 初回実行時に,「開発元が未確認のため開けません」と出た場合は,セキュリティ上の警告がでます。[[右クリック(副ボタンをクリック)>http://support.apple.com/kb/PH4537?viewlocale=ja_JP]]し,ポップアップメニューから「開く」を選択して下さい。
上記の起動例,および,起動用プログラムでは,デフォルトで 3072MB のメモリを確保するようになっています。もし,メモリ不足のエラーが出た場合は,数値を増やして下さい。なお,起動用プログラムはテキストエディタで編集できます。
** 3.3 インポートの実行 [#na449f5c]
+ [新規]→[インポート]を実行して下さい。
+ 「詳細オプション」をクリックすると,次のウィンドウが起動します。
-- 「参照」ボタンを押して,毎日新聞データを格納したフォルダを指定して下さい。この際,コーパス名は自動的にフォルダ名と同一になりますが,変更しないで下さい。
-- 「テキスト変換」オプションのメニューから「mainichi.htd」を選択して下さい。
#br
#ref(./import_mainichi.png,70%)
#br
+ 「インポート」ボタンを押すと,インポートの処理が開始します。「インポートが正常に終了しました」と出れば,成功です。
** 3.4 設定ファイルの修正 [#z962364f]
『ひまわり』は,設定ファイルで検索対象を切り替えます。「毎日新聞データ集用変換パッケージ」には,専用の設定ファイル(config_mainichi.xml)が含まれていますが,使用前にインポートしたデータの情報を書き込む必要があります。
例えば,3.1 でコーパス名を「mainichi1995」とした場合は,config_mainichi.xml を次のように修正して下さい。
- 修正前
<corpora name="毎日新聞データ集">
<li name="コーパス名(日本語もOK)" path="Corpora/インポート時に指定したコーパス名/corpus" />
</corpora>
- 修正後
<corpora name="毎日新聞データ集">
<li name="毎日新聞1995" path="Corpora/mainichi1995/corpus" />
</corpora>
複数の毎日新聞データをインポートし,まとめて検索するには,次のように設定を列挙して下さい。
- 修正後
<corpora name="毎日新聞データ集">
<li name="毎日新聞1995" path="Corpora/mainichi1995/corpus" />
<li name="毎日新聞1996" path="Corpora/mainichi1996/corpus" />
</corpora>
** 3.5 索引付け(インデックス生成) [#y5413342]
+ 3.2 と同様の方法で,『ひまわり』を再度起動し,[ファイル]→[新規]で config_mainichi.xml を読み込んで下さい。
+ [ツール]→[インデックス生成]を実行してください。
* 4.利用方法 [#f41daeb2]
** 4.1 検索方法 [#r46250bd]
+『ひまわり』を起動してください。インポート時とは異なり,[[通常の起動方法>全文検索システム『ひまわり』/利用者マニュアル/1_5/2.インストール#k55bc9ed]]でも大丈夫です。
+[ファイル]→[新規]で,設定ファイル(config_mainichi.xml) を読み込んでください。これで,インポートしたデータを検索できる状態になります。詳しい検索方法については,全文検索システム『ひまわり』の[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]を参照してください。
** 4.2 検索結果 [#tdabd611]
|列名|内容|h
|タイトル|記事見出し|
|面種|記事の面種|
|年|記事を含む新聞の発行年|
|月|記事を含む新聞の発行月|
|日|記事を含む新聞の発行日|
|朝/夕刊|朝刊,夕刊の別|
|地域|大阪版の記事の場合,大阪となる。本社版の場合は,空欄|
|文字数|記事に含まれる文字数|
「CD-毎日新聞データ集」の仕様は,[[日外アソシエーツ>http://www.nichigai.co.jp/sales/corpus.html]]の[[納品データ仕様書(本社版)>http://www.nichigai.co.jp/sales/pdf/man_mai.pdf]]を参照して下さい。インポート時は,元データをそのまま利用していますが,次のような個別処理を行なっています。詳しい処理内容は,インポートの変換定義ファイル(resoureces/htd/mainichi.htd)をご覧ください。
- 大阪版の記事の場合,元データでは,記事見出しの末尾に「【大阪】」が付与されていますが,インポート時に削除しています。
- 著作権がフラグが「著作権無」の記事は,記事本文を空欄した状態でインポートしています。
*アンケート [#u7dd9448]
よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。
#qa1(masaya,masaya,[himawari-mainichi_20140624],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),母国語:日本語/日本語以外,年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81)