全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2018-08-22
 

1.概要

 このページでは,『CD-毎日新聞データ集』本社版,1994年以降)を『ひまわり』にインポートする方法を示します。ただし,2.1 節のとおり,実行環境に制限があります。必ず,事前に実行環境を確認して下さい。

 なお,本ページの内容,および,配布パッケージの動作は,無保証です。自己責任での実行をお願いいたします。

2.準備

2.1 実行環境の確認

 インポート時は大量のメモリを使用するため, 次の条件を満たす PC が必要です。

  1. OSが64ビット版であること
  2. 8GB 以上のメモリが搭載されていること
  3. Windowsの場合,64ビット版の JRE (Java の実行環境)がインストールされていること
    • インストールしていない場合は,64ビット版の JRE を Oracle のサイトからダウンロードし,インストールしてください。
  4. 『ひまわり』はver.1.6を使います。ver.1.5以下では動作しません。

2.2 「毎日新聞データ集用変換パッケージ」のインストール

  1. 「毎日新聞データ集用変換パッケージ」をダウンロードしてください。
  2. 『ひまわり』を起動し,ダウンロードしたファイルを『ひまわり』にドラッグ&ドロップして下さい。なお,ファイルは展開(解凍)する必要はありません。

3.変換手順

3.1 毎日新聞データの配置

  1. 毎日新聞のテキストデータを格納するために,「Mainichi」というフォルダを新規に作成して下さい。
  2. インポートする毎日新聞のファイルをMainichiフォルダにセットアップします。このとき,次のように年ごとにフォルダを作成し,そこに毎日新聞のファイルをコピーして下さい。なお,ファイル末尾が .TXT のように大文字の場合は,小文字にして下さい(例:mai94.TXT → mai94.txt)
    - Mainichi
     - 1994
       - mai94.txt
     - 1995
       - mai95.txt
          :
     - 2002
       - mai2002a.txt
       - mai2002b.txt
           :

3.2 インポートの実行

  1. 『ひまわり』を起動して下さい。
  2. 3.1で作成したMainichiフォルダを『ひまわり』にドラッグ&ドロップして下さい。
  3. インポート設定用のウィンドウの「詳細オプション」をクリックすると,次のウィンドウが起動します。
    • 「テキスト変換」オプションのメニューから「mainichi.htd」を選択して下さい。
    • 「設定ファイル(テンプレート)」オプションのメニューから「mainichiConfig.xml」を選択して下さい。
    • 「サブコーパスを作る」オプションにチェックを入れて下さい。
       
      import_mainichi.png
       
  4. 「インポート」ボタンを押すと,インポートの処理が開始します。「インポートが正常に終了しました」と出れば,成功です。
  5. 「毎日新聞データ集用変換パッケージ」のインストールをもう一度行なって下さい。これは,インポートの処理を行うと,「毎日新聞データ集用変換パッケージ」でインストールしたファイルの一部が削除されるためです。

4.利用方法

4.1 検索方法

  1. 『ひまわり』を起動し,[ファイル]→[コーパス選択]で,Mainichi(config_mainichi.xml) を読み込んでください。インポート直後はこの状態です。
  2. これで,インポートしたデータを検索できる状態になります。詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。

4.2 検索結果

列名内容
タイトル記事見出し
面種記事の面種
記事を含む新聞の発行年
記事を含む新聞の発行月
記事を含む新聞の発行日
朝/夕刊朝刊,夕刊の別
地域大阪版の記事の場合,大阪となる。本社版の場合は,空欄
文字数記事に含まれる文字数

 「CD-毎日新聞データ集」の仕様は,日外アソシエーツ納品データ仕様書(本社版)を参照して下さい。インポート時は,元データをそのまま利用していますが,次のような個別処理を行なっています。詳しい処理内容は,インポートの変換定義ファイル(resoureces/htd/mainichi.htd)をご覧ください。

  • 大阪版の記事の場合,元データでは,記事見出しの末尾に「【大阪】」が付与されていますが,インポート時に削除しています。
  • 著作権がフラグが「著作権無」の記事は,記事本文を空欄した状態でインポートしています。

アンケート

 よろしければ,アンケートにもお答えください。なお,このアンケートは,『ひまわり』をどのような方にお使いいただいているかを調べ,今後の研究・開発に活用させていただくためのものです。アンケート結果は,これらの目的以外には利用いたしません。

所属
大学・高専等 小中高・専門学校等 研究機関 企業 個人 その他
身分
教職員 研究員 学生 その他
専門分野
日本語(国語)学 英語学 言語学 言語教育 自然言語処理・人工知能 その他(人文社会系) その他(理工系)
母国語
日本語 日本語以外
年齢
10代未満 10代 20代 30代 40代 50代 60代 70代以上
使用OS
Windows Mac Linux その他
コンピュータ使用歴
1年未満 1年以上3年未満 3年以上
ご意見・ご感想

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2018-08-22 (水) 00:00:00 (425d)