全文検索システム『ひまわり』

作成者:山口昌也 (国立国語研究所)
2017-06-12更新(2014-04-01作成)
 

『国会会議録』パッケージの概要

収録データの内容

  • 収録した会議録
    • サイト:「国会会議録検索システム」
    • 会議名: 本会議,予算委員会(いずれも衆議院と参議院の両院)
    • 期間: 1947年〜2012年
    • 原資料のダウンロード日:2014-03-27, 28 (参議院本会議第180回25号のみ,2016-12-06)
    • 原資料からの変更点
      • 基本的に,会議録の内容に関わる変更は加えていません。
      • 原資料に付与されている HTML タグの変更・削除,および,検索用のタグの付与を行いました。
      • タグ付けなどの自動処理を妨げる,原資料の誤りは手動で修正しています。また,タグ付与された情報(例:発言者,肩書,開催日)は,機械的に処理を行っているため,誤りを含む可能性があります。特に,衆議院予算委員会では,発言者氏名の名前部分を自動補完しています。
  • 生年情報
    • 服部匡氏(同志社女子大学)作成の資料に基づいて付与しています。服部氏の資料は,『歴代国会議員名鑑』編纂委員会編:『歴代国会議員名鑑』(議会制度研究会)などに基づき,作成されています。使用させていただいた資料の一部は,服部氏のホームページ公開されています。
    • 上記資料から生年情報を得られない場合は,発言数100回以上の発言者に関して,Wikipedia および コトバンク(20世紀日本人名事典)などを調査し,付与しています。
    • なお,生年情報の付与は機械的に行っているため,同姓同名の話者が存在した場合などに誤りを含む可能性があります。

パッケージの利用条件

  • 本パッケージの利用は,非営利,かつ,学術利用に限定します。
  • 本パッケージ(全体・一部を問わない),および,本パッケージの派生物の再配布は,認めません。
  • 検索結果などからの引用を行う場合は,原資料の所在,本パッケージの利用を明記して下さい。
  • 利用の際は,次の点に留意してください:(a) 原資料の一部(第1〜144回)は,画像から機械的に文字を読み取って作成されているため,誤字・脱字などのエラーを含んでいる可能性があります。(b) 原資料は予告なく訂正される可能性があります。
  • 本パッケージを利用したことにより直接的,間接的に生じたいかなる損害について,パッケージ作成者は責任を負いません。

ダウンロード

  • 『国会会議録』パッケージ(20140327_rev20170612)(履歴,旧版
    • 本会議版(圧縮時約595MB,解凍時約942MB, ZIP形式)(会議録数:7127,討議部分:約1.43億字,全体:1.48億字)
    • 予算委委員会版(圧縮時約1.21GB,解凍時約1.90GB, ZIP形式)(会議録数:3979,討議部分:2.91億字,全体:3.01億字)
 
  • 形態素解析結果の追加パッケージ (20140327_rev20170612, ver.1.6専用開発版,MeCab ver.0.996)
    • 本会議版(圧縮時約743MB,解凍時約1.35GB, ZIP形式)
    • 予算委委員会版(圧縮時約1.5GB,解凍時約2.72GB, ZIP形式)
    • 注:『国会会議録』パッケージのバージョンと同じものを利用のこと

使用方法

インストール方法

  1. 『ひまわり』 (ver.1.5.4以上)をインストールしてください。
  2. ダウンロードしたパッケージのファイルを,起動している『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
  3. インストールが終了すると,config_kokkai_honkaigi.xml,もしくは,config_kokkai_yosan.xml が読み込まれた状態になります。本会議・予算委員会の両方を検索したい場合は,config_kokkai.xml を読み込んで下さい。

 以上で,インストールは終了です。

 なお,検索時にメモリ関連のエラーが出る場合は,FAQの「メモリ関連のエラーが出ます」の対処方法をお試し下さい。

形態素解析結果の追加パッケージのインストール方法

  1. 『ひまわり』ver.1.6 に『国会会議録』パッケージをインストールして下さい。なお,メモリ関連のエラーが発生する場合は,上記のFAQを参照して下さい。
  2. 形態素解析結果の追加パッケージをダウンロードし,ダウンロードしたパッケージのファイルを,起動している『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
  3. インストールが終了すると,config_kokkai_honkaigi.sd.xml,もしくは,config_kokkai_yosan.sd.xml が読み込まれた状態になります。本会議・予算委員会の両方を検索したい場合は,config_kokkai.sd.xml を読み込んで下さい。ファイル名の末尾に ".sd.xml"となっているのが,追加パッケージです。なお,『国会会議録』パッケージには変更は加えないので,config_kokkai.xmlなどはそのまま使えます。

検索

  • 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある設定ファイル(config_kokkai_yosan.xml など) を読み込んでください。
  • 検索対象は,検索文字列入力欄の左のプルダウンメニューから選択してください。
    • 討議部分 ... 討議(発話)の部分だけを検索します。正規表現検索よりも高速です。
    • 討議部分(正規) ... 討議(発話)の部分だけを正規表現検索します。
    • 討議前部分(正規) ... 討議前の記録部分を正規表現検索します。
    • 討議後部分(正規) ... 討議後の記録部分を正規表現検索します。
    • 全体(正規) ... 会議録全体(発話+討議前後の記録部分)を正規表現検索します。
    • 発話者(部分一致) ... 発話者をキーとして検索します。部分一致検索となります。検索結果のキー欄には,発言全体が表示されます。キー欄での表示が見にくい場合は,当該の結果をダブルクリックして,ブラウザで閲覧するなどしてください。
  • 収録している会議録のリストは,[ツール]⇒[一覧]⇒[作品別書誌情報一覧]を実行して下さい。
  • 詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。

検索結果

列名内容
議院参議院,衆議院の別
国会の開催回
会議名本会議,予算委委員会の別
会議の号
発言者検索結果の発言者(自動抽出)
発言者(正規化)「発言者」中の旧字を新字に変換したもの
肩書き発言者の肩書き(自動抽出)
開催日会議の開催年月日
文字数(討議)検索結果を含む議事録の討議部分の文字数
文字数(全体)検索結果を含む議事録全体の文字数
URL原資料のURL(ダブルクリック時は原資料の閲覧)

データ構造の詳細

全体構造

 一つの会議録は,次の三つの部分に分割されています。

  • ヘッダ ... 最初の発話が始まるまでの内容
  • 討議部分 ... 最初の発話から最後の発話までの内容
  • フッタ ... 最後の発話以降の内容

 検索対象の選択における「討議部分」は,上記の「討議部分」と対応します。また,検索対象の選択における「全体」とは上記の三つの部分をすべて含みます。

 なお,発話は行の冒頭に発言者が明記されていることを手がかりに自動認定しています。したがって,国会の開会式冒頭の式辞など,この形式で発言者が記述されていない部分は,発話としていません。

発話部分の構造

 発話部分には,実際の発話だけでなく,関連する情報が記載されています。それらは,発話自体を検索するときの妨げになるため,いくつかの情報付与を行っています。下記の例は,二つの発話からなる例です。

○議長(国会太郎君)
 本件を採決いたします。(「異議なし」と叫ぶ者あり)
 本件を委員長報告のとおり承認するに賛成の皆さんの起立を求めます。
    〔賛成者起立〕
    ――――◇―――――
 日程第一 平和的目的のための地下の探査

○国会次郎君
 本日は,.....

 1つ目の発話部分は,次の四つの部分に分けられます。この分割は機械的に行っているため,間違いを含む場合もあります。

 四つの部分のうち,検索対象となるのは,下記の「発話本体」だけです。また,表面上,発話本体に含まれる「(「異議なし」と叫ぶ者あり)」のような注記も検索対象とはなりません。なお,最後の発話部分における「付属情報2」は全体構造の「フッタ」となります。

  • 発言者,および,肩書き
    ○議長(国会太郎君)
  • 発話本体
     本件を採決いたします。
     本件を委員長報告のとおり承認するに賛成の皆さんの起立を求めます。
  • 付属情報1
    (「異議なし」と叫ぶ者あり)
  • 付属情報2
        〔賛成者起立〕
        ――――◇―――――
     日程第一 平和的目的のための地下の探査

アンケート

 よろしければ,アンケートにもお答えください。なお,このアンケートは,『国会会議録』パッケージをどのような方にお使いいただいているかを調べ,今後の研究・開発に活用するためのものです。アンケート結果は,これらの目的以外には利用しません。

所属
大学・高専等 小中高・専門学校等 研究機関 企業 個人 その他
身分
教職員 研究員 学生 その他
専門分野
日本語(国語)学 英語学 言語学 言語教育 自然言語処理・人工知能 その他(人文社会系) その他(理工系)
母国語
日本語 日本語以外
年齢
10代未満 10代 20代 30代 40代 50代 60代 70代以上
使用OS
Windows Mac Linux その他
コンピュータ使用歴
1年未満 1年以上3年未満 3年以上
ご意見・ご感想

謝辞

 本パッケージの公開を許諾してくださった国立国会図書館関係者の方々に感謝申し上げます。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2017-06-19 (月) 11:42:58 (35d)