[[全文検索システム『ひまわり』]]


RIGHT:作成者:山口昌也 (国立国語研究所)
RIGHT:2017-06-12更新(2014-04-01作成)
#br

*『国会会議録』パッケージの概要 [#ec8e3188]
- 本パッケージは,[[『国会会議録検索システム』>http://kokkai.ndl.go.jp/KENSAKU/swk_startup.html]]に収録されている国会の会議録を[[『ひまわり』>全文検索システム『ひまわり』]]用にインポートしたデータです。
- 本パッケージの作成・配布は,[[国立国会図書館>http://www.ndl.go.jp/]]の許諾をいただいた上で行なっています。本パッケージの使用にあたっては,後述の「[[パッケージの利用条件>#ldb7a4b7]]」を必ずお読み下さい。


*収録データの内容 [#o33facbc]
- 収録した会議録
-- サイト:[[「国会会議録検索システム」>http://kokkai.ndl.go.jp/KENSAKU/swk_startup.html]]
-- 会議名: 本会議,予算委員会(いずれも衆議院と参議院の両院)
-- 期間: 1947年〜2012年
-- 原資料のダウンロード日:2014-03-27, 28 (参議院本会議第180回25号のみ,2016-12-06)
-- 原資料からの変更点
--- 基本的に,会議録の内容に関わる変更は加えていません。
--- 原資料に付与されている HTML タグの変更・削除,および,検索用のタグの付与を行いました。
--- タグ付けなどの自動処理を妨げる,原資料の誤りは手動で修正しています。また,タグ付与された情報(例:発言者,肩書,開催日)は,機械的に処理を行っているため,誤りを含む可能性があります。&color(red){特に,衆議院予算委員会では,発言者氏名の名前部分を自動補完しています。};
- 生年情報
-- 服部匡氏(同志社女子大学)作成の資料に基づいて付与しています。服部氏の資料は,『歴代国会議員名鑑』編纂委員会編:『歴代国会議員名鑑』(議会制度研究会)などに基づき,作成されています。使用させていただいた資料の一部は,[[服部氏のホームページ>http://thattori.com/]]で[[公開>http://thattori.com/asakura/asakura.zip]]されています。
-- 上記資料から生年情報を得られない場合は,発言数100回以上の発言者に関して,Wikipedia および [[コトバンク(20世紀日本人名事典)>https://kotobank.jp/]]などを調査し,付与しています。
-- なお,生年情報の付与は機械的に行っているため,同姓同名の話者が存在した場合などに誤りを含む可能性があります。


* パッケージの利用条件 [#ldb7a4b7]
- 本パッケージの利用は,非営利,かつ,学術利用に限定します。
- 本パッケージ(全体・一部を問わない),および,本パッケージの派生物の再配布は,認めません。
- 検索結果などからの引用を行う場合は,原資料の所在,本パッケージの利用を明記して下さい。
- 利用の際は,次の点に留意してください:(a) 原資料の一部(第1〜144回)は,画像から機械的に文字を読み取って作成されているため,誤字・脱字などのエラーを含んでいる可能性があります。(b) 原資料は予告なく訂正される可能性があります。
- 本パッケージを利用したことにより直接的,間接的に生じたいかなる損害について,パッケージ作成者は責任を負いません。


*ダウンロード [#g26eb865]
- 『国会会議録』パッケージ(20140327_rev20170612)([[履歴,旧版>./履歴]])
//-- &color(red){調整中です。履歴から旧版をご利用下さい。};
-- [[本会議版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_honkaigi_rev20170612.zip]](圧縮時約595MB,解凍時約942MB, ZIP形式)(会議録数:7127,討議部分:約1.43億字,全体:1.48億字)
-- [[予算委委員会版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_yosan_rev20170612.zip]](圧縮時約1.21GB,解凍時約1.90GB, ZIP形式)(会議録数:3979,討議部分:2.91億字,全体:3.01億字)
//-- [[本会議版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_honkaigi_rev20170201.zip]](圧縮時約593MB,解凍時約932MB, ZIP形式)(会議録数:7127,討議部分:約1.43億字,全体:1.48億字)
//-- [[予算委委員会版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_yosan_rev20170201.zip]](圧縮時約1.21GB,解凍時約1.86GB, ZIP形式)(会議録数:3979,討議部分:2.91億字,全体:3.01億字)
//-- [[本会議版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_honkaigi_rev20161208.zip]](圧縮時約593MB,解凍時約932MB, ZIP形式)(会議録数:7127,討議部分:約1.43億字,全体:1.48億字)
//-- [[予算委委員会版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_yosan_rev20161208.zip]](圧縮時約1.21GB,解凍時約1.86GB, ZIP形式)(会議録数:3979,討議部分:2.91億字,全体:3.01億字)
//-- [[本会議版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_honkaigi_rev20161115.zip]](圧縮時約592MB,解凍時約925MB, ZIP形式)(会議録数:7216,討議部分:約1.42億字,全体:1.47億字)
//-- [[予算委委員会版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_yosan_rev20161115.zip]](圧縮時約1.20GB,解凍時約1.83GB, ZIP形式)(会議録数:3979,討議部分:2.91億字,全体:3.01億字)
//-- [[本会議版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_honkaigi_rev20160525.zip]](圧縮時約592MB,解凍時約925MB, ZIP形式)(会議録数:7216,討議部分:約1.42億字,全体:1.47億字)
//-- [[予算委委員会版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_yosan_rev20160525.zip]](圧縮時約1.20GB,解凍時約1.83GB, ZIP形式)(会議録数:3979,討議部分:2.91億字,全体:3.01億字)
//-- [[本会議版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_honkaigi_20140327.zip]](圧縮時約605MB,解凍時約922MB, ZIP形式)(会議録数:7216,討議部分:約1.42億字,全体:1.46億字)
//-- [[予算委委員会版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_yosan_20140327.zip]](圧縮時約1.22GB,解凍時約1.82GB, ZIP形式)(会議録数:3979,討議部分:2.91億字,全体:3.01億字)
//-- [[本会議版>]](圧縮時約605MB,解凍時約922MB, ZIP形式)(討議部分:142606773文字,全体:147578739文字)
//-- [[予算委委員会版>]](圧縮時約1.22GB,解凍時約1.82GB, ZIP形式)(討議部分:291285052文字,全体:301352413文字)

#br
- 形態素解析結果の追加パッケージ (&color(red){ver.1.6専用};,&color(red){開発版};,MeCab ver.0.996)
- 形態素解析結果の追加パッケージ (20140327_rev20170612, &color(red){ver.1.6専用};,&color(red){開発版};,MeCab ver.0.996)
-- [[本会議版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_honkaigi_rev20170612sd.zip]](圧縮時約743MB,解凍時約1.35GB, ZIP形式)
-- [[予算委委員会版>http://csd.ninjal.ac.jp/archives/Kokkai/kokkaiHimawari_yosan_rev20170612sd.zip]](圧縮時約1.5GB,解凍時約2.72GB, ZIP形式)
-- &color(red){注:};『国会会議録』パッケージのバージョンと同じものを利用のこと

//- 開発版『ひまわり』の評価用(&color(red){[[『ひまわり』ver.1.6>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6]]が必要};)ですが,[[形態素解析結果の追加パッケージ>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6/リリースノート/テスト用言語資料#f8d25721]]も用意しています。興味のある方は,ご覧ください。



*使用方法 [#lcd27131]
** インストール方法 [#ad87ca23]
+ [[『ひまわり』>全文検索システム『ひまわり』]] (ver.1.5.4以上)をインストールしてください。
+ ダウンロードしたパッケージのファイルを,起動している『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
+ インストールが終了すると,config_kokkai_honkaigi.xml,もしくは,config_kokkai_yosan.xml が読み込まれた状態になります。本会議・予算委員会の両方を検索したい場合は,config_kokkai.xml を読み込んで下さい。

 以上で,インストールは終了です。

 なお,検索時にメモリ関連のエラーが出る場合は,[[FAQの「メモリ関連のエラーが出ます」>全文検索システム『ひまわり』/FAQ#efb0e87d]]の対処方法をお試し下さい。

** 形態素解析結果の追加パッケージのインストール方法 [#o9fd3974]
+ [[『ひまわり』ver.1.6>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.6]] に『国会会議録』パッケージをインストールして下さい。なお,メモリ関連のエラーが発生する場合は,上記のFAQを参照して下さい。
+ 形態素解析結果の追加パッケージをダウンロードし,ダウンロードしたパッケージのファイルを,起動している『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい。
+ インストールが終了すると,config_kokkai_honkaigi.sd.xml,もしくは,config_kokkai_yosan.sd.xml が読み込まれた状態になります。本会議・予算委員会の両方を検索したい場合は,config_kokkai.sd.xml を読み込んで下さい。ファイル名の末尾に ".sd.xml"となっているのが,追加パッケージです。なお,『国会会議録』パッケージには変更は加えないので,config_kokkai.xmlなどはそのまま使えます。

//#br
// また,旧版の『ひまわり』の場合は,パッケージに同梱されているファイル(上記の Corpora フォルダ,config ファイル)を『ひまわり』のフォルダにコピーする方法でインストールしてください。
//
//#ref(./install_kokkai.png,center,70%)

** 検索 [#xd38c47d]
- 『ひまわり』を起動し,[ファイル]→[新規]やドラッグ&ドロップで,『ひまわり』フォルダにある設定ファイル(config_kokkai_yosan.xml など) を読み込んでください。
- 検索対象は,検索文字列入力欄の左のプルダウンメニューから選択してください。
-- 討議部分 ... 討議(発話)の部分だけを検索します。正規表現検索よりも高速です。
-- 討議部分(正規) ... 討議(発話)の部分だけを正規表現検索します。
-- 討議前部分(正規) ... 討議前の記録部分を正規表現検索します。
-- 討議後部分(正規) ... 討議後の記録部分を正規表現検索します。
-- 全体(正規) ... 会議録全体(発話+討議前後の記録部分)を正規表現検索します。
-- 発話者(部分一致) ... 発話者をキーとして検索します。部分一致検索となります。検索結果のキー欄には,発言全体が表示されます。キー欄での表示が見にくい場合は,当該の結果をダブルクリックして,ブラウザで閲覧するなどしてください。
- 収録している会議録のリストは,[ツール]⇒[一覧]⇒[作品別書誌情報一覧]を実行して下さい。
- 詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。

** 検索結果 [#tdabd611]

|列名|内容|h
|議院|参議院,衆議院の別|
|回|国会の開催回|
|会議名|本会議,予算委委員会の別|
|号|会議の号|
|発言者|検索結果の発言者(自動抽出)|
|発言者(正規化)|「発言者」中の旧字を新字に変換したもの|
|肩書き|発言者の肩書き(自動抽出)|
|開催日|会議の開催年月日|
|文字数(討議)|検索結果を含む議事録の討議部分の文字数|
|文字数(全体)|検索結果を含む議事録全体の文字数|
|URL|原資料のURL(ダブルクリック時は原資料の閲覧)|


* データ構造の詳細 [#taa2f250]
** 全体構造 [#mec97c36]
 一つの会議録は,次の三つの部分に分割されています。

- ヘッダ ... 最初の発話が始まるまでの内容
- 討議部分 ... 最初の発話から最後の発話までの内容
- フッタ ... 最後の発話以降の内容

 検索対象の選択における「討議部分」は,上記の「討議部分」と対応します。また,検索対象の選択における「全体」とは上記の三つの部分をすべて含みます。

 なお,発話は行の冒頭に発言者が明記されていることを手がかりに自動認定しています。したがって,国会の開会式冒頭の式辞など,この形式で発言者が記述されていない部分は,発話としていません。

** 発話部分の構造 [#t6c7a88d]
 発話部分には,実際の発話だけでなく,関連する情報が記載されています。それらは,発話自体を検索するときの妨げになるため,いくつかの情報付与を行っています。下記の例は,二つの発話からなる例です。

 ○議長(国会太郎君)
  本件を採決いたします。(「異議なし」と叫ぶ者あり)
  本件を委員長報告のとおり承認するに賛成の皆さんの起立を求めます。
     〔賛成者起立〕
     ――――◇―――――
  日程第一 平和的目的のための地下の探査
 
 ○国会次郎君
  本日は,.....

 1つ目の発話部分は,次の四つの部分に分けられます。この分割は機械的に行っているため,間違いを含む場合もあります。

 四つの部分のうち,&color(red){検索対象となるのは,下記の「発話本体」だけです。また,表面上,発話本体に含まれる「(「異議なし」と叫ぶ者あり)」のような注記も検索対象とはなりません。};なお,最後の発話部分における「付属情報2」は全体構造の「フッタ」となります。

- 発言者,および,肩書き
 ○議長(国会太郎君)
- 発話本体
  本件を採決いたします。
  本件を委員長報告のとおり承認するに賛成の皆さんの起立を求めます。
- 付属情報1
 (「異議なし」と叫ぶ者あり)
- 付属情報2
     〔賛成者起立〕
     ――――◇―――――
  日程第一 平和的目的のための地下の探査


// -書誌情報は,基本的に[[「作家別作品一覧拡充版」>http://www.aozora.gr.jp/index_pages/list_person_all_extended.zip]](2013-09-27時点のデータを使用)に準じます。
// -- 「作家別作品一覧拡充版」から取り込んだ情報は,次のとおりです。なお,括弧内は,『ひまわり』の検索結果における欄名です。
// >>>作品ID,副題,初出,分類番号,文字遣い種別,姓(著者,*後述),名(著者,*後述),図書カードURL,人物ID,役割フラグ(役割),生年月日,没年月日,底本名1(底本名),底本出版社名1(底本出版社名),底本初版発行年1(底本初版発行年),入力に使用した版1(入力に使用した版),XHTML/HTMLファイルURL(ファイルURL)

// -- 検索結果の「著者」欄の内容は,「作家別作品一覧拡充版」の「姓」「名」欄を統合したものです。統合後,姓名の間は,空白で区切られます。また,例2のように,姓名がカタカナと記号からなる場合は,「名」「姓」の順に表示しています。
// ---例1: 「芥川」「竜之介」 ⇒ 「芥川 竜之介」
// ---例2: 「ポー」「エドガー・アラン」 ⇒ 「エドガー・アラン ポー」
// -- 「著者」欄などで複数の著者が入る場合は,「::」で区切られます。
// - 「文字数」欄は,当該の作品の「本文」に含まれる文字数です。ここで言う「本文」とは,青空文庫のXMLファイルの中から,冒頭の作品名,著者名,末尾の書誌情報・注記などを除いたテキスト部分です。半角空白や改行は,文字数に含まれていません。


*アンケート [#u7dd9448]
 よろしければ,アンケートにもお答えください。なお,このアンケートは,『国会会議録』パッケージをどのような方にお使いいただいているかを調べ,今後の研究・開発に活用するためのものです。アンケート結果は,これらの目的以外には利用しません。

#qa1(masaya,masaya,[himawari-kokkai_20140327_rev20170612],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),母国語:日本語/日本語以外,年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81)


*謝辞 [#xc4d4323]
 本パッケージの公開を許諾してくださった[[国立国会図書館>http://www.ndl.go.jp/]]関係者の方々に感謝申し上げます。

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS