[[全文検索システム『ひまわり』]] &color(red){&size(20){本ページは作成中です。};}; RIGHT:2014-04-xx RIGHT:作成者:山口昌也 (国立国語研究所) #br *『国会会議録』パッケージの概要 [#ec8e3188] - 本パッケージは,[[『国会会議録検索システム』>http://kokkai.ndl.go.jp/KENSAKU/swk_startup.html]]に収録されている会議録会議を[[『ひまわり』>全文検索システム『ひまわり』]]用にインポートしたデータです。 - 本パッケージの作成・配布は,[[国立国会図書館>http://www.ndl.go.jp/]]の許諾をいただいた上で行なっています。本パッケージの使用にあたっては,後述の「[[パッケージの利用条件>#ldb7a4b7]]」を必ずお読み下さい。 *収録データの内容 [#o33facbc] - サイト:[[『国会会議録検索システム』>http://kokkai.ndl.go.jp/KENSAKU/swk_startup.html]] - 収録した会議録 -- 会議名: 本会議,予算委員会(いずれも衆議院と参議院の両院) -- 期間: 1947年〜2012年 - 原資料のダウンロード日:2014-03-27, 28 - 原資料からの変更点 -- 基本的に,会議録の内容に関わる変更は加えていません。 -- 原資料に付与されている HTML タグの変更・削除,および,検索用のタグの付与を行いました。 -- 発言者の冒頭に付与されていた「○」を削除しました。 * パッケージの利用条件 [#ldb7a4b7] - 本パッケージの利用は,非営利,かつ,学術利用に限定します。 - 本パッケージ(全体・一部を問わない),および,本パッケージの派生物の再配布は,認めません。 - 検索結果などからの引用を行う場合は,原資料の所在,本パッケージを利用したことを明記して下さい。 - 原資料の一部(各会議の第1〜144回)は,画像から機械的に文字を読み取って作成されているため,誤字・脱字などのエラーを含んでいる可能性があります。また,原資料は予告なく訂正される可能性があります。分析を行う場合は,ご注意ください。 - 本パッケージを利用したことにより直接的,間接的に生じたいかなる損害について,パッケージ作成者は責任を負いません。 *ダウンロード [#g26eb865] //- [[『国会会議録』パッケージ(20140327)>]](圧縮時約MB,解凍時約MB, ZIP形式,[[履歴・旧バージョン>./履歴]]) *使用方法 [#lcd27131] ** インストール方法 [#ad87ca23] -[[『ひまわり』>全文検索システム『ひまわり』]]をインストールしてください。なお,ver.1.3 では,一部の機能を利用できません。 - ダウンロードしたファイルを解凍すると,KokkaiHimawari フォルダが現れます。その中に次のファイルがあることを確認してください。 Corpora フォルダ ... 『青空文庫』データを格納したフォルダ config_kokkai.xml ... 設定ファイル - 上記のフォルダ,ファイルを,『ひまわり』がインストールされているフォルダの中にコピーしてください。 -- Windows の場合,上書きの確認がでるかもしれませんが,そのまま続行してください。 -- &color(red){Mac の場合,上書きすると,元あったフォルダの内容が消えてしまう場合もあるので,Corpora フォルダの中身を個別にコピーして下さい。}; - 以上で,インストールは終了です。 ** 検索 [#xd38c47d] - 『ひまわり』を起動し,[ファイル]→[新規]で,設定ファイル(config_kokkai.xml) を読み込んでください。 - 検索対象は,検索文字列入力欄の左のプルダウンメニューから選択してください。 -- 討議部分 ... 討議(発話)の部分だけを検索します。 -- 討議部分(正規) ... 討議(発話)の部分だけを正規表現検索します。 -- 全体 ... 会議録全体(発話+討議前後の記録部分)を検索します。 -- 全体(正規) ... 会議録全体(発話+討議前後の記録部分)を正規表現検索します。 - 詳しい検索方法については,全文検索システム『ひまわり』の利用者マニュアルを参照してください。 ** 検索結果 [#z629c542] ** 検索結果 [#x10543d8] |列名|内容|h |議院|参議院,衆議院の別| |回|国会の開催回| |会議名|本会議,予算委委員会の別| |年|会議の開催年| |月|会議の開催月| |日|会議の開催日| |発言者|検索結果の発言者(自動抽出)| |肩書き|発言者の肩書き(自動抽出)| |文字数(討議)|検索結果を含む議事録の討議部分の文字数| |文字数(全体)|検索結果を含む議事録全体の文字数| * データ構造の詳細 [#l8794965] 原資料を言語研究で利用することを考慮し,『ひまわり』用データに変換するにあたり,ました。 ** 全体構造 [#w5c82df8] * データ構造の詳細 [#g10a901b] ** 全体構造 [#j1bb0657] 一つの会議録は,次の三つの部分に分割されています。 - ヘッダ ... 最初の発話が始まるまでの内容 - 討議部分 ... 最初の発話から最後の発話までの内容 - フッタ ... 最後の発話以降の内容 検索対象の選択における「討議部分」は,上記の「討議部分」と対応します。また,検索対象の選択における「全体」とは上記の三つの部分をすべて含みます。 なお,発話は行の冒頭に発言者が明記されていることを手がかりに自動認定しています。したがって,天皇の式辞など,発言者が明記されていない部分は,発話としていません。 ** 発話部分の構造 [#a173a609] ** 発話部分の構造 [#ja62ec1c] 発話部分には,実際の発話だけでなく,関連する情報が記載されています。それらは,発話自体を検索するときの妨げになるため,いくつかの情報付与を行っています。下記の例は,二つの発話からなる例です。 ○議長(国会太郎君) 本件を採決いたします。(「異議なし」と叫ぶ者あり) 本件を委員長報告のとおり承認するに賛成の皆さんの起立を求めます。 〔賛成者起立〕 ――――◇――――― 日程第一 平和的目的のための地下の探査 ○国会次郎君 本日は,..... 1つ目の発話部分は,次の四つの部分に分けられます。このうち,&color(red){検索対象となるのは「発話本体」だけです。また,表面上,発話本体に含まれる「(「異議なし」と叫ぶ者あり)」のような注記も検索対象とはなりません。}; - 発言者,および,肩書き ○議長(国会太郎君) - 発話本体 本件を採決いたします。 本件を委員長報告のとおり承認するに賛成の皆さんの起立を求めます。 - 付属情報1 (「異議なし」と叫ぶ者あり) - 付属情報2 〔賛成者起立〕 ――――◇――――― 日程第一 平和的目的のための地下の探査 // -書誌情報は,基本的に[[「作家別作品一覧拡充版」>http://www.aozora.gr.jp/index_pages/list_person_all_extended.zip]](2013-09-27時点のデータを使用)に準じます。 // -- 「作家別作品一覧拡充版」から取り込んだ情報は,次のとおりです。なお,括弧内は,『ひまわり』の検索結果における欄名です。 // >>>作品ID,副題,初出,分類番号,文字遣い種別,姓(著者,*後述),名(著者,*後述),図書カードURL,人物ID,役割フラグ(役割),生年月日,没年月日,底本名1(底本名),底本出版社名1(底本出版社名),底本初版発行年1(底本初版発行年),入力に使用した版1(入力に使用した版),XHTML/HTMLファイルURL(ファイルURL) // -- 検索結果の「著者」欄の内容は,「作家別作品一覧拡充版」の「姓」「名」欄を統合したものです。統合後,姓名の間は,空白で区切られます。また,例2のように,姓名がカタカナと記号からなる場合は,「名」「姓」の順に表示しています。 // ---例1: 「芥川」「竜之介」 ⇒ 「芥川 竜之介」 // ---例2: 「ポー」「エドガー・アラン」 ⇒ 「エドガー・アラン ポー」 // -- 「著者」欄などで複数の著者が入る場合は,「::」で区切られます。 // - 「文字数」欄は,当該の作品の「本文」に含まれる文字数です。ここで言う「本文」とは,青空文庫のXMLファイルの中から,冒頭の作品名,著者名,末尾の書誌情報・注記などを除いたテキスト部分です。半角空白や改行は,文字数に含まれていません。 *アンケート [#u7dd9448] よろしければ,アンケートにもお答えください。なお,このアンケートは,『国会会議録』パッケージをどのような方にお使いいただいているかを調べ,今後の研究・開発に活用するためのものです。アンケート結果は,これらの目的以外には利用しません。 #qa1(masaya,masaya,[himawari-kokkai_20140327],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),母国語:日本語/日本語以外,年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上,:TEXTAREA:ご意見・ご感想:3:81) //*謝辞 [#xc4d4323] // 収録作品の著者の方々,有益なデータを提供してくださる青空文庫の運営者,工作員の方々に心より感謝いたします。