全文検索システム『ひまわり』/ダウンロード/『国会会議録』パッケージ

変更履歴

  • 2017-06-12 20140327_rev20170612版公開
    • 付属情報の認定処理を改善1
      • 旧版では一部を除き,()で囲われた要素はすべて付属情報として本文から除外していたが,本文自体への注記でない要素だけに付属情報の認定範囲を限定
      • 付属情報となる例:「(発言する者多し)」,「(拍手)」「(笑声)」「(机をたたく)」「(パネルを示す)」「(資料掲示)」
      • 本文になる例: 「平和条約第五条(C)項」「平成十二年度一般会計補正予算(第1号)」
    • 付属情報の認定処理を改善2
      • 区切り記号の一部(例:━━━━━━━━━━━━━,─────────────)が付属情報へ変換されていなかった不具合を修正
      • 区切り記号以降は付属情報と認定されるため,従来,検索対象の本文だった部分が付属情報となる
    • 付属情報の認定処理を改善3
      • 一部の議事録では,区切り記号が本文と付属情報の区切りとして使用されていないため,後続行が「文」の場合は,後続要素は付属情報としないように修正
      • なお,一部については,人手で判断している
    • 付属情報の認定処理を改善4
      • 開議や休憩などの時刻を表す行を付属情報とした(例:午後一時六分休憩)
    • 発言者名を正規化(常用漢字の旧字体⇒新字体)した属性を追加し,検索結果にも「発言者(正規化)」列を追加
    • 字体変換時に従来は新字体⇒旧字体の変換しか行っていなかったが,旧字体⇒新字体も追加(本パッケージ用のjitaidic.xmlを作成)
    • 原資料のテキスト中に混入していた改行コードの断片(^M)を削除(該当箇所を含む検索結果をExcelなどに貼り付けると,当該箇所で別の行になってしまう)
    • 発話時に25才以上95才以下となる場合のみ,発話の著者情報に生年を付与するように変更
    • 生年情報を修正(山口鶴男,田中久雄,中村喜四郎(先代))
    • 本文から会議開催日を取得できない場合は,人手で補完
  • 2017-02-01 20140327_rev20170201版公開
    • 衆議院予算委員会における発言者氏名の名前部分の補完方法を改善(衆議院予算委員会に含まれる全発言の約4%(約17000ヶ所)を変更)
    • 衆議院本会議(第007回国会第30号)の開催年月日を修正(議事録本文も合わせて修正)
    • 生年情報の誤りを修正(1名・24箇所)
  • 2016-12-09 20140327_rev20161208版公開
    • 公開開始時に収録元サイトで配布されていなかった1議事録(参議院本会議180回25号)を追加
    • 発言者の生年を追加
    • 「文字数」欄を数値としてソートできるように修正
    • 『ひまわり』ver.1.6.a20160524の評価用に,形態素解析結果の追加パッケージも合わせて公開
  • 2016-11-15 20140327_rev20161115版公開
    • 平成元年に開催された会議の「開催日」欄の年が1988年となっていた不具合を修正
    • 「開催日」欄が空欄(--)になる問題を軽減
      • 原資料に問題があるものは,開催日部分の本文を修正
    • 『ひまわり』ver.1.6.a20160524の評価用に,形態素解析結果の追加パッケージも合わせて公開
  • 2016-05-25 20140327_rev20160525版公開
    • 32bit版のWindows のメモリ不足に対応するため,1〜144回を三つのサブコーパスに分割
    • 『ひまわり』ver.1.6.a20160524の評価用に,形態素解析結果の追加パッケージも合わせて公開
  • 2015-11-18 20140327_rev20151118版公開
    • 発言者名の自動抽出時の誤り修正
    • 発言者名の正規化
      • 姓のみの場合,名を自動補完(衆議院予算委員会)
      • 発言者名末尾の「君」を削除
    • 発言者をキーとした検索機能の追加
    • 上記の自動処理が原資料の誤りにより失敗する場合は,原資料を人手で修正した
  • 2014-04-01 公開開始
 
 

旧バージョン


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2017-06-12 (月) 13:07:07 (129d)