設計の方針

  • BCCWJ1との継続性を重視しつつ、構築を円滑に進めるため一部を簡略化して設計しています。
  • BCCWJ2は2006〜2025年刊行の出版書籍を中核に、段階的な整備・公開を進めます(年次で整備)。
  • 検索・閲覧で必要性が高いメタ情報(例:検索ツール表示に直結する項目)を優先し、構築効率化を図ります。

サンプリング

  • BCCWJ1は「ページのランダム抽出→サンプル抽出基準点(1文字)を決定」という設計でした。
  • BCCWJ2は母集団を「書籍の集合」とし、各年ごとにNDCで層別化したうえで、書籍単位でサンプリングします。
  • 対象期間(2006〜2025年)の書誌情報が事業開始時点で全て揃わない前提のため、年ごとに層別サンプリングを実施し、毎年の取得目標(年500万語)を設定します。

形態素解析

  • 形態素解析には最新版のUniDicを用いて整備します。
  • BCCWJ1と同様に、マンガ、写真集、地図など文字を主体としない資料は除外します。
  • 著作権処理を行わない設計方針と整合させるため、俳句・短歌・詩などの短い作品は収録しない方針です。
  • BCCWJ2整備の成果を既存のBCCWJ1にも再適用し、両者を統合した利用に備える更新も進めます。

サブコーパス(書籍・教科書・SNS)

  • 書籍:BCCWJ2の中核。出版書籍の設計方針に基づき、NDCによる層別サンプリングで整備します。
  • 教科書:小・中・高の全学年・全教科の検定教科書(各1種)の全文を対象に、複数年度(例:2005年・2014年・2025年)を計画して体系的に収録する構想です。
  • SNS:現代の書き言葉を補うレジスターとして位置づけ、収集・コーパス化に伴う論点(投稿種別、非規範的表記が処理に与える影響、保持すべきメタデータ等)を整理しながら整備します。