設計の方針
- BCCWJ1との継続性を重視しつつ、構築を円滑に進めるため一部を簡略化して設計しています。
- BCCWJ2は2006〜2025年刊行の出版書籍を中核に、段階的な整備・公開を進めます(年次で整備)。
- 検索・閲覧で必要性が高いメタ情報(例:検索ツール表示に直結する項目)を優先し、構築効率化を図ります。
サンプリング
- BCCWJ1は「ページのランダム抽出→サンプル抽出基準点(1文字)を決定」という設計でした。
- BCCWJ2は母集団を「書籍の集合」とし、各年ごとにNDCで層別化したうえで、書籍単位でサンプリングします。
- 対象期間(2006〜2025年)の書誌情報が事業開始時点で全て揃わない前提のため、年ごとに層別サンプリングを実施し、毎年の取得目標(年500万語)を設定します。
形態素解析
- 形態素解析には最新版のUniDicを用いて整備します。
- BCCWJ1と同様に、マンガ、写真集、地図など文字を主体としない資料は除外します。
- 著作権処理を行わない設計方針と整合させるため、俳句・短歌・詩などの短い作品は収録しない方針です。
- BCCWJ2整備の成果を既存のBCCWJ1にも再適用し、両者を統合した利用に備える更新も進めます。
著作権について
- 2018年の著作権法改正(柔軟な権利制限規定)により、コーパス構築や検索サービスに関わる権利制限規定が整備されました。
- 一方で、著作権処理なしで公開する場合は、オンライン検索サービスでの表示文脈長を「軽微利用」の範囲に収める必要があります。
- BCCWJ2は著作権処理を行わない方針であるため、検索表示の文脈長など公開形態に制約が生じます(利用実態・需要との整合を見ながら設計)。
サブコーパス(書籍・教科書・SNS)
- 書籍:BCCWJ2の中核。出版書籍の設計方針に基づき、NDCによる層別サンプリングで整備します。
- 教科書:小・中・高の全学年・全教科の検定教科書(各1種)の全文を対象に、複数年度(例:2005年・2014年・2025年)を計画して体系的に収録する構想です。
- SNS:現代の書き言葉を補うレジスターとして位置づけ、収集・コーパス化に伴う論点(投稿種別、非規範的表記が処理に与える影響、保持すべきメタデータ等)を整理しながら整備します。


