NPCMJとは

世界の主要な言語において、統語解析情報付きコーパス (ツリーバンク) の整備が進められ、こうしたコーパスを利用した研究が言語学・言語処理の分野で目覚ましい成果を上げています。日本語については、2016年4月から、国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』がスタートし、NPCMJ(NINJAL Parsed Corpus of Modern Japanese)の構築が進められました。このコーパスは、現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報を付与し、多様な日本語の機能語や句構造、節の諸類型および複雑な構文を大量の言語データから検索・抽出して研究に活用できることを目的としています。プロジェクトは2022年3月に終了しましたが、その成果として、約9万文(9万ツリー)を公開しています。

出典 ツリー数 語数
青空文庫(aozora) 12,810 246,568
聖書(bible) 1,664 26,089
ブログ(blog) 219 3,218
書籍(book) 553 10,992
辞書(dict) 26,279 141,297
国会会議録(diet) 1,698 32,715
エッセイ(essay) 3,264 70,167
フィクション(fiction) 7,597 84,169
法律文(law) 337 6,943
ニュース(news) 5,979 90,570
ノンフィクション(nonfiction) 234 4,118
特許(patent) 261 8,636
会話(spoken) 2,382 12,720
テッドトーク(ted) 1,453 21,420
教科書(textbook) 6,950 63,952
白書(whitepaper) 13,433 398,347
ウィキペディア(wikipedia) 2,745 59,833
その他(misc) 2,211 22,754
合計 90,069 1,304,508

NPCMJツール

かいのきツリーバンク ホームページ
このサイトでは、共同研究プロジェクト終了後も、NPCMJは「かいのきツリーバンク」という名称でメンテナンスを継続しています。アノテーションのほぼすべての側面を利用することのできる強力な検索インターフェースを備えています。ぜひご利用ください。
かいのきツリーバンク ホームページ を開く(外部リンク)

アノテーションマニュアル

NPCMJ アノテーションマニュアル
NPCMJ アノテーションマニュアルを開く

NPCMJ一括ダウンロード

Bracketed Treeファイル形式
NPCMJの全ファイル(Bracketed Treeファイル)をzip形式で圧縮したファイルです。
Bracketed Tree Kanaファイルをダウンロードする
Bracketed Tree Romajiファイルをダウンロードする

統語論教科書練習問題

Exercises for Analyzing Japanese Syntax: A Generative Perspective
Analyzing Japanese Syntax: A Generative Perspectiveは、生成文法の基本的な考え方を説明し、日本語の統語をどのように分析できるかを具体的な例を用いて示した統語論入門の教科書です。この教科書の練習問題は,NPCMJプロジェクトと連携して作成されました。初中級の練習問題がダウンロードできます。プロジェクト終了に伴い、上級レベルの練習問題はご利用いただけません。
練習問題をダウンロードする