NPCMJとは
世界の主要な言語において、統語解析情報付きコーパス (ツリーバンク) の整備が進められ、こうしたコーパスを利用した研究が言語学・言語処理の分野で目覚ましい成果を上げています。日本語については、2016年4月から、国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』がスタートし、NPCMJ(NINJAL Parsed Corpus of Modern Japanese)の構築が進められました。このコーパスは、現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報を付与し、多様な日本語の機能語や句構造、節の諸類型および複雑な構文を大量の言語データから検索・抽出して研究に活用できることを目的としています。プロジェクトは2022年3月に終了しましたが、その成果として、約9万文(9万ツリー)を公開しています。
出典 | ツリー数 | 語数 |
青空文庫(aozora) | 12,810 | 246,568 |
聖書(bible) | 1,664 | 26,089 |
ブログ(blog) | 219 | 3,218 |
書籍(book) | 553 | 10,992 |
辞書(dict) | 26,279 | 141,297 |
国会会議録(diet) | 1,698 | 32,715 |
エッセイ(essay) | 3,264 | 70,167 |
フィクション(fiction) | 7,597 | 84,169 |
法律文(law) | 337 | 6,943 |
ニュース(news) | 5,979 | 90,570 |
ノンフィクション(nonfiction) | 234 | 4,118 |
特許(patent) | 261 | 8,636 |
会話(spoken) | 2,382 | 12,720 |
テッドトーク(ted) | 1,453 | 21,420 |
教科書(textbook) | 6,950 | 63,952 |
白書(whitepaper) | 13,433 | 398,347 |
ウィキペディア(wikipedia) | 2,745 | 59,833 |
その他(misc) | 2,211 | 22,754 |
合計 | 90,069 | 1,304,508 |
NPCMJツール
かいのきツリーバンク ホームページ
このサイトでは、共同研究プロジェクト終了後も、NPCMJは「かいのきツリーバンク」という名称でメンテナンスを継続しています。アノテーションのほぼすべての側面を利用することのできる強力な検索インターフェースを備えています。ぜひご利用ください。
かいのきツリーバンク ホームページ を開く(外部リンク)
アノテーションマニュアル
NPCMJ アノテーションマニュアル
NPCMJ アノテーションマニュアルを開く
NPCMJ一括ダウンロード
Bracketed Treeファイル形式
NPCMJの全ファイル(Bracketed Treeファイル)をzip形式で圧縮したファイルです。
Bracketed Tree Kanaファイルをダウンロードする
Bracketed Tree Romajiファイルをダウンロードする
統語論教科書練習問題
Exercises for Analyzing Japanese Syntax: A Generative Perspective
Analyzing Japanese Syntax: A Generative Perspectiveは、生成文法の基本的な考え方を説明し、日本語の統語をどのように分析できるかを具体的な例を用いて示した統語論入門の教科書です。この教科書の練習問題は,NPCMJプロジェクトと連携して作成されました。初中級の練習問題がダウンロードできます。プロジェクト終了に伴い、上級レベルの練習問題はご利用いただけません。
練習問題をダウンロードする