NPCMJ Searchインタフェースの公開終了のお知らせ
2016年のNPCMJの公開以来、NPCMJ Searchインタフェースを提供してきましたが、2022年3月1日をもって公開を終了いたしました。
NPCMJ Explorerは引き続きご利用いただけますが、NPCMJ Searchのリンク機能は使えなくなります。
今後は、NPCMJ Searchに代わるDevelopmentインタフェース(https://oncoj.orinst.ox.ac.uk/より公開)のご利用をお勧めします。NPCMJを検索する場合は、Contemporary JapaneseセクションにあるKainokiコーパスを選んでください。
このインタフェースは、NPCMJ Searchよりもさらに強力な検索ツールで、今後もプロジェクトの最新成果を取り入れながら継続的に更新します。NPCMJ以外にも、同じ設計方針で構築された多様な日本語コーパス(古典、方言、幼児言語発達データ、外国人日本語学習者データ)がご利用いただけます。
NPCMJとは
世界の主要な言語において、統語解析情報付きコーパス (ツリーバンク) の整備が進められ、こうしたコーパスを利用した研究が言語学・言語処理の分野で目覚ましい成果を上げています。日本語については、2016年より、国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』がスタートし、現在、NPCMJ(NINJAL Parsed Corpus of Modern Japanese)の構築が進められています。このコーパスは、現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報を付与し、多様な日本語の機能語や句構造、節の諸類型および複雑な構文を大量の言語データから検索・抽出して研究に活用できることを目的としています。約9万文(9万ツリー)を公開しています。あわせて、多様な検索ができる以下のNPCMJ向けツールを提供しています。ぜひお試しください。
出典 | ツリー数 | 語数 |
青空文庫(aozora) | 12,810 | 246,568 |
聖書(bible) | 1,664 | 26,089 |
ブログ(blog) | 219 | 3,218 |
書籍(book) | 553 | 10,992 |
辞書(dict) | 26,279 | 141,297 |
国会会議録(diet) | 1,698 | 32,715 |
エッセイ(essay) | 3,264 | 70,167 |
フィクション(fiction) | 7,597 | 84,169 |
法律文(law) | 337 | 6,943 |
ニュース(news) | 5,979 | 90,570 |
ノンフィクション(nonfiction) | 234 | 4,118 |
特許(patent) | 261 | 8,636 |
会話(spoken) | 2,382 | 12,720 |
テッドトーク(ted) | 1,453 | 21,420 |
教科書(textbook) | 6,950 | 63,952 |
白書(whitepaper) | 13,433 | 398,347 |
ウィキペディア(wikipedia) | 2,745 | 59,833 |
その他(misc) | 2,211 | 22,754 |
合計 | 90,069 | 1,304,508 |
NPCMJツール
NPCMJ Development Interfaces(データは日々更新されます)
NPCMJ Development Interfaces では、開発中の最新のコーパスデータにアクセスし、Tregexを利用したツリー検索および文字列検索を行うことができます。加えて、アノテーションから得られた詳細な情報の閲覧など、さまざまな機能を備えています。
NPCMJ Development Interfaces を開く(外部リンク)
NPCMJ Explorer初中級者向け
NPCMJ Explorerは、益岡隆志・田窪行則著『基礎日本語文法―改訂版―』(くろしお出版)の各文法項目に該当する用例を調べることができるパターンブラウズと、ユーザが入力した文字列を含む用例を検索することができる文字列検索の機能が統合されたツールです。
NPCMJ Explorer を開く
NPCMJ Child Language Development Timeline (NPCMJ-CLDT)
NPCMJ-CLDT はそよごツリーバンクを扱うためのインターフェースです。そよごツリーバンクは子供の日本語のデータを統語解析したコーパスであり、CHILDES データベースに収録されたデータを使用しています。NPCMJ-CLDT によって、子供の日本語の形態・統語分析を年齢・月齢フィルターを通じて検索・閲覧することができます。そよごツリーバンクと NPCMJ-CLDT は NPCMJプロジェクトの一環として開発されました。
NPCMJ-CLDT を開く
NPCMJ アノテーションマニュアル
NPCMJ アノテーションマニュアルをダウンロードする
NPCMJ一括ダウンロード
Bracketed Treeファイル形式
NPCMJの全ファイル(Bracketed Treeファイル)をzip形式で圧縮したファイルです。
Bracketed Tree Kanaファイルをダウンロードする
Bracketed Tree Romajiファイルをダウンロードする
統語論教科書練習問題
Exercises for Analyzing Japanese Syntax: A Generative Perspective
Analyzing Japanese Syntax: A Generative Perspectiveは、生成文法の基本的な考え方を説明し、日本語の統語をどのように分析できるかを具体的な例を用いて示した統語論入門の教科書です。この教科書の練習問題は,NPCMJプロジェクトと連携し作成したもので,上級レベルの練習問題にはNPCMJの検索エンジンを使って取り組む課題もあります。
Exercises for Analyzing Japanese Syntax: A Generative Perspectiveを開く