日本英語学会第36回大会特別公開シンポジウム 「ツリーバンク開発と言語理論」

プロジェクト名・リーダー名
統語・意味解析コーパスの開発と言語研究
プラシャント・パルデシ (国立国語研究所 理論・対照研究領域 教授)
開催期日
平成30年11月25日 (日) 13:10~15:55
開催場所
横浜国立大学 経済学部講義棟 1号館 1階 101教室 (横浜市保土ケ谷区常盤台79-1)
アクセス

事前申込み不要です。

「ツリーバンク開発と言語理論」

司会
吉本 啓 (東北大学)
コメンテーター
福島 一彦 (関西外国語大学)

プログラム

趣旨説明
プラシャント・パルデシ (国立国語研究所)

日本語に関して従来公開されてきたコーパスは,文の文節への分析を基礎として,形態素解析情報および文節間の係り受け関係をタグ付けしたものが中心である。しかし,言語研究に必要となる階層的な深い情報を文節とその係り受け関係から自動的に得ることには限界がある。現在,国立国語研究所で文の統語解析情報 (句構造) をアノテートした NINJAL Parsed Corpus of Modern Japanese (NPCMJ) の開発が進められている。本コーパスはペン通時コーパス (Penn Historical Treebank; Santorini 2010 [1]) のアノテーション方式を採用しており,統語情報のアノテーションは表層的,中立的なものであり,特定の形式言語理論にコミットしていない。本シンポジウムでは NPCMJ の開発,このコーパスを検索するための検索ツールおよびコーパスに基づく言語研究の可能性について最新の研究成果を報告する。

[1] Santorini, B. (2010) Annotation Manual for the Penn Historical Corpora and the PCEEC (Release 2). Tech. rep., Dep. of Computer and Information Science, University of Pennsylvania.

「言語研究と統語・意味解析情報付きコーパス」 吉本 啓 (東北大学)

従来日本語について入手可能なコーパスは,形態素情報を基本として,文節と文節間の係り受け情報を付加したものに限定されていた。しかし,形態素情報だけでは文法的な曖昧性を克服するには不十分である。また文の文節への分割は意味を反映しない。これに対して,文統語・意味解析情報付加コーパス NPCMJ は句構造解析情報がタグ付けされており,構文にもとづくピンポイントの言語データの解析を可能にする。また,句構造とその自動意味解析により語句間の依存関係が正確に把握され,様々な文法情報の提供が可能になる。
本発表では,NPCMJ 開発の動機に続き,アノテーションの方法について説明する。さらに検索利用による日本語使用実態の解明について具体例を挙げ,NPCMJ により日本語の量的研究と質的研究の統合がもたらされることを述べる。

「構文検索ツール NPCMJ Explorer」 鈴木 彩香 (国立国語研究所) ,窪田 悠介 (筑波大学) ,プラシャント・パルデシ (国立国語研究所)

本発表は,NPCMJ の検索インターフェース開発の中で見えてきた,統語・意味解析コーパスと記述文法研究の接点について報告,および提案するものである。日本語の主要な文法現象を検索することを目的とした NPCMJ Explorer の開発にあたって,代表的な記述文法書である益岡・田窪 (1992 [1]) の記述と NPCMJ のアノテーションを照らし合わせる作業を行ったことにより,NPCMJ を用いて文法項目を検索する際に強みとなる部分が明らかになった。本発表では,その点について課題となる点も含めて報告するとともに,両者の接点からもたらされる新たな研究の可能性をさぐる。

[1] 益岡隆志・田窪行則 (1992) 『基礎日本語文法−改訂版−』 くろしお出版

“A Unified Interface for Exploring English and Japanese” Alastair BUTLER (弘前大学)

This talk gives a general introduction to the data model and online interfaces available for accessing two parsed corpora that have been developed largely in tandem: the NINJAL Parsed Corpus of Modern Japanese (NPCMJ) (also available in an earlier release form as the Keyaki Treebank) and the Treebank Semantics Parsed Corpus (TSPC). While these corpora are for very different languages, Japanese and English, respectively, there is considerable overlap, both in terms of parallel data, as well as principles of annotation. In addition to full availability of the source annotation, results can be accessed through a shared web-interface that allows for sophisticated searches of syntactic structure using a flexible path based query language, and flipping between results for either resource, as well as visualisations, including views to explore syntactic dependencies across tree structures in discourse, track multiple modifier-head dependencies, follow cross-sections of valence information for verbs, nouns, and adjectives, and observe resulting displays from semantic calculations.

“English/Japanese Contrastive Study Based on Normalization, a Step in the Semantic Processing” Stephen HORN (国立国語研究所) ,Alastair BUTLER (弘前大学)

In a Scope Control Theory (Butler 2015 [1]) driven corpus, annotation directly encodes local dependencies like head::complement, predicate::argument, clause::subject. Other dependencies like pronoun::antecedent, extraction site::extracted element, controller::null subject, etc. can be indirectly established by reading generalized structural definitions into a semantic calculation. Whether for Japanese or for English, if the annotation is sufficiently principled, it can be normalized (re-written) into input for the calculation. Put into practice in the NPCMJ and TSPC, the relationship between the annotation and the normalization, and the language-specific aspects of the normalization program itself, both encapsulate contrasts between Japanese and English. In this paper we compare annotation of “Peter Rabbit” in the original English with that for a Japanese translation to exemplify some of these contrasts, ranging from morphology (e.g., encoding the grammatical category of number) to semantics (scope of negation, indefiniteness, etc.).

[1] Butler, Alastair. (2015) Linguistic Expressions and Semantic Processing: A Practical Approach, Springer.