「統語・意味解析コーパスの開発と言語研究」研究発表会 (平成31年1月27日)

プラシャント・パルデシ (国立国語研究所 理論・対照研究領域 教授)
平成31年1月27日 (日) 10:30~16:00
東北大学 川内北キャンパス 川北合同研究棟 1階 101室 (宮城県仙台市青葉区川内41)
どなたでも参加可能ですが,参加人数を確認するため,事前に n.nomura[at]ninjal.ac.jp 宛にお申し込みください。[at]を@に変えてください。


10:30~11:30 "Changing the morphological base of the NPCMJ" NAGASAKI Iku, Alastair BUTLER

This talk describes changes being made to the morphological base of the NPCMJ, a corpus of Japanese parsed for syntax. The old morphological base consisted of segmentation decisions on Japanese script to isolate word units together with the classification of each unit's part-of-speech (noun, verb, etc.). This old segmentation corresponded closely to, but also deviated from, the LUW (Long Unit Word) standard of the Corpus of Spontaneous Japanese (CSJ; Maekawa 2003) and the Balanced Corpus of Contemporary Written Japanese (BCCWJ; Maekawa et al. 2014). The replacement morphological base uses the JMOR system (Miyata & Naka, 2014) and is carried out with Romaji (Hebon) rather than the Japanese script. With this change it becomes possible to encode information about the internal makeup of words. Notably stem information is isolated and accompanied by an English gloss that acts as a partial lemmatisation. In addition, the grammatical functions of prefixes and suffixes are clearly distinguished. This change in morphological base brings significantly richer word information into the corpus, as well as a clear concept of what a word is for Japanese. But this change is also a massive undertaking, requiring major alterations to every annotated tree. In the talk we detail how we have used tools of automation to make the change feasible. This serves as an example of how it is possible to harness the power of a parsed corpus to improve and further supplement the contained analysis.


13:00~14:00 「統語・意味情報付きコーパスの開発に関する研究 : 中国語名詞句の解析について」 周 振


14:00~15:00 「名詞句と述語の共起関係から見たコーパス研究」
三好 伸芳

本発表では,統語情報付きコーパスであるNPCMJを用いて,文中における名詞句と述語の結びつきがどのように分布しているのかを明らかにする。名詞句には,普通名詞,固有名詞といったバリエーションがあるが,それらがテキスト内においてどのような述語 (動詞述語,形容詞述語,名詞述語) と結びついているのかは,従来のコーパスでは明らかにすることができなかった。本研究により,従来品詞等の分布と結びつけられていた文体論研究や量的研究に,項構造や格関係の分布といった,文法的な関係性を導入することが可能になる。
