『たんぽぽ』,『プリズム』

雑誌コーパスの文書定義

雑誌コーパスXML文書は『太陽コーパス』で採用されている形式です。 詳しい説明は『太陽コーパス CD-ROM解説書』 *1 、『雑誌『太陽』による確立期現代語の研究 ―『太陽』コーパス研究論文集―』 *2 をご覧ください。 また、こちらで文書定義ファイルを公開しています。

主な要素

雑誌コーパスXMLを構成する要素の一覧です。

種類要素名説明主な属性主な子要素
[箱形要素]
(ブロック)
雑誌雑誌1冊分雑誌名・年・号・Version記事
記事記事1つ分の範囲題名・著者・肩書s・引用
引用引用部分出典・話者s
s句読点を単位とした擬似的な文[行内要素]
[行内要素]
(インライン)
br論理改行empty
段落記号段落の切れ目を表すカギ括弧原文empty
l原文における改行位置位置・元位置empty
r振り仮名rt(振り仮名文字列)[テキスト]・外字
外字JIS(X0208)外字文字番号・文字説明[テキスト]
修正部分に対する注記原文・種類[テキスト]・外字・r
踊字踊り字種類・値々ゝゞヽヾなど
割書割り書き[テキスト]・外字・r・注・割書改行
割書改行割り書き中の改行empty
敬意欠字敬意を示すための欠字スペース
合字合字「こと」「トモ」など
小書小書きカタカナカタカナ
上付上付き小書き文字数字などのテキスト
下付下付き小書き文字数字などのテキスト
非入力対象コーパスに含めなかった本文種類・表見出しempty

文書定義ファイル

XMLスキーマによる雑誌コーパスの文書定義ファイルです。

  • filezassi.xsd  雑誌コーパスXML文書定義ファイル
  • 本ページでは,GPL ライセンスに基づいて,このパッケージを配布しています。 GPLライセンスについてはリンク先(http://www.gnu.org/licenses/gpl.ja.html)をご覧ください。

*1 国立国語研究所資料集15『太陽コーパス 日本語データベース 解説書』 2005年 博文館新社
*2 田中牧郎(2005)「言語資料としての雑誌『太陽』の考察と『太陽コーパス』の設計」『雑誌『太陽』による確立期現代語の研究 ―『太陽』コーパス研究論文集―』国立国語研究所報告122 2005年 博文館新社

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-01-18 (月) 00:00:00 (3505d)