『表記統合辞書』

表記統合辞書 利用マニュアル

ver.1.0 (2005-07-11)


山口昌也,桐生りか,田中牧郎 (独立行政法人 国立国語研究所)




目次





はじめに

  • 『表記統合辞書』は,言語研究・自然言語処理用に開発された,同語判別のための基礎データです。
  • 『表記統合辞書』の利用例としては,『茶筌』で形態素解析した結果に対して,同語判別を行う,ということが挙げられます。例えば,『茶筌』の解析結果(『IPADIC』 ver.2.4.4 を利用した場合)では,「組み立てる」と「組立てる」は表記上の違いにより,別語となりますが,『表記統合辞書』を使うことにより,同じ語であると判断することができます。

1.『表記統合辞書』の内容

  • 『表記統合辞書』は,『IPADIC』の各辞書項目に対して,同語と判断される他の辞書項目の「見出し」の情報を追加したものである。
    • 本辞書では,『IPADIC』 ver.2.4.4 を使用した。以後,特に断りのないかぎり,このバージョンを『IPADIC』と表記する。
    • 『IPADIC』の内容の詳細については,『IPADIC』に添付されている「ユーザーズマニュアル」を参照されたい。
  • 本辞書には,『IPADIC』に登録されている辞書項目 233624 語(形態素)のうち,同語と認定される辞書項目が存在する 28810 語を収録している。
    • 同語の認定は,3節の「統合のための規則」にしたがって行った。
    • なお,規則を作成するにあたっては,「通す/透す」といったような意味による書き分けについては,規則化していない。
  • 本辞書の内容には,未解決の問題も含まれている。使用にあたっては,4節「未解決の問題」を参照のこと。

2.『表記統合辞書』の形式

2.1 物理形式

  • 文字コード Shift_JIS
  • 改行文字 CR/LF
  • タブ区切りのテキスト形式。フィールドの内容は,次のとおり。
    • 第1フィールド: 『IPADIC』の「見出し語」
    • 第2フィールド: 『IPADIC』の「読み」
    • 第3フィールド: 『IPADIC』の「品詞名」
    • 第4フィールド: 『IPADIC』の「活用型」
    • 第5フィールド: 当該の「見出し語」に対して,同語と判断された「見出し語」のリスト
      • 当該の辞書項目の見出しも含める。
      • 見出しと見出しの間は,「くみたてる/組み立てる/組立てる」のように,「/」で区切って列挙する。
      • あくまでも,「当該の「見出し語」に対して同語」ということであり,ここに列挙された語の間すべてに同語の関係があるわけではない。

2.2 例

第1フィールド第2フィールド第3フィールド第4フィールド第5フィールド
例1編みものアミモノ名詞-一般編みもの/編み物/編物
例2編み物アミモノ名詞-一般編みもの/編み物/編物
例3編物アミモノ名詞-一般編みもの/編み物/編物
例4すばやいスバヤイ形容詞-自立形容詞・アウオ段すばやい/素早い
例5素早いスバヤイ形容詞-自立形容詞・アウオ段すばやい/素早い
例6厩舎キュウシャ名詞-一般きゅう舎/厩舎
例7鳩舎キュウシャ名詞-一般きゅう舎/鳩舎
例8きゅう舎キュウシャ名詞-一般きゅう舎/厩舎/鳩舎
 

例の見方

  • 例1: 「編みもの」は,「編み物」「編物」と同語である。
  • 例8: 「きゅう舎」は,「厩舎」「鳩舎」と同語である。ただし,第5フィールドに列挙されている見出し語の間に同語の関係があるわけではないことに注意されたい。したがって,例えば,「厩舎」と「鳩舎」が同語であることを意味してはいない。

3.統合のための規則

 『IPADIC』 の辞書項目のうち,

  • 品詞,活用型が同一
  • 読みが同一

であり,次の規則に合致する辞書項目同士は,同語とする。ただし,品詞が「名詞-固有名詞」の辞書項目については,対象外とする。なお,以下の規則中に示した実例は,左から『IPADIC』の「読み」,「品詞」,同語と判断される「見出し語」の列である。

  • 送り仮名による違い
    • 送り仮名の有無
      ワリツケ          名詞-一般              割り付け/割付/割付け
    • 促音,撥音の有無
      スットンキョウ    名詞-形容動詞語幹   素っ頓狂/素頓狂
      マンマル          名詞-形容動詞語幹      真ん丸/真丸
  • 字種による違い
    • ひらがな,カタカナ,漢字
      イス              名詞-一般              いす/イス/椅子
      イキイキ          副詞-助詞類接続        いきいき/生き生き
      ヨビオコス        動詞-自立              よびおこす/呼び起こす
    • 一般名詞,および,数詞における漢数字,アラビア数字,ローマ数字
      ハチミリ          名詞-一般              8ミリ/八ミリ
      レイ              名詞-数                〇/○/零
    • アルファベット表記とカタカナ表記
      エヌジー          名詞-一般              NG/エヌジー
      ヘルツ            名詞-接尾-助数詞       hz/ヘルツ
    • 「ヵ」,「か」,「カ」,「ヶ」,「ケ」,「箇」,「個」
      カソン            名詞-接尾-助数詞       か村/カ村/ケ村/ヵ村/ヶ村
    • アルファベットの大文字・小文字(2文字以上の形態素の場合)
      ペーハー          名詞-一般              PH/pH
    • 名詞-接尾-助数詞で同一の単位における字種
      トン              名詞-接尾-助数詞       t/トン/噸
  • 記号類による違い
    • 読点・中黒の違い,読点・中黒の有無
      ショウチュウガクセイ    名詞-一般        小、中学生/小・中学生/小中学生	
    • 「々」,「ゝ」などの踊り字の種類,有無
      アラアラシイ      形容詞-自立            荒々しい/荒荒しい
      イヨイヨ          副詞-一般              愈/愈々
      シバシバ          副詞-一般              屡/屡々	

4.未解決の問題

  • カタカナ語の異表記(主な例)
    • 長音の有無(例:「コンピュータ」,「コンピューター」)
    • 発音表記(例:「バイオリン」,「ヴァイオリン」)
  • 漢字の旧字,異体字(例:暁/曉,虱/蝨)
  • 別語とするべきものの扱い
    • 特に,漢字表記に対するひらがな,カタカナ表記
    • 現状では,例えば,外来語の「メイド」(maid)と「明度」は,同語と認定されている。しかし,「明度」をカタカナ表記で「メイド」とすることは,通常ないと思われる。

5.連絡先等

  • 『表記統合辞書』を利用した研究成果を公開された場合は,公開の事実(書誌情報等)を morphdic @ kokken_go_jp (「_」は,「.」に置き換えてください) までお知らせいただければ幸いです。ご協力をお願い申し上げます。
  • 誤りのご指摘,ご意見などについても,上記アドレスまでお願いいたします。お返事はお約束いたしかねますが,今後の開発に役立てさせていただきます。
  • 最新情報は,独立行政法人 国立国語研究所の「言語データベースとソフトウェア」Web ページで公開しています。

謝辞

  • 『IPADIC』を開発された,奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座(松本研究室)の関係者の方々に感謝いたします。
  • 本辞書の作成にあたり有益なコメントを下さった鳴門教育大学の茂木俊伸氏に感謝いたします。
  • 本辞書の作成に関わったアルバイタの方々に感謝いたします。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-01-18 (月) 00:00:00 (3563d)