UniDic

  • new! 2017/11/01 2017年8月よりUniDicの情報をまとめた新しいサイトがオープンしました。今後はこちらのページをご覧ください。 http://unidic.ninjal.ac.jp/ このページは更新は終了します。
  • 2012/05/02 科研費報告書『近代文語文を対象とした形態素解析のための電子化辞書の作成とその活用』(2009)のPDFを公開しました。

形態素解析辞書 : 近代文語UniDic


概要

  • 近代文語UniDicは、UniDicをもとにして近代文語文を解析できるようにした形態素解析辞書です。(現代語版のUniDicはこちら
  • 主として近代の論説文(明治普通文)を対象としています。文学作品や他の時代のテキストでは必ずしも良い解析結果が得られません。
  • MeCab版とChaSen版を公開しています(Windows用パッケージは両方の辞書を同梱)が、解析精度が高いMeCab版の使用をお勧めします。

近代茶まめ(Windows版)画面

kindai_chamame08.png

解析結果サンプル*1

利用条件

(現代語版UniDic 1.3.12と同等の内容です)

近代文語UniDic 利用条件

  1. 近代文語UniDic の著作権は,小木曽智信,小椋秀樹,近藤明日子 および The UniDic consortium(代表:伝康晴)が保持する。
  2. 近代文語UniDic を複製又は改変することは,個人的な利用に限り認める。
  3. 近代文語UniDic 及びこれを改変したものを再配布してはならない。
  4. 近代文語UniDic を利用して行った研究等の成果を公表する場合は,近代文語UniDic ver.1.3 を利用したことを明記すること。
  5. 営利を目的として,近代文語UniDic を利用する場合は,事前に著作権者と協議すること。
  6. 近代文語UniDic を利用することによって,直接的・間接的に生じたいかなる損害についても,著作権者は賠償する責任を負わない。
  7. 本文書に定めのない事項については,著作権者と協議すること。

ダウンロード

近代文語UniDicのダウンロード

恐れ入りますが,次のアンケートにお答えください。アンケート結果を送信するとダウンロードページに移動します。
なお,このアンケートは『近代文語UniDic』をどのような方にお使いいただいているかを調べるものです。お送りいただいた情報は,今後の研究・開発に利用させていただきます。

インストール

  • Windowsパッケージの場合は,ダウンロードしたファイルを解凍し,インストーラ(INSTALL.EXE)を起動して指示に従ってください。インストール終了後,「近代茶まめ」のアイコンから起動してください。
  • 利用するには「MeCab 0.96」以降以降が必要です。あらかじめインストールしておくか、近代文語UniDicをインストールした後ですぐにインストールしてください。

科研費報告書

平成19(2007)〜平成20(2008)年度 科学研究費補助金 若手研究(B) 研究成果報告書 課題番号 19720110

参考文献

(近代文語に限らない)UniDic全般に関する参考文献については、UniDicダウンロードサイトのこちらのページをご覧ください。

論文

学会発表

  • 「近代文語文を対象とした形態素解析辞書の開発」小木曽智信・小椋秀樹・近藤明日子 『言語処理学会第14回年次大会発表論文集』 pp.225-228 2008年3月
  • 「近代文語文を対象とした形態素解析辞書・近代文語UniDic」 小木曽智信・小椋秀樹・近藤明日子 『日本語学会2008年度春季大会予稿集』 pp.211-218 2008年5月

資料(スライド)

連絡先

近代文語UniDicに関するお問い合わせは次のアドレスにお願いします。
小木曽智信 mail.png

更新履歴

  • 2017/11/01  更新を停止。今後はこちらのページをご覧ください。http://unidic.ninjal.ac.jp/
  • 2014/03/31 近代文語UniDic Ver.1.4 Windows版パッケージを公開。
  • 2012/12/06 近代文語UniDic Ver.1.3 Windows版パッケージを公開(明六雑誌コーパスの語彙を追加)。
  • 2012/05/02 近代文語UniDic Ver.1.2 Windows版パッケージを公開。
  • 2012/05/02 科研費報告書『近代文語文を対象とした形態素解析のための電子化辞書の作成とその活用』(2009)のPDFを公開。
  • 2009/08/14 近代文語UniDic Ver.1.1 Windows版パッケージ,バイナリ辞書(UTF-8版)を公開。
    • 品詞体系を現代語版UniDic 1.3.12と同期。
    • MeCab版の辞書に仮名形やアクセント型などを出力するようにした。
  • 2009/03/31 近代文語UniDic Ver.1.0 Windows版パッケージ,バイナリ辞書(UTF-8版)を公開。
  • 2008/11/30 近代文語UniDic Ver.0.9 Windows版パッケージ,バイナリ辞書(UTF-8版)を公開。
  • 2008/08/01 近代文語UniDic Ver.0.8 Windows版パッケージ,バイナリ辞書(UTF-8版)を公開。
  • 2008/05/19 近代文語UniDic Ver.0.7a Windows版パッケージ(修正版)を公開。
    • 複数ファイルの解析に失敗するエラーに対応。
    • ファイル末にEOFコードが付いているテキストファイルに対応。
  • 2008/04/11 近代文語UniDic Ver.0.7 Windows版パッケージを公開。
  • 2008/03/28 近代文語UniDic Ver.0.7 バイナリ辞書(UTF-8版)を公開。

謝辞

近代文語UniDicの開発にあたっては次の研究補助金・助成金等を受けました。

  • (辞書の見出し語整備)科学研究費補助金・若手B(平成19〜20年度・課題番号 19720110)
    「近代文語文を対象とした形態素解析のための電子化辞書の作成とその活用」小木曽智信
    http://kaken.nii.ac.jp/d/p/19720110.en.html
  • (学習用コーパスの作成)第2回博報「ことばと文化・教育」研究助成(平成19年度)
    「近代日本語の文語文を対象とした形態素解析システムの構築と活用」小木曽智信・小椋秀樹・近藤明日子
  • (見出し語の拡張)国立国語研究所・共同研究プロジェクト(平成21〜24年)
    「近代語コーパス設計のための文献言語研究」(プロジェクトリーダー:田中牧郎)
    http://www.ninjal.ac.jp/research/project/b/kindaigo/

なお、この辞書の元となったUniDicは、文部科学省科学研究費補助金特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備」(平成18〜22年度,領域代表者:国立国語研究所・前川喜久雄)ほかの助成を受けて開発が行われたものです。


*1 いずれも解析器にMeCabを使って,未知のデータを解析したもの。人手修正なし。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2017-11-02 (木) 05:57:10 (45d)