1.『ひまわり』とは

 『ひまわり』は,言語研究用に設計された全文検索システムです。XML 文書から特定の文字列を高速に検索することができます。

 『ひまわり』の主な機能は,次のとおりです。

  • XML 文書に対する高速な全文検索機能
    • 検索対象の資料を XML 文書として記述すれば,さまざまな資料を検索対象とすることができます。現在,『ひまわり』で検索できる資料の例を次に挙げます。
      • 青空文庫
      • 国会会議録
      • 『日本語話し言葉コーパス』(CSJ)
      • 『分類語彙表』
      • 『名大会話コーパス』
    • XML 文書の要素,属性を検索条件として指定することができます。
    • インデックス(Suffix Array 方式)を利用して,高速な全文検索を実現しています。
  • 言語研究支援機能
    • 検索結果を KWIC (KeyWord In Context) の形式で表示することができます。
    • XML 文書の要素や属性として付与された情報を表示,集計することができます。
      • 検索文字列に対する書誌情報,引用情報,著者情報などの表示
      • 検索文字列を含む本文全体をWebブラウザで表示
      • 付与情報の集計(例:総文字数,総形態素数,総ルビ数,ngram)。
    • 自分で用意した言語資料(生テキスト,HTML,XML)を『ひまわり』にインポートすることができます。また,インポート時に形態素解析結果をアノテーションすることも可能です。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2018-07-18 (水) 00:00:00 (460d)