全文検索システム『ひまわり』/ダウンロード/CSJサンプルデータの履歴ソース(No.6)

[[全文検索システム『ひまわり』]]

目次

#contents


*１．『日本語話し言葉コーパス』サンプルデータについて [#f73cf35d]
　『日本語話し言葉コーパス』サンプルデータは，『日本語話し言葉コーパス』から２講演分の転記テキストと形態論情報を取り出し，『ひまわり』で検索できるように形式を変換したものです。

　『日本語話し言葉コーパス』は，日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベースです。データ量は，音声データで約６６０時間(短単位で約７５２万語)です。データベースには，音声データの他に，音声データに対する転記テキストが含まれます。転記テキストには，形態論情報，分節音・イントネーションラベル，係り受け構造情報などの研究用情報が付与されています。詳しくは，「[[『日本語話し言葉コーパス』公開のご案内:http://www2.kokken.go.jp/%7Ecsj/public/members_only/releaseinfo/index.htm]]」をご覧ください。


*２．ダウンロード [#ka9331ab]
　次の場所からダウンロードしてください。本サンプルデータの著作権は，独立行政法人国立国語研究所と独立行政法人情報通信研究機構が保持しています。&color(red){サンプルデータを改変，あるいは再配布することは禁止します。};ダウンロードした時点で，この条件に御同意いただけたものとします。

-『日本語話し言葉コーパス』サンプルデータ ... どちらも同じ内容です。圧縮形式が異なります。
--&ref(http://www2.ninjal.ac.jp/lrc/Archive/Himawari/Data/himawari_csj_sample_02.zip,,ZIP 形式); (更新:2005-01-19, 公開:2005-01-18)
--&ref(http://www2.ninjal.ac.jp/lrc/Archive/Himawari/Data/himawari_csj_sample_02.tgz,,TGZ 形式); (更新:2005-01-19, 公開:2005-01-18)

　なお，『日本語話し言葉コーパス』全体の入手に関しては，「[[『日本語話し言葉コーパス』公開のご案内:http://www2.kokken.go.jp/%7Ecsj/public/members_only/releaseinfo/index.htm]]」をご覧ください。現在のところ，『日本語話し言葉コーパス』の配布 DVD には，『ひまわり』で検索できる形式のデータは収録されていませんが，「『日本語話し言葉コーパス』を『ひまわり』で利用する方法」（[[方法１>全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法]]，[[方法２>全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法2]]）のページを用意しております。よろしければ，ご参照ください。
//今後変換スクリプトの公開などの形で対応する予定です。

#br
#br

　よろしければ，アンケートにもお答えください。なお，このアンケートは，『ひまわり』をどのような方にお使いいただいているかを調べるものです。お送りいただいた情報は，今後の研究・開発に利用させていただきます。

#qa(masaya,masaya,[himawari-csj_sample],所属:大学・高専等/小中高・専門学校等/研究機関/企業/個人/その他,身分:教職員/研究員/学生/その他,専門分野:日本語(国語)学/英語学/言語学/言語教育/自然言語処理・人工知能/その他(人文社会系)/その他(理工系),年齢:10代未満/10代/20代/30代/40代/50代/60代/70代以上,使用OS:Windows/Mac/Linux/その他,コンピュータ使用歴:1年未満/1年以上3年未満/3年以上)


*３．インストール [#q6a07ba9]
　ここでは，『ひまわり』がすでにインストールされているものとして説明します。インストールがお済みでない方は，[[『ひまわり』のホームページ>全文検索システム『ひまわり』]]から，『ひまわり』をダウンロードし，マニュアルに従って，インストールを行ってください。

　『日本語話し言葉コーパス』サンプルデータのインストールの手順は，次のとおりです。

+ダウンロードしたファイルを解凍すると，Himawari_CSJ_sample フォルダが現れます。その中に次のファイルがあることを確認してください。
--Corpora フォルダ ... 『日本語話し言葉コーパス』サンプルデータを格納したフォルダ
--config_csj_sample.xml  ... 設定ファイル
+Corpora フォルダ，config_csj_sample.xml を『ひまわり』がインストールされているフォルダの中に移動してください。
+以上で，インストールは終了です。

*４．使い方 [#ga4a0f95]
　ここでは，『日本語話し言葉コーパス』サンプルデータに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については，[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]をご覧ください。また，検索結果のデータの見方については，次のマニュアルを参照してください。なお，閲覧には，Adobe 社の Adobe Reader が必要です。Adobe 社の [[Web ページ:http://www.adobe.co.jp/products/acrobat/readstep2.html]]で無償配布しています

-「[[形態論情報の概要:http://www2.kokken.go.jp/~csj/public/members_only/manuals/pos_20040320.pdf]]」
-「[[短単位・長単位データマニュアル:http://www2.kokken.go.jp/~csj/public/members_only/manuals/wdb_20040324_02.pdf]]」の3.2 節
-「[[節単位認定:http://www2.kokken.go.jp/~csj/public/members_only/manuals/clause_2004MAR25.pdf]]」
-「[[転記テキスト:http://www2.kokken.go.jp/~csj/public/members_only/manuals/transcription_2004MAR23.pdf]]」

**4.1『日本語話し言葉コーパス』サンプルデータを検索対象にするには [#w8f5b82e]
　インストールしたデータを検索対象とするには，『ひまわり』を起動し，[ファイル]→[新規]で config_csj_sample.xml を読み込んでください。


**4.2 検索対象の詳細 [#wdde6691]
　次の項目を対象として，検索することができます。利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_2/４．詳細な検索を行う]]もあわせてご覧ください。

-全文:&br;
形態論情報を考慮せずに，全文検索します。なお，検索結果として表示される品詞などの短単位に関する情報は，検索文字列の先頭の文字列を内部に含む短単位のものです。
-短単位(要素単位): 
--短単位のレベルで検索します。
--例えば，上記の「全文」を選択し，「国語」を検索すると，「中国/語」のように，複数の単位にまたがる単位が検索されますが(/ は，短単位の切れ目を表す)，「短単位(要素単位)」では，短単位内に限定して，文字列の照合を行います。したがって，「中国/語」のような例を排除して，検索することができます。
-品詞(属性):&br;
品詞をキーとして検索します。文字列の照合には，正規表現を使います。
-代表形(属性):&br;
代表形をキーとして検索します。文字列の照合には，正規表現を使います。
-節境界(属性):&br;
節境界情報をキーとして検索します。文字列の照合には，正規表現を使います。

**4.3 転記テキストの閲覧 [#j93d4893]
　検索結果をダブルクリックすると，当該の検索文字列を含んだ転記テキストを閲覧することができます。

-/ : 短単位の区切り
-| : 長単位の区切り
-$ : 節境界
-検索文字列は，赤色で表示されます。
-個々の短単位にマウスカーソルを合わせると，下の図のように短単位の各種属性が表示されます。
-長単位の区切り(|)にマウスカーソルを合わせると，長単位の各種属性が表示されます。
-節境界($)にマウスカーソルを合わせると，節境界の情報が表示されます。

&ref(csj_sample_browse.png);
全文検索システム『ひまわり』/ダウンロード/CSJサンプルデータ の履歴ソース(No.6)

全文検索システム『ひまわり』/ダウンロード/CSJサンプルデータの履歴ソース(No.6)