全文検索システム『ひまわり』/『日本語話し言葉コーパス』を『ひまわり』で利用する方法2 の履歴差分(No.26)

追加された行はこの色です。
削除された行はこの色です。
[[全文検索システム『ひまわり』]]

&color(red){&size(20){本ページは現在構築中です。};};

*１．はじめに [#bbc4fbe7]
-[[『日本語話し言葉コーパス』:http://www.ninjal.ac.jp/csj/]](CSJ)に含まれる形態論情報を『ひまわり』で検索する方法について説明します。なお，本資料の内容を実行する場合は，自己責任でお願いいたします。
-メモリ上の問題から，&color(red){64bit版の OS}; の利用を前提といたします。


*２．準備 [#l4a683f9]
-[[『ひまわり』ver.1.5(β04以降)>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.5]] をインストールしてください。
-次のシステム要件を満たすか確認して下さい。
-- 64bit版OSを使用していること
--- (microsoft.com) [[自分のパソコンが 32 ビット版か 64 ビット版かを確認したい>http://support.microsoft.com/kb/958406/ja]] 
--- (apple.com) [[Intel ベースの Mac のプロセッサが 32 ビットか 64 ビットかを識別する方法>http://support.apple.com/kb/HT3696?viewlocale=ja_JP&locale=ja_JP]]
-- 64bit版の Java がインストールされていること
+++ himawari.jar をダブルクリックし，『ひまわり』(ver.1.5β04以降)が起動するか確認して下さい。
+++ [ヘルプ]→[バージョン情報]の最終行に「64-Bit」という記載が含まれることを確認して下さい。
-- メモリが4GB以上搭載されていること
-CSJ第1刷をお持ちの方は「修正版 XML 文書」DVD をご用意ください。また第2刷・第3刷をお持ちの方は，2枚目のDVD(Volume2)をご用意ください。CSJ の入手方法については，[[『日本語話し言葉コーパス』のホームーページ:http://www.ninjal.ac.jp/csj/]] をご覧ください。なお，[[『日本語話し言葉コーパス』サンプルデータ>全文検索システム『ひまわり』/ダウンロード/CSJサンプルデータ]]を配布しておりますので，CSJ をまだお持ちでない方はお試しください。
-CSJ→ひまわり変換パッケージ([[csj2himawari_2.0.zip>http://csd.ninjal.ac.jp/archives/Himawari/csj2himawari_2.0.zip]])をダウンロードしてください。
--&color(red){Windows をお使いの方は，ダウンロードしたファイルを右クリックし，[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。};
--なお，本ページでは，[[GPL:http://www.gnu.org/licenses/gpl.html]] ライセンスに基づいて，このパッケージを配布しています。

*３．ファイルのインポート [#se51b7d4]
　『日本語話し言葉コーパス』のXMLデータを『ひまわり』にインポートします。以下の手順で実行して下さい。

+[[csj2himawari_2.0.zip>]] を解凍してください。解凍すると，CSJ2Himawari フォルダが現れるはずです。
+CSJ データのコピー
-- 第1刷・第2刷をお持ちの方は，「修正版 XML 文書」DVD(第1刷の方)あるいは2枚目の DVD (第2刷の方)の XML フォルダー中のファイルを，CSJ2Himawariフォルダ中の src フォルダにコピーしてください。
-- 第3刷をお持ちの方は，DVDセットの2枚目のXMLフォルダーのcoreフォルダの下にあるすべてのXMLファイル，および noncoreフォルダの下にあるすべてのXMLファイルを，CSJ2Himawari 中の src フォルダの中にコピーしてください。
+配置コマンドの実行
--複数のサブコーパスに分割するために，コピーしたXMLファイルを適切なフォルダに配置します。分割は，次の基準で行いました。
--- 形態論情報の解析方法（人手／自動）
--- 音声タイプ （例:学会講演，模擬講演など）
--- 音声タイプの詳細情報（例:学会の別，模擬講演テーマの別など）
-- 次のファイルをダブルクリックして下さい。
 setup.bat ... Windows の場合
 setup.command ... MacOS X の場合
 setup.sh ... その他の場合(bash を利用)
-- コマンドが正常に終了すると，CSJHimawari/CSJ フォルダの中に合計26フォルダが作成され，該当する XML ファイルが配置されます。
--- Manual ... 人手形態論情報解析分用のフォルダ
--- AutomaticA01～A11 ... 自動形態論情報解析分のフォルダ(音声タイプAの01～11の11フォルダ)
--- AutomaticD, M, R ... 自動形態論情報解析分のフォルダ(音声タイプD, M,R の３フォルダ)
--- AutomaticS00～S11 ... 自動形態論情報解析分のフォルダ(音声タイプSの00～11の12フォルダ)
+ インポートの実行
++ 『ひまわり』を起動してください。
--- 『ひまわり』がインストールされているフォルダに移動し，次のコマンドを実行して下さい。
--- 『ひまわり』がインストールされているフォルダに移動し，コマンドラインから次のコマンドを実行して下さい。
 java -jar himawari.jar
--- コマンドラインからの実行方法がわからない場合は，CSJ2Himawari フォルダから次のファイルを『ひまわり』フォルダにコピーし，ダブルクリックして下さい。
 himawari_exec.bat ... Windows の場合
 himawari_exec.command ... MacOS X の場合
 himawari_exec.sh ... その他の場合(bash を利用)
--- himawari.exe, himawari_debug.exe 
++ [ファイル]→[インポート]を実行し，インポート元のフォルダとして，CSJ2Himawari フォルダを指定してください。
++ [インポート]ボタンを押してください。１～２時間程度で変換が終了します。

　以上で，データのインポートは終了です。CSJ2Himawari フォルダは削除してもかまいません。
　以上で，データのインポートは終了です。『ひまわり』での動作が確認されれば，CSJ2Himawari フォルダは削除してもかまいません。


*４．使い方 [#g12e5585]
　ここでは，『日本語話し言葉コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については，[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]をご覧ください。また，検索結果のデータの見方については，次のマニュアルを参照してください。なお，閲覧には，Adobe 社の Adobe Reader が必要です。Adobe 社の [[Web ページ:http://www.adobe.co.jp/products/acrobat/readstep2.html]]で無償配布しています

-「[[形態論情報の概要:http://www.ninjal.ac.jp/csj/doc/manual/pos.pdf]]」
-「[[短単位・長単位データマニュアル:http://www.ninjal.ac.jp/csj/doc/manual/wdb.pdf]]」の3.2 節
-「[[節単位認定:http://www.ninjal.ac.jp/csj/doc/manual/clause.pdf]]」
-「[[転記テキスト:http://www.ninjal.ac.jp/csj/doc/manual/transcription.pdf]]」

**4.1『日本語話し言葉コーパス』を検索対象にするには [#ke96b198]
　『日本語話し言葉コーパス』用の設定ファイルは，config_csj_all.xml です。このファイルを[ファイル]→[新規]で読み込むと，『日本語話し言葉コーパス』が検索対象になります。なお，インポートした直後は，『日本語話し言葉コーパス』が検索対象になっています。

**4.2 サブコーパスの選択 [#mbff38f8]
　[[コーパス選択機能>全文検索システム『ひまわり』/利用者マニュアル/1_5/４．詳細な検索を行う#o787f26d]]を用いて，サブコーパスを選択します。ここに現れるサブコーパスは，３節で配置したフォルダ構造と対応します。

**4.3 検索対象の詳細 [#ree5188d]
　次の項目を対象として，検索することができます。利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_2/４．詳細な検索を行う]]もあわせてご覧ください。

-全文:&br;
形態論情報を考慮せずに，全文検索します。なお，検索結果として表示される品詞などの短単位に関する情報は，検索文字列の先頭の文字列を内部に含む短単位のものです。
-全文(正規表現):&br;
形態論情報を考慮せずに，全文検索します。「全文」との相違点は，検索文字列に正規表現が使用できることです。ただし，「全文」と比較して，低速です。
-短単位(要素単位): 
--短単位のレベルで検索します。
--例えば，上記の「全文」を選択し，「国語」を検索すると，「中国/語」のように，複数の単位にまたがる単位が検索されますが(/ は，短単位の切れ目を表す)，「短単位(要素単位)」では，短単位内に限定して，文字列の照合を行います。したがって，「中国/語」のような例を排除して，検索することができます。
-品詞(属性):&br;
品詞をキーとして検索します。文字列の照合には，正規表現を使います。
-代表形(属性):&br;
代表形をキーとして検索します。文字列の照合には，正規表現を使います。
-節境界(属性):&br;
節境界情報をキーとして検索します。文字列の照合には，正規表現を使います。

**4.4 転記テキストの閲覧 [#ga9b8777]
　検索結果をダブルクリックすると，当該の検索文字列を含んだ転記テキストを閲覧することができます。

-/ : 短単位の区切り
-| : 長単位の区切り
-$ : 節境界
-検索文字列は，赤色で表示されます。
-個々の短単位にマウスカーソルを合わせると，下の図のように短単位の各種属性が表示されます。
-長単位の区切り(|)にマウスカーソルを合わせると，長単位の各種属性が表示されます。
-節境界($)にマウスカーソルを合わせると，節境界の情報が表示されます。

#br
#ref(./csj_manual_sample_browse.png)