国語研究所の施設整備に伴い,関連のサービスを次の期間,停止します。
期間:2024年4月27日(土)9:00~2024年4月29日(月・祝)17:30
対象:Web用例データベース(複合動詞,サ変動詞,形容詞)・『ひまわり』&関連資料(ダウンロードもできません),FishWatchr & FishWatchr Miniなど
[[全文検索システム『ひまわり』]] &color(red){&size(20){本ページは現在構築中です。};}; *1.はじめに [#bbc4fbe7] -[[『日本語話し言葉コーパス』:http://www.ninjal.ac.jp/csj/]](CSJ)に含まれる形態論情報を『ひまわり』で検索する方法について説明します。なお,本資料の内容を実行する場合は,自己責任でお願いいたします。 -メモリを大量に使用するため,64bit版の OS の利用を前提といたします。 *2.準備 [#l4a683f9] -CSJ第1刷をお持ちの方は「修正版 XML 文書」DVD をご用意ください。また第2刷・第3刷をお持ちの方は,2枚目のDVD(Volume2)をご用意ください。CSJ の入手方法については,[[『日本語話し言葉コーパス』のホームーページ:http://www.ninjal.ac.jp/csj/]] をご覧ください。なお,[[『日本語話し言葉コーパス』サンプルデータ>全文検索システム『ひまわり』/ダウンロード/CSJサンプルデータ]]を配布しておりますので,CSJ をまだお持ちでない方はお試しください。 -[[『ひまわり』ver.1.5(β04以降)>全文検索システム『ひまわり』/ダウンロード/『ひまわり』ver.1.5]] をインストールしてください。 -CSJ→ひまわり変換パッケージ([[csj2himawari_2.0.zip>http://csd.ninjal.ac.jp/archives/Himawari/csj2himawari_2.0.zip]])をダウンロードしてください。 --&color(red){Windows をお使いの方は,ダウンロードしたファイルを右クリックし,[プロパティ] > [全般] でセキュリティのブロックが解除されていることを必ず確認してください。}; --なお,本ページでは,[[GPL:http://www.gnu.org/licenses/gpl.html]] ライセンスに基づいて,このパッケージを配布しています。 *3.ファイルのインポート [#se51b7d4] 『日本語話し言葉コーパス』のXMLデータを『ひまわり』にインポートします。以下の手順で実行して下さい。 +[[csj2himawari_2.0.zip>]] を解凍してください。解凍すると,CSJ2Himawari フォルダが現れるはずです。 +CSJ データのコピー -- 第1刷・第2刷をお持ちの方は,「修正版 XML 文書」DVD(第1刷の方)あるいは2枚目の DVD (第2刷の方)の XML フォルダー中のファイルを,CSJ2Himawariフォルダ中の src フォルダにコピーしてください。 -- 第3刷をお持ちの方は,DVDセットの2枚目のXMLフォルダーのcoreフォルダの下にあるすべてのXMLファイル,および noncoreフォルダの下にあるすべてのXMLファイルを,CSJ2Himawari 中の src フォルダの中にコピーしてください。 +配置コマンドの実行 --複数のサブコーパスに分割するために,コピーしたXMLファイルを適切なフォルダに配置します。分割は,次の基準で行いました。 --- 形態論情報の解析方法(人手/自動) --- 音声タイプ (例:学会講演,模擬講演など) --- 音声タイプの詳細情報(例:学会の別,模擬講演テーマの別など) -- 分割コマンドを実行してください。OSにより異なります。 --- Windows: setup.bat をダブルクリックしてください。 --- MacOS: setup.command をダブルクリックしてください。 --- その他(Linux など): setup.sh をダブルクリックしてください。 -- コマンドが正常に終了すると,CSJHimawari/CSJ フォルダ --- Manual ... 人手形態論情報解析分のデータからなるサブコーパス --- AManual ... 人手形態論情報解析分のデータからなるサブコーパス + インポートの実行 -- 『ひまわり』を起動してください。 -- [ファイル]→[インポート]を実行し,インポート元のフォルダとして,CSJ2Himawari フォルダを指定してください。 -- [インポート]ボタンを押してください。1〜2時間程度で変換が終了します。 以上で,データのインポートは終了です。CSJ2Himawari フォルダは削除してもかまいません。 *5.使い方 [#g12e5585] ここでは,『日本語話し言葉コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]をご覧ください。また,検索結果のデータの見方については,次のマニュアルを参照してください。なお,閲覧には,Adobe 社の Adobe Reader が必要です。Adobe 社の [[Web ページ:http://www.adobe.co.jp/products/acrobat/readstep2.html]]で無償配布しています -「[[形態論情報の概要:http://www.ninjal.ac.jp/csj/doc/manual/pos.pdf]]」 -「[[短単位・長単位データマニュアル:http://www.ninjal.ac.jp/csj/doc/manual/wdb.pdf]]」の3.2 節 -「[[節単位認定:http://www.ninjal.ac.jp/csj/doc/manual/clause.pdf]]」 -「[[転記テキスト:http://www.ninjal.ac.jp/csj/doc/manual/transcription.pdf]]」 **5.1『日本語話し言葉コーパス』を検索対象にするには [#ke96b198] インポートした直後は,『日本語話し言葉コーパス』が検索対象になっています。 『日本語話し言葉コーパス』用の設定ファイルは,config_csj_all.xml です。このファイルを[ファイル]→[新規]で読み込むと,『日本語話し言葉コーパス』が検索対象になります。 **5.2 サブコーパスの選択 [#w277f805] **5.3 検索対象の詳細 [#ree5188d] 次の項目を対象として,検索することができます。利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_2/4.詳細な検索を行う]]もあわせてご覧ください。 -全文:&br; 形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される品詞などの短単位に関する情報は,検索文字列の先頭の文字列を内部に含む短単位のものです。 -全文(正規表現):&br; 形態論情報を考慮せずに,全文検索します。「全文」との相違点は,検索文字列に正規表現が使用できることです。ただし,「全文」と比較して,低速です。 -短単位(要素単位): --短単位のレベルで検索します。 --例えば,上記の「全文」を選択し,「国語」を検索すると,「中国/語」のように,複数の単位にまたがる単位が検索されますが(/ は,短単位の切れ目を表す),「短単位(要素単位)」では,短単位内に限定して,文字列の照合を行います。したがって,「中国/語」のような例を排除して,検索することができます。 -品詞(属性):&br; 品詞をキーとして検索します。文字列の照合には,正規表現を使います。 -代表形(属性):&br; 代表形をキーとして検索します。文字列の照合には,正規表現を使います。 -節境界(属性):&br; 節境界情報をキーとして検索します。文字列の照合には,正規表現を使います。 **5.4 転記テキストの閲覧 [#ga9b8777] 検索結果をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。 -/ : 短単位の区切り -| : 長単位の区切り -$ : 節境界 -検索文字列は,赤色で表示されます。 -個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。 -長単位の区切り(|)にマウスカーソルを合わせると,長単位の各種属性が表示されます。 -節境界($)にマウスカーソルを合わせると,節境界の情報が表示されます。 #br #ref(./csj_manual_sample_browse.png)