[[全文検索システム『ひまわり』]] #br &color(red){&size(20){本ページは,現在構築中です。};}; #br #br RIGHT:作成者:山口昌也 (国立国語研究所) RIGHT:2016-xx-xx #br *1.パッケージの概要 [#ib5b6084] 本パッケージは,[[『名大会話コーパス』:https://nknet.ninjal.ac.jp/nknet/ndata/nuc/]]を『ひまわり』用にインポートしたデータです。インポート時には,形態素解析結果(短単位),話者・会話情報などを取り込んでいます。 * 2.収録データの内容 [#w4024697] - 原資料:[[『名大会話コーパス』のテキストデータ:https://nknet.ninjal.ac.jp/nuc/nuc.zip]] - 原資料からの変更点 -- 原資料の本文部分には,基本的に変更を加えていない。ただし,全文検索の利便性を考慮し, --- 各発話の発話者情報は,全文検索対象から除外し,発話の属性として記述している。 --- 挿入句は,包含する発話から独立させ,包含する発話の前後に移動している。そのため,『ひまわり』の検索結果の前後文脈欄では,挿入句が本来と異なる位置に標示される場合がある。 --- <笑い>など,原資料に付与されている独自タグは,全文検索対象から除外し,付属情報として,記述している。 -- 機械的に形態素解析を行い,一部手修正を行った後,結果をタグ付けしている。詳細は,###を参照のこと。 * 3.パッケージの利用条件 [#n000e4c4] * 4.ダウンロード [#haa465fb] * 5.利用方法 [#uf7a813e] ** 5.1 インストール [#o669ec86] + [[『ひまわり』>全文検索システム『ひまわり』]] (ver.1.5.4以上)をインストールしてください。 + パッケージをダウンロードしてください。 + ダウンロードした zip ファイルを『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[インストール]で指定して下さい(&color(red){「インポート」ではありません};)。 + 「インストールが終了しました」というメッセージが出れば,インストールは完了です。すぐに検索できる状態になります。 + 次回以降は,『ひまわり』がインストールされているフォルダにある config_meidai.xml を『ひまわり』にドラッグ&ドロップするか,[ファイル]⇒[新規]で指定すれば,本コーパスを検索できる状態になります。 ** 5.2 [#o1f4e477] ここでは,『日本語話し言葉コーパス』データに固有の事柄について説明します。『ひまわり』自体の一般的な使い方については,[[利用者マニュアル>全文検索システム『ひまわり』/利用者マニュアル]]をご覧ください。 // **3.4 検索対象の詳細 [#ree5188d] // #ref(./search_target.png,right,around,80%,検索対象); // 次の項目を対象として,検索することができます。利用者マニュアルの[[4.1 節>全文検索システム『ひまわり』/利用者マニュアル/1_5/4.詳細な検索を行う]]もあわせてご覧ください。 // #clear // *** 全文 [#f9ab4522] // - 形態論情報を考慮せずに,全文検索します。なお,検索結果として表示される,品詞などの短単位・長単位に関する情報は,検索文字列の先頭の文字列を内部に含む単位のものです。 // - 検索例 // -- 検索例1a:「国語」で全文検索します。 // -- 検索例1b:「国語」で全文検索し,その後文脈が「の」で始まる場合にマッチします。 // |&ref(./full_text_simple.png,80%);|&ref(./full_text_fc.png,80%);| // |検索例1a|検索例1b|h // *** 出現形(短単位),出現形(長単位) [#lc71a256] // -短単位,長単位の出現形で検索します。文字列の照合には,部分的に正規表現を使うことができます。 // - 検索例 // -- 検索例2a:出現形(短単位)に「国語」を含む場合にマッチします。 // -- 検索例2b:出現形(短単位)が「国語」の場合にマッチします。 // -- 検索例2c:出現形(短単位)が「国語」を含み,その末尾が「所」の場合にマッチします。 // |&ref(./search_example1.png,80%);|&ref(./search_example2.png,80%);|&ref(./search_example3.png,80%);| // |検索例2a|検索例2b|検索例2c|h // *** 品詞(短単位),品詞(長単位) [#h215870f] // - 品詞をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。 // - 検索例 // -- 検索例3a:出現形(短単位)に「名詞」を含む場合にマッチします(「代名詞」にもマッチします)。 // -- 検索例3b:出現形(短単位)が「名詞」の場合にマッチします。 // |&ref(./pos_simple.png,80%);|&ref(./pos_pf.png,80%);| // |検索例3a|検索例3b|h // *** 代表形(短単位),代表形(長単位) [#d74fe325] // - 代表形をキーとして検索します。文字列の照合には,部分的に正規表現を使うことができます。 // - 検索例 // -- 検索例4a:代表形(長単位)に「タベル」を含む場合にマッチします。 // -- 検索例4b:代表形(長単位)が「ゼン」で始まる場合にマッチします。 // -- 検索例4c:代表形(長単位)が「ゴ」で終わる場合にマッチします。 // |&ref(./daihyo_simple.png,80%);|&ref(./daihyo_p.png,80%);|&ref(./daihyo_pf.png,80%);| // |検索例4a|検索例4b|検索例4c|h // *** 節境界 [#g4ec3357] // - 節境界情報をキーとして検索します。文字列の照合には,正規表現を使うことができます。 // - 当該の節境界情報を持つ短単位が検索されます。 // - 検索例 // -- 検索例5a:節境界が「文末」の場合にマッチします。 // -- 検索例5b:節境界が「並列節」を含む場合にマッチします。 // |&ref(./setu_simple.png,80%);|&ref(./setu_pf.png,80%);| // |検索例5a|検索例5b|h // **3.5 検索結果 [#oe2c0ff8] // 検索結果には,次の情報が含まれます。「[[短単位・長単位データマニュアル>http://www.ninjal.ac.jp/corpus_center/csj/manu-f/wdb.pdf]]」の3.2節も合わせて参照して下さい。 // |~列名|~備考| // ||450|c // |前文脈|| // |出現形(検索文字列)|| // |後文脈|| // |代表表記|短単位の情報&br;&br;「活用型」「その他1」〜「その他3」は,短単位・長単位データマニュアル」の「活用の種類」,「その他の情報1」〜「その他の情報3」に対応| // |代表形|~| // |品詞|~| // |活用形|~| // |活用型|~| // |その他1|~| // |その他2|~| // |その他3|~| // |発音形|~| // |代表表記(長)|長単位の情報| // |代表形(長)|~| // |品詞(長)|~| // |活用形(長)|~| // |活用型(長)|~| // |その他1(長)|~| // |その他2(長)|~| // |その他3(長)|~| // |出現形(後)|後続する短単位の情報| // |代表表記(後)|~| // |代表形(後)|~| // |その他1(後)|~| // |出現形(前)|前接する短単位の情報| // |代表表記(前)|~| // |代表形(前)|~| // |その他1(前)|~| // |講演ID|当該の転記基本単位の情報| // |開始時間|~| // |終了時間|~| // |コア|当該の転記テキストがコアに含まれるか否かを表すフラグ&br;T: 含む場合T,F:含まない場合| // **3.6 転記テキストの閲覧 [#ga9b8777] // 検索結果(「品詞」「活用形」欄を除く)をダブルクリックすると,当該の検索文字列を含んだ転記テキストを閲覧することができます。 // -/ : 短単位の区切り // -| : 長単位の区切り // -$ : 節境界 // -検索文字列は,赤色で表示されます。 // -個々の短単位にマウスカーソルを合わせると,下の図のように短単位の各種属性が表示されます。 // -長単位の区切り(|)にマウスカーソルを合わせると,長単位の各種属性が表示されます。 // -節境界($)にマウスカーソルを合わせると,節境界の情報が表示されます。 // #br // #ref(./csj_manual_sample_browse.png) // #br // **3.7 音声データの再生 [#u6927306] // インストール時に音声データを『ひまわり』のフォルダにコピーしている場合,検索結果をダブルクリック(下記参照)すると,当該の検索文字列を含んだ転記単位の音声データを再生することができます。 // - Windows の場合: 「品詞」欄 // - Mac の場合: 「活用形」欄 // - Linux の場合: 「品詞」欄 // -- ただし,Linux の場合は,設定ファイル(config.xml,または,config_csj_all.xml)を次のように一部修正する必要があります。 // +++ "<access_command1" で始まる行を削除して下さい。 // +++ "<access_command3" で始まる行を探し,"<access_command1" として下さい。