[[全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ]]
* テキスト整形 [#g350b78c]
原則として、原資料の発話部分には変更を加えていません。
ただし、処理の都合上、以下のような整形を施しています。
- 記号「*」のうち、それで囲んで書き起こしに自信のない個所を示すために用いられているものを「《」と「》」に置換
整形前 F107:それでさあ、*すとーんこんとねーど*で。
整形後 F107:それでさあ、《すとーんこんとねーど》で。
-- 注1:聞き取り不能な個所、伏字化個所を示す「*」はそのまま
整形前 F007:*上*の方の人だから***。
整形後 F007:《上》の方の人だから***。
-- 注2:このように置換された「《」と「》」は、全文検索対象外となり,付属情報として記述されます。
- タグ記号挿入、削除(括弧対応の不整合を解消)
整形前 <笑い。
整形後 <笑い>
整形前 (あー)(ふーん(へー)(なるほどー)
整形後 (あー)(ふーん)(へー)(なるほどー)
- 不要なスペース類(行頭・行末の全角スペース・タブなど)の削除
整形前 それ。
整形後 それ。
#br
整形前 M023:壊せなくなったの?
整形後 M023:壊せなくなったの?
- 発話者IDと発話との間に挿入される「:」の挿入、削除
整形前 F024***だから、うん。
整形後 F024:***だから、うん。
整形前 F026::所属って何?
整形後 F026:所属って何?
- その他、軽微な修正(全角・半角置換など)
* 形態素解析 [#k75132ac]
- 解析には、形態素解析器MeCab(バージョン0.98)および形態素解析辞書UniDic(バージョン###)を用いました。
- 形態素解析後,一部の解析結果に対して,人手修正を行っています。また,「F063さんの」のように、発話中に出現した発話者IDについては、全体を結合したうえで、「伏字化人名」という品詞を付与しています。
F 記号 F063 伏字化人名
0 名詞 → さん 接尾辞
6 名詞 の 助詞
3 名詞
さん 接尾辞
の 助詞