全文検索システム『ひまわり』/ダウンロード/『名大会話コーパス』パッケージ

テキスト整形

  • 記号「*」のうち,それで囲んで書き起こしに自信のない個所を示すために用いられているものを「《」と「》」に置換
    整形前 F107:それでさあ、*すとーんこんとねーど*で。
    整形後 F107:それでさあ、《すとーんこんとねーど》で。
  • 注1:聞き取り不能な個所,伏字化個所を示す「*」はそのまま
    整形前 F007:*上*の方の人だから***。
    整形後 F007:《上》の方の人だから***。
  • 注2:このように置換された「《」と「》」は,全文検索対象外となり,付属情報として記述されます。
  • タグ記号挿入,削除(括弧対応の不整合を解消)
    • 挿入例1
      整形前 <笑い。
      整形後 <笑い>
    • 挿入例2
      整形前 (あー)(ふーん(へー)(なるほどー)
      整形後 (あー)(ふーん)(へー)(なるほどー)
  • 不要なスペース類(行頭・行末の全角スペース・タブなど)の削除
    整形前  それ。
    整形後 それ。
  • 発話者IDと発話との間に挿入される「:」の挿入,削除
    • 挿入例
      整形前 F024***だから、うん。
      整形後 F024:***だから、うん。
    • 削除例
      整形前 F026::所属って何?
      整形後 F026:所属って何?
  • その他,軽微な修正(全角・半角置換など)

形態素解析

  • 解析には,形態素解析器MeCab(ver.0.98)および形態素解析辞書UniDicを用いました。
  • 形態素解析後,一部の解析結果に対して,人手修正を行っています。また,「F063さんの」のように,発話中に出現した発話者IDについては,全体を結合したうえで,「伏字化人名」という品詞を付与しています。
       F       記号          F063    伏字化人名
       0       名詞     →   さん    接尾辞
       6       名詞          の      助詞
       3       名詞
       さん    接尾辞
       の      助詞

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2016-10-10 (月) 00:00:00 (1045d)