[[外部用/マステック]] //&br; &br; &br; CENTER:&size(20){''現代書き言葉コーパス文字入力マニュアル(地方紙・スポーツ紙用) ver.1.0''}; RIGHT:間淵 洋子 RIGHT:2005-11-30 &br; &br; //&br; ここでは,地方紙・スポーツ紙の電子化テキスト作成の手順について説明します。 * 事前準備 [#a04b409c] 電子化テキストの作成にあたっては,''JISX0213:2004 に収録されている文字を入力できる環境が必要''です。ここでは,free ware である emacs (例:Windows 用「Meadow2.10」)を用いることを想定して,作業環境の整備について説明します。&br; &br; なお,emacs 以外でも,一太郎2005で,JISX0213:2004対応フォントを使用することにより,JISX0213 の入力を実現できるとの情報を得ています。適宜,作業環境を構築してください。 emacs を使用する場合は,作業する PC に,以下のものをダウンロード・インストール・セッティングしてください。 //**ツール [#ved938b6] **テキストエディタ・エディタ用マクロ [#nb1ba826] -「emacs (Meadow 2.10)」 --[[Meadow FrontPage:http://www.meadowy.org/meadow/]] ---[[Meadow 2.10 インストーラのダウンロード:http://www.meadowy.org/meadow/dists/2.10/setup-ja.exe]] --Meadow の導入方法を解説したページ ---[[Windows Meadow 2.10 多言語環境の設定:http://www.ceres.dti.ne.jp/~i-yasuda/rus2/meadow.html]] --[[ Meadow によるテキスト編集(基礎編):http://www2.kokken.go.jp/~masaya/public/wiki/index.php?%B3%B0%C9%F4%CD%D1%2F%A5%DE%A5%B9%A5%C6%A5%C3%A5%AF%2Fmeadow]] -emacs用設定ファイル「.emacs」 --&ref(../.emacs,ダウンロード); (右クリックでファイルをホームディレクトリに保存) //**エディタ用マクロ [#v1f29647] -emacs用文字カウント・タグ検証マクロ「m-mode.el」 --&ref(../m-mode.el,ダウンロード); (右クリックでファイルをホームディレクトリに保存) --[[マニュアル:http://www2.kokken.go.jp/~masaya/public/wiki/index.php?%B3%B0%C9%F4%CD%D1%2F%A5%DE%A5%B9%A5%C6%A5%C3%A5%AF%2Fman_m-mode]] **使用文字リスト [#v910259d] -jisx0213-2000 追加文字一覧 --&ref(../x0213_2000-list.txt,ダウンロード); (右クリックでファイルを保存) -jisx0213-2004 追加文字一覧 --&ref(../x0213_2004-list.txt,ダウンロード); (右クリックでファイルを保存) -jisx0213 使用不可文字(組み文字・上付き文字)一覧 --&ref(../kumimoji-list.txt,ダウンロード); (右クリックでファイルを保存) * 電子化テキストの作成 [#nc739c19] 電子化テキストの作成は,以下の2つの作業からなります。 + サンプルの確認 + サンプルの文字入力 以下で,順に作業の詳細を説明します。 &br; &br; **?. サンプルの確認 [#hde646a1] 実際にサンプルの文字入力を開始する前に,サンプル紙面に記入されている各種マークを確認し,適宜情報を付加しておく必要があります。確認する点は,以下の5点です。 +++ サンプル取得開始点(赤い点) +++ 記事の範囲(紫色の囲み) +++ サンプル取得記事内の入力対象外要素(緑色または黄色の×印) +++ 上記 c. 付近の入力対象となる要素(紫色または緑色の囲み,もしくは「入力」の文字) +++ 入力順(紫色の数字) &ref(../news_local.png);&br; CENTER:''図1:『東奥日報』'' - ''サンプルの範囲について''&br; 地方紙・スポーツ紙のサンプルの範囲は,絶対的なものではありません。文字入力開始位置は,必ず読み順「1」が振られている記事の冒頭ですが,入力終了位置は,上記サンプル取得開始点からの''カウント有効文字数'' (( カウント有効文字数とは,全文字数から,カウント除外文字(=句読点・スペース・準仮名漢字を除く記号)および半角文字列の数を除いたものを言います。emacs 用マクロ m-mode.el を用いてカウント有効文字のみをカウントすることができます。サンプル取得点から入力最後部までの文字数をカウントするには,取得点「@/」にカーソルを合わせて,Ctrl キーを押しながら c を押して一度指を離し,続けて a を押します。ミニバッファ(一番下に細く現れる窓。入力コマンド等が表示される位置)に「n=**」のように文字数が表示されます。)) (【参照】&ref(../skipped-chars-list.txt,,カウント除外文字一覧);)によって,決定します。 &br; サンプル紙面に書き込まれている紫色の囲みは,1記事(文章の構造上の単位)の範囲を示しています。サンプル取得点の含まれる記事の末尾までを入力したら,サンプル取得点からそこまでのカウント有効文字数を計り,''850字に達しているかどうか''確認します。達していれば,その後の文字入力は不要,そこをサンプルの終了位置とします。850字に達していない場合は,読み順に沿って次の記事を記事の末尾まで入力し,再び有効文字数をカウントします。これを繰り返し,''850字目が含まれる&color(red){記事の};末尾''までを入力し,そこを最終的なサンプルの終了位置とします。 - ''入力対象外要素について''&br; 入力対象外になる要素とは,以下の3つです。これに当てはまるもので,サンプル内で緑色または黄色の×印がないものがあった場合は,印を付けた上で,納品時にその旨報告してください。 -- 広告 -- ページ数・柱 (( 柱とは,欄外(ヘッダ・フッタ位置など)に繰り返し現れる書名や章タイトルなどを指します。)) -- 図・表・数式・写真・イラストなど&br; //- ''代用文字の入力指示について''&br; // 数式や表に緑色の×(入力対象外の印)があり,その脇に緑色で「d」と書かれている場合があります。 //&ref(../fig.png); //&br; // これは,数式や表の中身を入力する代わりに代用文字を入力する指示です。緑色の「d」がある場合は,&color(red){''全角で''};「d」を入力してください (( この場合,必ず「d」を単独行として,「d」の前後で改行してください )) 。 // Nを無限大に近づけると,aはnNpにbはnNqに近づくので,分散は // d // (付.6) // となる。p+q=1を利用して計算すると分散は, //---入力対象外になる記事&br; // 記事が入り組んでいて,記事の読み順が紛らわしい場合などには,入力対象外になる記事に×を記しておく。 //-入力順について&br; // 以下の2点に注意しながら,入力の順番を紙面に書き入れます。 //--見出し&br; // 見出しは,小見出し(記事の中身が幾つかの内容に分割されている場合,そのそれぞれに付いている見出し)を除いて記事の冒頭に入力します。見出しが複数ある場合には,それぞればらばらの位置に配置されていることがありますが,これらもまとめて記事の冒頭に入力します。 //--1記事内の本文&br; // 1記事内の読み順は,記事の構造を反映したものにする必要があります。記事の内容などから判断して,適切な順番に配列してください。 &br; **?. サンプルの文字入力 [#x3d1b908] サンプル紙面の確認が済んだら,実際にサンプルを文字入力していきます。文字入力の手順は,以下の通りです。 + サンプルIDをファイル名にしたテキストファイル (ファイル名="[ID].txt") を作成する。 + ファイルのヘッダにサンプルID,作業日,作業者,マニュアルバージョン,記事所在 ((紙名/日付;「/」は半角,日付は“4桁-2桁-2桁”の形式で。)) を記入する。 ;===================== ←※行頭に半角セミコロン「;」を付けて ;sampleID : 3 コメントアウトしておく。 ;date : 2005-12-01 ;editor : N000 ;manual : ver.1.0 ;hierarchy : 東奥日報/2003-07-25 ;===================== + 入力順に沿って文字を入力する。 //+ タイトルから順に文字入力しながら,タグ付け + サンプル取得点の文字の前にマーカー(半角「@/」)を付与する。 + サンプル取得点からカウント有効文字数 850 字目が含まれる記事の終わりまで,文字を入力する。 //紫色の閉じ括弧まで,文字を入力する。紫色の閉じ括弧に矢印が付いている場合は, //+ 記事が複数にまたがる場合には,記事の境界にマーカー(半角「%%」)を付与する。 //+ サンプルが複数ページにまたがる場合は,ページ境界にマーカー(半角「##」)を付与する。 + ファイル("[ID].txt")を&color(red){'' euc-jisx0213 ''};,または&color(red){'' Unicode(utf-16) ''};で保存する。&br; ***文字入力における注意点 [#i95efd6d] 文字入力作業にあたっては,&color(red){'' JISX0213:2004 ''};を文字セットとして,紙面の文字列を忠実に反映することを原則としますが,紙面のレイアウトなどを視覚的に再現することは想定していません。紙面の物理的な情報よりも,データとしての一貫性や,文章の構造的な意味を重視し,紙面とは異なる形でテキストを作成する部分も多くあります。&br; 以下に,文字入力において注意が必要な点について説明します。 -''半角文字''&br; 半角文字は,ルビ・誤植・外字を囲う括弧を除き,&color(red){''使用不可''};です。&br; 英数字,記号なども,全て見た目にかかわらず&color(red){''全角''};にします。半角文字であったという情報は不要です。&br; -''組み文字''&br; 組み文字(複数の文字を全角一文字分のスペースに入力してあるもの)は,全て&color(red){''開いて入力''};します。&br; 文字セット JISX0213 には,以下の組み文字が収録されています(【参照】&ref(../kumimoji-list.txt,組み文字一覧); )が,今回作成するコーパスでは組み文字を一切使用しませんので,全て,組んである文字それぞれを全角一文字として開いて入力してください。この際,組み文字であったという情報は不要です(( ただし,a.「分数」については,全角文字に開いて入力した上で,外字用の丸括弧を用いて「分子/分母」の範囲をマークします。 ))。 +++「附属書4 表12 分数」の 6 文字 +++「附属書4 表23 国内実装互換文字」のうち,丸付き「上」「中」「下」「左」「右」を除いた 33 文字 +++「附属書4 表2 記述記号」のうち,疑問符二つ,感嘆符二つ,疑問符感嘆符,感嘆符疑問符の 4 文字&br; -''上付き文字''&br; 上付き文字は,全て&color(red){''通常の算用数字を入力''};します。&br; 文字セット JISX0213 には,「1」「2」「3」の三つの上付き文字が収録されています(「附属書4 表24 ラテン1互換文字」)が,コーパスでは上付き文字を一切使用しません。全て通常の算用数字を入力した上で,外字用の丸括弧 ( ) で囲んでください。 &br; -''改行''&br; ''見た目の行の変わり目ではなく'',&color(red){''段落の終わり''};や,&color(red){''箇条書き項目の行替え''};,&color(red){''韻文(詩,歌詞,和歌など)における行替え''};など,意図的に改行してある場所で改行します。また,意図的に挿入された空行(( タイトルと本文,段落と段落などの間に,前後の要素を明確に分けるために挿入された空行。新聞では,タイトルの配置が特殊で,タイトルと本文の間に意図的な改行があるかどうか判断できない場合がありますが,タイトルと本文の間には,必ず空行を入れるようにしてください。また,記事の切れ目でも必ず空行を挿入してください。 ))がある場合は,紙面を反映させて改行を入れておきます。&br; //--段落の終わり //--箇条書き項目 //--韻文(詩,歌詞,和歌など)&br; なお,段落や文の内部の先頭に改行せずに示されているタイトルがありますが,この場合は,紙面の状態にかかわらず,タイトルの後ろで改行して取り出します。&br; また,通常,改行・字下げで段落を示すところ,新聞の『天声人語』『余録』などのコラムのように,「▼」「▲」などで段落を示している場合があります。このような文章については,実際の紙面に改行がなくても,段落の切れ目(「▼」等の記号の前)で改行し,次の段落の始まりを一字下げ(全角スペース1つを挿入)してください。その際,「▼」等の記号を削除する必要はありません。&br; --''新聞の見出し''&br; 新聞の見出しは,スタイル(フォント・文字サイズ・スタイル,囲みや背景など)や縦組み・横組みを変えて,複数表われている場合が多くあります。この時,縦組み,横組みが変わっている場所,スタイルを変えて行を改めている場所では,文法的に修飾関係のあることが明らかな場合(先行する行が格助詞・副助詞・接続助詞,終止形・命令形・連用形名詞以外の動詞活用形で終わっている場合など)を除いて,改行をしてください。全く同じスタイルで複数行に渡っている場合は,スペースの都合上1行に収まらない為に複数行になっている(意図的な改行ではない)場合がありますが,上記同様,文法的に修飾関係がある場合を除き,改行してください。&br; また,新聞の見出しでは,同じ行に割書きや文字大の異なるものが存在する場合が多くありますが,これらは,改行をせずに,全角スペース1文字分を挟んで同じ行に入れておいてください。&br; ---例:図1『東奥日報』より 前年比10・1%減 03年上半期貿易黒字 原油輸入増が主因 -''レイアウトのスペースやダッシュ・リーダー'' --''スペース''&br; レイアウトのスペースは不要,複数のスペースは,&color(red){''一つに置き換え''};ます。&br; 原則として,サンプル紙面に存在するスペースは入力対象とします(特に,段落冒頭のスペースや,語と語,文と文を区切るスペースなどは,必ず挿入します)が,レイアウトとしてのスペース(幅を揃えるためのスペースなど)は不要です。特に,段落冒頭以外の字下げ(中央揃え・右揃え・下揃えなどを含む)は不要,レイアウトの為の複数のスペースは,1つのスペースに置き換えます(レイアウトを再現する必要はありません)。&br; なお,スペースを入力する際は,見た目の長さ・幅にかかわらず,必ず&color(red){''全角スペース''};を入力してください。&br; ---レイアウト用のスペースを入力しない例 【原文】 9月23日 秋分の日 10月10日 体育の日 11月 3日 文化の日 【入力】 9月23日 秋分の日 10月10日 体育の日 11月3日 文化の日 ---複数スペースを1つに置き換える例 【原文】 札幌PARCO店 011‐214‐2356 仙台FORUS店 022‐264‐5487 LAFORET原宿 新潟店 025‐229‐5537 ↓ 【入力】 札幌PARCO店 011−214−2356 仙台FORUS店 022−264−5487 LAFORET原宿 新潟店 025−229−5537 --''ダッシュ・リーダー''&br; 複数のダッシュ・リーダーは,&color(red){''一つに置き換え''};ます。&br; 原則としてダッシュ(―)やリーダー(…/‥)も紙面の通り入力しますが,レイアウトとして用いられる以下のような場合は、全て1つに置き換えます(レイアウトを再現する必要はありません)。 ---語と語をつなぐ三点リーダー,二点リーダー 【原文】 赤ピーマン………………………5cm角 にんじん(ゆでたもの)………1cm角 ブロッコリー(ゆでたもの)…小房1房 ホワイトソース…………………大さじ1 ↓ 【入力】 赤ピーマン…5cm角 にんじん(ゆでたもの)…1cm角 ブロッコリー(ゆでたもの)…小房1房 ホワイトソース…大さじ1 ---タイトル(特に副題など)で用いられるダッシュ 【原文】 山猫は眠らない2――狙撃手の掟―― ↓ 【入力】 山猫は眠らない2―狙撃手の掟― //--文中に言い差しや余情を表わすために用いられるダッシュやリーダーの数は原紙通り入力。&br; -''類似記号''&br; 「―(ダッシュ)」「−(マイナス)」「‐(ハイフン)」「一(漢数字1)」「ー(長音)」など,類似した記号・文字については,意味によって使い分ける場合と,一つの文字に包摂して使用する場合があります。''&ref(../類似記号一覧.doc,類似記号一覧);''を参照し,適切に選択・使用するようにしてください。 --使い分ける記号の例 ---「―(ダッシュ)」「−(マイナス)」「‐(ハイフン)」「一(漢数字1)」「ー(長音)」 ---「<>(より大きい,より小さい)」「〈〉(山括弧)」 --包摂する記号の例 ---「=(イコール)」:イコール,ダブルダッシュ ---「“”(ダブル引用符)」:ダブル引用符,ダブルミニュート -''ルビ''&br; ルビ(文字列の上下または左右に小書きされた振り仮名など(( 傍線,傍点などはルビとして扱いません。また,本文の横や斜め上に添えられた注マーカー(「*」「†」など)や注番号もルビではなく,外字として扱い,外字用丸括弧を用いて入力します。 )))は,文字列の後ろに&color(red){''半角''};の角括弧'' [ ] ''で囲って示します。&br; 使用する文字種(平仮名・片仮名・アルファベット等)は原文のままとしますが,全て本文と同様,全角で入力します。原則として,&color(red){''1文字ごとに''};ルビを付けますが,熟字訓・当て字や別言語による言い換えの場合は,語全体に対して付けます。 語[ご]彙[い] 五月雨[さみだれ] 充電完了[charge up] -''誤植''&br; 明らかな誤植は,修正した上で,修正した文字の直後に原文の文字列を&color(red){''半角''};の波括弧'' { } ''で囲って示します。直前の一文字と { } 内の文字を置き換えると原文に戻るように,以下のように入力します。 -- 脱字 【原文】実はアメリカ以外の国で開催さるのも初めてなのだ。 【入力】実はアメリカ以外の国で開催され{}るのも初めてなのだ。 ←{}のみ入力。 -- 衍字 【原文】葉が途中で折れるるワジュロ 【入力】葉が途中で折れる{るる}ワジュロ -- 誤字 【原文】プレセントの応募方法 【入力】プレゼ{セ}ントの応募方法 -- 転倒 【原文】目元や口元など、とくにカサついたりすくんだりしやすい部位 【入力】目元や口元など、とくにカサついたりく{す}す{く}んだりしやすい部位 &br; -''外字''&br; JISX0213 に含まれず,入力ができない文字は外字とし,代わりに「〓」を入力します(文字以外の要素で「〓」による入力の指示があるものも同様)。ただし,以下に当てはまる場合は,代替文字を入力して,その範囲を&color(red){''半角の''};丸括弧'' ( ) ''で囲って示します。 -- JISX0213 に含まれない丸付き数字 例:丸付きの「79」 連載(79) -- JISX0213 に含まれない&color(red){''一文字の''};丸付きローマ字・平仮名・片仮名・漢字(二文字以上は対象外) 例:丸付き「秘」 スター(秘)エピソード -- &color(red){''一文字の''};囲み文字(二文字以上は対象外) 例:囲み「監」 (監)本広克行(出)織田裕二/柳葉敏郎/深津絵里 -- 数式・化学式などに用いられる上付き,下付き文字 例:水の化学式 水を構成するのは,一つの酸素原子と二つの水素原子からなる水分子(H(2)O)である。 例:二乗 面積670.33km(2) -- 「分子」と「分母」を「/」や「─」で区切った分数 例:一と二分の一 大さじ1(1/2) -- 注マーカー,注番号 例:注番号「2)」 エンタテインメントコンピューティング2003が大阪で開催された(2)). //-''新聞の見出し''&br; //--''新聞''&br; // 新聞の見出しは,スタイル(フォント・文字サイズ・スタイル,囲みや背景など)や縦組み・横組みを変えて,複数表われている場合が多くあります。これらは,記事内部の小見出しである場合を除き,全てタイトルとします。この時,縦組み,横組みが変わっている場所,スタイルを変えて行を改めている場所では,文法的に修飾関係のあることが明らかな場合(先行する行が格助詞・副助詞・接続助詞,終止形・命令形・連用形名詞以外の動詞活用形で終わっている場合など)を除いて,改行をしてください。全く同じスタイルで複数行に渡っているタイトルは,スペースの都合上1行に収まらない為に複数行になっている(意図的な改行ではない)ものと判断し,1行にしておいてください。 // また,新聞の見出しでは,同じ行に割書きや文字大の異なるものが存在する場合が多くありますが,これらは,改行をせずに,全角スペース1文字分を挟んで同じ行に入れておいてください。&br; //--''雑誌''&br; // データベースでは,重要度の高いタイトルから先に入っている為,雑誌紙面の見出し構成とは異なっている場合があります。タイトルに先行する修飾部などが,タイトルの後ろに入力されている場合は,適宜修正します。 //-''テキストの順番''&br; // データベースでは,紙面に指定してある読み順と異なる順番で入っている可能性があります。1記事内の読み順は,記事の構造を反映したものにする必要がありますので,記事の内容などから判断して,適切な順番に配列してください。 //***【参考】文字入力例 [#vc2f6cbc]