日本語学習者作文縦断コーパス「W-CoLeJa」データ配布
本コーパスは、利用目的に応じて以下の2種類のデータパックを提供しています。
- テーマ別データパック:作文をテーマごとに分類して格納したZIPファイル
- 一括データパック:すべての作文データを分類せずに格納したZIPファイル
配布データ概要
データパックに含まれる内容は、
①:作文 ②:日本語能力テストの結果(三種のテスト) ③学習者背景データ(三種のシート) ④共有データ一覧
の4種となっています。
1. 作文
日本語作文および母語(L1)による作文を、テーマ別・学年別に整理して格納しています。学習の進行に伴う表現の変化を比較・分析することが可能です。
2. 日本語能力テストの結果(三種のテスト)
本コーパスは調査協力者の日本語のレベルを測定するため、三種のテストを使用しました。使用したテストは筑波大学(TTBJ)が運営している「SPOT90」と、国語研が開発した「かんたん日本語テスト」の2種類です。
「SPOT90」は広く使用されておりますが、中国語簡体字圏ではシステムの関係上使用できないことを鑑み、「かんたん日本語テスト」が開発されました。開発の経緯及び「かんたん日本語テスト」の利用などについては以下の参考文献をご覧ください。
- 市江愛・吉田暁(2025)「日本語能力測定試験の作成とその妥当性の検証‐「かんたん日本語テスト」‐」『シリーズ言語資源学 学習者コーパスの設計と構築』pp.91-105。
- 市江愛・吉田暁・石黒圭(2023)「日本語教育研究のための『かんたん日本語テスト』の開発―テスト開発経緯と項目分析結果を中心に―」『国際学報』1: 19-27。
※「かんたん日本語テスト」レベル分けについての概要
「かんたん日本語テスト」のレベルは大きく分けて3つ(初級、中級、上級)となっております。
- 初級(0~50点)は入門を含み、JLPTではN5・N4に、SPOT90では0~55点(入門+初級)に相当します。
- 中級(51~85点)は、JLPTではN3・N2に、SPOT90では56~80点(中級)に相当します。
- 上級(86~120点)は、JLPTではN1以上に、SPOT90では81~90点(上級)に相当します。
3. 学習者背景データ(三種のシート)
学習者の背景を把握するためのフェイスシート、情報シート、アンケートを含みます。学習歴や言語環境などの情報を確認することができます。
本コーパスには、学習者の背景や作文環境、学習意識を多角的に把握するために、以下の3種類のシートが含まれています。これらの情報を作文データと組み合わせて分析することで、学習者の言語発達や学習過程をより詳しく検討することができます。
- フェイスシート:調査初回に1回だけ行った、学生の性別や出身など、基本的な個人情報を収録した「調査参加者フェイスシート」です。
- 情報シート:コンピュータの使用状況等を調べるために1年に3回、計12回(全回)実施した「作文執筆情報シート」です。どのようなPCや日本語入力システムを使ったのか。また、使用した辞書や検索したWebページなどを書いてもらっています。
- アンケート:日本語での作文執筆にたいする意識等を調べるために1年に1回、計4回実施した「学習者アンケート」です。日本語の作文能力に関する自己評価項目48項目への学習者の回答が収録されています。日本語学習歴(中学・高校・大学)や日本渡航歴(旅行・留学・居住)といった情報も知ることができます。
4. 共有データ一覧
収録されているデータの種類や内容を一覧で確認できる資料を付属しています。