7.ライティングのテスト(Testing Writing)

Download Report

Transcript 7.ライティングのテスト(Testing Writing)

Assessing Writing
ライティングテストを作る
にあたっての流れ
•
•
構成概念(能力)の定義
構成概念の操作化
✓ 測定するためのタスクの決定
✓ 正答、採点基準の設定
•
採点および採点結果の検証(点数の信頼性)
まず始めに
構成概念(construct:測りたい能力)を定義して
それを測定するのに適したタスクを選ぶ
構成概念はあくまで目に見えない能力なので、
測定できる構成要素を明らかにして、それを数値化する
これは他の能力を測る際も同じ
構成概念
一般の英語能力テスト
言語能力の理論に基づいて
書く能力を定義
学校でのテスト
シラバス(授業細目)の
到達目標
シラバスを作成する時点でどのような「書く能力」を
目標にして授業をするのかを明確にしておく
書く能力
•
•
•
書く能力にもいろいろな段階がある
ジャンルによって求められるものが異なる
一方的に書くのではなく、インプットに対し
て適切な反応ができるかが重要になる
✓ 書くことだけが求められるタスクは少ない
‣ 読むこと、聞くことができる能力も必要
書く能力
• ある言語(英語など)で書けるとは?
✓ 正しい綴り、句読法で書ける
✓ 文法・語彙が適切な文が書ける
✓ 意味のつながりのある文が書ける
✓ 構成のしっかりした文章が書ける
これらに相互作用的な要素が加わる
つまり、インプットに対し適切な反応ができること
ライティングのタスク
それぞれの「書く能力」に対応した
ライティングタスクの例をいくつか示す
ここに挙げているものはあくまでも例であり
この他にもタスクとして考えられるものは
数多くある
ライティングのタスク
•
正しい綴り、句読法で書けるかどうか
✓ 単語、フレーズ、文の書き写し
✓ リスニングクローズ(穴埋め)
✓ ディクテーション(聞いたものを書く)
ライティングのタスク
•
文法・語彙が適切な文が書けるかどうか
✓ 文の書き換え
✓ 単語の並べ替え
✓ 絵などの簡単な描写
✓ 和文英訳
ライティングのタスク
•
意味のつながりのある文が書けるかどうか
✓ パラグラフライティング
✓ 文の並べ替え
✓ 文レベルの穴埋め
✓ グラフなどの説明
✓ ストーリーのある絵などの説明
ライティングのタスク
•
構成のしっかりした文章が書けるかどうか
✓ 小論文(エッセイ)・ 論文
✓ 文章の要約
✓ 報告書
✓ 手紙・日記
✓ 物語
ライティングのジャンル
ライティングに限らず言語の使用には目的があり
表現、文法、語彙、文章構成などは
ジャンル(使用域)ごとに、何が適切かが異なる
学校教育では、どこまでジャンルという概念を
指導や評価に組み込むかを考える必要がある
ライティングのジャンル
•
アカデミックライティング
✓ 小論文、レポート、論文、テストの回答
•
仕事に関するライティング
✓ ビジネスレター、Eメール、報告書、広告
•
個人的なライティング
✓ Eメール、日記、ショッピングリスト、申し
込み用紙記入、メモ、カレンダーの予定
Brown & Abeywickrama (2010)
ライティングの採点
ここで示したタスクで、正答がある程度決まっている
「正しい綴り、句読法で書ける」
「文法・語彙が適切な文が書ける」
に関しては
語彙・文法のテストの範疇に入るので
ここでは、パフォーマンステストの評価に特有の
評定尺度(rating scales)を用いて評価する
方法について紹介していく
ライティングの採点
単一の点数
複数の点数
特定のタスク
に限定
他のライティング
タスクに
一般化可能
単特性採点
全体的採点
(primary trait rating)
(holistic rating)
分析的採点
(analytic rating)
Weigle (2002)
全体的採点
(holistic rating)
•
•
•
書かれたものに対して全体的な印象を基に単
一の点数を付ける
時間をかけず短時間で読み、評定尺度に照ら
し合わせて評価の判断を下す
ETS の Test of Written English (TWE) のもの
が代表的(現在の TOEFL は 5 段階評価)
Test of Written English (TWE)
Rating Scale (ETS)
6 An essay at this level
• effectively addresses the writing task
• is well organized and well developed
• uses clearly appropriate details to support a thesis or
illustrate ideas
• displays consistent facility in the use of language
• demonstrates syntactic variety and appropriate word choice,
though it may have occasional errors
5 An essay at this level
• may address some parts of the task more effectively than
others
• is generally well organized and well developed
• uses details to support a thesis or illustrate an idea
• displays facility in the use of the language
• demonstrates some syntactic variety and range of
vocabulary, though it will probably have occasional errors
4 An essay at this level
• addresses the writing topic, but slight parts of the task
• is adequately organized and developed
• uses some details to support a thesis or illustrate an idea
• displays adequate but possibly inconsistent facility with
syntax and use, and it may contain some errors that
occasionally obscure meaning
3 An essay at this level my reveal one or more of the following
weaknesses
• inadequate organization or development
• inappropriate or insufficient details to support or illustrate
generalizations
• a noticeably inappropriate choice of words or word forms
• an accumulation of errors in sentence structure and/or
usage
2 An essay at this level is seriously flawed by one or more of the
following weaknesses
• serious disorganization or underdevelopment
• little or no detail, or irrelevant specifics
• serious and frequent errors in sentence structure or usage
• serious problems with focus
1 An essay at this level
• may be incoherent
• may be underdeveloped
• may contain severe and persistent writing errors
0 An essay will be rated 0 if it
• contains no response
• merely copies the topic
• is off-topic, is written in a foreign language, or consists only
of keystroke characters
Lee et al. (2008)
全体的採点
(holistic rating)
•
利点
✓ 短時間で採点ができる
✓ 実際に人が文章を読む行為に近い
•
✓ 文章としての質が総合的に判断される
問題点
✓ 点数から得られる情報が少ない
✓ 採点者がどの部分を重視しているかがわからない
✓ 長さなどの表面的な要素の影響を受けやすい
‣ 経験の少ない採点者は文法のエラーなどの目につ
きやすい点に影響されやすい
分析的採点
(analytic rating)
•
•
•
書かれたものに対して、内容・文法・語彙な
ど、目的に応じた要素ごとに点数を付ける
目的に応じて要素ごとの点数の配分を決める
Jacobs et al. (1981) の ESL Composition
Profile が代表的な例として挙げられる
ESL Composition Profile
CONTENT
ORGANIZATION
VOCABULARY
30-27
EXCELLENT TO VERY GOOD: knowledgeable •
substantive • thorough development of thesis •
relevant to assigned topic
20-18
EXCELLENT TO VERY GOOD: fluent expression •
ideas clearly stated/supported • succinct• wellorganized • logical sequencing • cohesive
20-18
EXCELLENT TO VERY GOOD: sophisticated range •
effective word/idiom choice and usage • word form
mastery • appropriate register
26-22
GOOD TO AVERAGE: some knowledge of subject •
adequate range • limited development of thesis •
mostly relevant to topic, but lacks detail
17-14
GOOD TO AVERAGE: somewhat choppy • loosely
organized but main ideas stand out •limited support
• logical but incomplete sequencing
17-14
GOOD TO AVERAGE: adequate range • occasional
errors of word/idiom form, choice, usage but meaning
not obscured
21-17
FAIR TO POOR: limited knowledge of subject • little
substance • inadequate development of topic
13-10
FAIR TO POOR: non-fluent • ideas confused or
disconnected • lacks logical sequencing and
development
13-10
FAIR TO POOR: limited range • frequent errors of
word/idiom form, choice • usage • meaning confused or
obscured
16-13
VERY POOR: does not show knowledge of subject •
non-substantive • not pertinent • OR not enough to
evaluate
9-7
9-7
VERY POOR: essentially translation • little knowledge of
English vocabulary • idioms • word form • OR not
enough to evaluate
VERY POOR: does not communicate • no
organization • OR not enough to evaluate
LANGUAGE USE
MECHANICS
25-22
EXCELLENT TO VERY GOOD: effective complex constructions • few errors of
agreement•tense • number • word order/function • articles • pronouns• prepositions
5
EXCELLENT TO VERY GOOD: demonstrates mastery of conventions • few errors of
spelling • punctuation • capitalization • paragraphing
21-18
GOOD TO AVERAGE: effective but simple constructions • minor problems in
complex constructions • several errors of agreement •tense • number • word
order/function • articles • pronouns • prepositions but meaning seldom obscured
4
GOOD TO AVERAGE: occasional errors of spelling • punctuation •capitalization•
paragraphing but meaning not obscured
17-11
FAIR TO POOR: major problems in simple/complex constructions • frequent errors of
negation • agreement • tense • number • word order/function • articles •pronouns •
prepositions and/or fragments • run-ons • deletions • meaning confused or obscured
3
FAIR TO POOR: frequent errors of spelling, punctuation, capitalization, paragraphing
• poor handwriting • meaning confused or obscured
5-10
VERY POOR: virtually no mastery of sentence construction rules • dominated by
errors • does not communicate • OR not enough to evaluate
2
VERY POOR: no mastery of conventions • dominated by errors of spelling,
punctuation, capitalization, paragraphing • handwriting illegible • OR not enough to
evaluate
Jacobs et al. (1981)
分析的採点
(analytic rating)
•
利点
✓ 要素ごとに分かれているため点数から得られる情報が
多い
✓ 採点者がそれぞれの要素に目を向けやすい
•
✓ 要素ごとに熟達度が異なることの多い第二言語学習者
の書いたものの採点に向いている
問題点
✓ 採点に時間がかかる
✓ 各要素を明確に区別することが難しい(ハロー効果)
✓ 合計点だけが利用されてしまうことがある
単特性採点
(primary trait rating)
•
特定の課題において、その課題の達成度によ
って点数を付ける
✓ 文章が書かれる状況や目的を考慮して具体
的な課題を設定し、その課題で最も際立っ
た特性を測定するための評価基準を決める
•
•
テストごとに評価基準を決める必要がある
第二言語のテストではほとんど使われない
Primary Trait Scoring Guide
Directions: Look carefully at the picture. These kids are having fun jumping on the overturned boat. Imagine you are one of the children in the picture. Or if you
wish, imagine that you are someone standing nearby watching the children. Tell what is going on as he or she would tell it. Write as if you were telling this to a
good friend, in a way that expresses strong feelings. Help your friend FEEL the experience too. Space is provided on the next three pages.
NAEP Scoring Guide: Children on Boat
Background
Primary Trait. Imaginative Expression of Feeling through Inventive Elaboration of a Point of View.
Final Scoring Guide
ENTIRE EXERCISE
0 No response, sentence fragment
1 Scorable
2 Illegible or illiterate
3 Does not refer to the picture at all
9 I don’t know
USE OF DIALOGUE
0 Does not use dialogue in the story.
1 Direct quote from one person in the story. The one person may talk more than once. When in doubt whether two statements are made by the same
person or different people, code 1. A direct quote of a thought also counts. Can be in hypothetical tense.
2 Direct quote from two or more persons in the story.
POINT OF VIEW
0 Point of view cannot be determined, or does not control point of view.
1 Point of view is consistently one of the five children. Include “If I were one of the children . . . “ and recalling participation as one of the children.
2 Point of view is consistently one of an observer. When an observer joins the children in the play, the point of view is still “2” because the observer makes
a sixth person playing. Include papers with minimal evidence even when difficult to tell which point of view is being taken.
TENSE
0 Cannot determine time, or does not control tense. (One wrong tense places the paper in this category, except drowned in the present.)
1 Present tense-past tense may also be present if not part of the “main line” of the story.
2 Past tense-If a past tense description is acceptable brought up to present, code as “past.” Sometimes the present is used to create a frame for past
events. Code this as past, since the actual description is. in the past.
3 Hypothetical time-Papers written entirely in the “If I were on the boat” or “If I were there, I would.” These papers often include future references such as
“when I get on the boat I will.” If part is hypothetical and rest past or present and tense is controlled, code present or past. If the introduction, up to two
sentences, is only part in past or present then code hypothetical.
Lloyd-Jones (1977) in Weigle (2002)
独自の採点基準
•
推奨される基準の段階および要素の数
✓ 一つの要素(もしくは全体)について 5 から
10 段階程度
‣ 少なすぎると弁別できず、多すぎると区別
できない
✓ 分析的採点の場合は、4 つか 5 つの要素まで
‣ 多すぎても区別できない
採点プロセス
•
•
•
一人で採点する場合は、できれば順番を変え
て 2 度採点する
一つのサンプルを二人以上が採点する場合は、
読む順番を決めるのであれば、それぞれが読
む順番を変える
これらはパフォーマンスの採点では直前に読
んだサンプルの影響があるため(ハロー効
果)
採点プロセス
•
複数の採点者で採点する場合は、基準となるサン
プルを用意して、評定尺度の解釈を統一する
✓ それぞれの点数で基準となるサンプルを読み、
その点になる理由を説明する
✓ 点数の付いていないサンプルを読んで採点を練
習し、その後、採点に関して話し合う
✓ 理解が共有されたと判断した時点で、実際の採
点作業に入る
採点プロセス
•
二人の採点者の評価が大きく離れている場合
(5 段階評価で 2 点差以上など)
✓ 三人目(通常、経験が多い採点者)が採点
‣ 3 つの点数の平均を取る
‣ もしくは、3 つのうち点の近い 2 つを採
用する
採点の信頼性
•
評定尺度を用いたパフォーマンステストでは、
点数の信頼性は採点間の点数の一致で示され
ることが多い
✓ 採点者が一人の場合は、複数回の採点の点
数の一致(intra-rater reliability)
✓ 複数の採点者がいる場合は、採点者間の点
数の一致(inter-rater reliability)
採点の信頼性
•
信頼性の計算
✓ 複数回の採点をテストの項目数として信頼
性係数(クロンバックα)を計算
✓ 完全一致もしくは隣接一致(±1 まで含め
る)の割合を計算
✓ これ以外にも高度な統計手法を用いた方法
もある(G-theory, Rasch 分析)
採点の信頼性
•
•
二人以上の採点者が採点する場合には、訓練
によって、評価の一致を諮るが、訓練をして
も、完全な一致には必ずしも至らない
専門家の中でも、一致するまで訓練するべき
か、評価の多様性をある程度認めるべきかで、
必ずしも意見は一致していない
✓ テストを作る側の基準は価値観を含むもの
で必ずしも絶対ではないと考える人もいる
(特に内容を採点に含める場合)
統合的技能のテスト
•
TOEFL iBT でも導入されたように、要約など、
統合的技能のテストに注目が集まっている
✓ 読んだり聞いたりしたものを要約する
✓ 読んだり聞いたりした上で、その情報を使い
ながら書く
統合的技能のテスト
•
要約などには、ライティングの要素とリーデ
ィング・リスニングの両方の要素が含まれる
✓ 書く能力だけを測るのは難しい
✓ 要約できる能力≠書く能力+読む・聞く能力
‣ 高いレベルの認知技能も必要
•
元の文が受験者の手元にある場合(リーディ
ング)は、原文をそのまま抜き出して使った
場合の対処を考える必要がある
統合的技能のテスト
•
要約などは、ライティングのテストとして扱
うのではなく、「要約できる能力」という構
成概念を測定するという考え方で、それにふ
さわしい評定尺度をつくる必要がある
✓ 能力の高い受験者と低い受験者では、評価
に差が出る要素が違う
‣ 能力が高い受験者間で差が出る要素と、
能力が低い受験者間で差が出る要素は必
ずしも同じではない
最後に
•
•
ライティングパフォーマンスの評価は何かを
書かせればそれで十分ではない
何を評価したいのかを明確にして課題を設定
した上で、評価基準を決めて、一貫した採点
ができるようにする必要がある
References
Brown, H.D. and Abeywickrama, P. (2010). Language assessment: Principles and
classroom practices (2nd ed). White Plains, NY: Pearson Education.
Jacobs, H., Zinkgraf, S., Wormuth, D., Hartfiel, V. and Hughey, J. (1981). Testing
ESL composition: A practical approach. Rowley, MA: Newbury House.
Lee, Y.W., Gentile, C., and Kantor, R. (2008). Analytic scoring of TOEFL CBT
essays: Scores from humans and e-rater®. TOEFL Research Report No. 81.
Princeton, NJ: Educational Testing Service.
Weigle, S. C. (2002). Assessing writing. Cambridge, UK: Cambridge University
Press.