introduction-shimada

Download Report

Transcript introduction-shimada

「よい」テストの条件:妥当性、信頼性、実用性、波及効果
What is a ‘good’ test?: validity, reliability, practicality, and washback
Katsumasa SHIMADA
島田勝正
スライドの右下に
鉛筆のマーク( ✎ )が
ついたスライドには
「解説」があります
1
テストの目的
• Why do you test?
• タスク1: テストの目的をすくなくとも3点挙げて下さい。
2
テストの目的
(1) 準備(readiness)ができているか確認する~例:留学テスト(TOEFL, IELTS)
(2) 適切なクラスに割り振る(placement) ~例:クラス分けテスト
(3) 長所・短所を診断(diagnostic)する~例:診断テスト
(4) 学習の適性(aptitude)を測定する~例:適性テスト
(5) 到達度(achievement)を測定する~例:中間テスト・期末テスト
(6) 熟達度(proficiency)を測定する~例:実用英語技能検定(英検)
(7) 志願者を選別(selection)する~例:入学試験
■ テストの目的が多岐にわたることがわかります。
□ あなたにとって. . .
・一番重要なのはどれですか。/ 一番重要でないのはどれですか。
✎
3
Teaching, Learning, and Testing
learning
facilitate
assist
elicit
feedback
assess
washback
teaching
testing
✎
4
「よい 」テストとは?
「よい」テストには、3つの条件があります。
• 妥当性(validity)
• 信頼性(reliability)
• 実用性(practicality)
5
妥当性(validity)
□ 3つの条件のうち、まず、「妥当性」について見ていきましょう。
• Dictionary of Language Testingによれば. . .
• the degree to which a test measures what it is to supposed to measure, or
can be used successfully for the purposes for which it is intended. (Davis
et al. 2002: 575)
• 一言でいえば. . .
• 「そのテストが測ろうとしているものを本当に測っているか」ということです。
6
妥当性の種類
• 妥当性とは一言でいえば、「そのテストが測ろうとしているものを本当に
測っているか」でした。
• 妥当性には例えば、次のような種類があります。
•
•
•
•
content validity(内容的妥当性)
construct validity(構成概念妥当性)
concurrent validity(併存的妥当性)
predictive validity(予測的妥当性)
✎
7
テスト=測定(measurement)
• テストの基本的な機能は、測定(measurement)です。
• 「測られるもの」として「能力」があり、「測るもの」として「道具」があります。
そして、テストは能力を測るための道具です。
• したがって、「測られるもの」と「測るもの」のマッチングが重要になってき
ます。測られるものを道具が正確に測っていないとすれば、測られた方
はたまったものではありません。
• 次のスライドで「測られるもの」と「測るもの」のマッチングについて考えて
みましょう。
8
測定されるものと測定するもののマッチング
タスク2: 左欄と右欄を結びなさい。
そして、その「妥当性」を「5-4-3-2-1」の5段階で評価しなさい。
ただし、5=極めて妥当である、1=全く妥当でない
•
•
•
•
•
•
測定されるもの
1.身長
2.体温
3.走力
4.山の高さ
5.コレストロール値
6.英語力
•
•
•
•
•
•
•
測定するもの
A. ストップウオッチ
B. 30cm定規
C. 気温計
D. TOEFL(Paper-based Test)
E. 気圧計
F. 血液検査
G. 大学入試センター試験
9
正解はありません。「私」の答えを示します。
•
•
•
•
•
•
測定されるもの
1.身長
2.体温
3.走力
4.山の高さ
5.コレストロール値
6.英語力
•
•
•
•
•
•
•
測定するもの
B. 30cm定規
C. 気温計
A. ストップウオッチ
E. 気圧計
F. 血液検査
D. TOEFL(PBT)
G. センター入試
評価
 3
 3
 5
 3
 5
 4?
 4?
10
妥当性の評価
□ 私が妥当性の評価で、なぜ、TOEFL(PBT)を「5」と評価せずに「4」とし、そ
の後に「?」を付けたか、その理由を考えてみてください。
□ TOEFLの発展の歴史にヒントがあります。
11
TOEFL (Test of English as a Foreign Language)の変遷
• PBT (paper-based test): listening comprehension, structures
and written expressions, reading comprehension,
• CBT (computer-based test) test): listening comprehension,
structures and written expressions, reading comprehension,
writing
• iBT (internet-based test) test): listening comprehension,
reading comprehension, writing, speaking
12
• PBTで高得点を取った学生がはたしてアメリカの大学に留学して、英語で
行わる授業に問題なくついていけるでしょうか。
• TOEFLが進化するにつれて、CBTではwriting 、そして、iBT ではspeakingと、
その技能領域が増えていることに気づきます。
• つまり、留学テストとしてのTOEFLとしては、writingやspeakingの技能も測
定しないとその妥当性が低いと解釈することができます。
• たとえば、アメリカの大学に留学した学生が、英語でレポートを書いたり、
講師の先生に英語で質問したりする場面は、容易に想像されます。
13
□ 今度は大学入試センター試験も「5」ではなくて「4」の評価を与え、その
後に「?」を付けたのかを考えてみてください。
□ それを考える前に、まずは「2010年度の過去問」に挑戦してみてください。
14
大学入試センター試験問題(過去問)
• タスク3: 下線部の発音が、他の3つの場合と異なるものを、それぞれ
A.~D.のうちから一つづつ選びなさい。<筆記テスト>
•
•
•
•
問1
問2
問3
問4
A. boot
A. breadth
A. earn
A. leisure
B. goose
B. faith
B. heart
B. measure
C. proof
C. length
C. pearl
C. physics
D. wool
D. smooth
D. search
D. vision
実際にそれぞれの単語を発音しなさい。<実技テスト>
15
大学入試センター試験問題(過去問)
• タスク4: 問1~3において、与えられた語と第1アクセント(第1強勢)の
位置が同じ語を、それぞれA.~D.のうちから一つづつ選びなさい。<筆
記テスト>
• 問1 damage
A. convince
• 問2 recommend
A. guarantee
• 問3 fortunately
A. appreciate
B. effort
C. prefer
D. throughout
B. museum
C. objective
D. satisfy
B. elevator
C. manufacture D. sympathetic
実際にそれぞれの単語を発音しなさい。<実技テスト>
16
大学入試センター試験の問題の妥当性
• タスク5:大学入試センター出題の「発音・アクセント」問題(筆記テスト
(pencil-and-paper test))は、はたして妥当なテストと言えるか。
• はい(5) ~いいえ(1)の5段階で評価しなさい。
17
相関
• タスク5にこたえるために、「相関」(correlation)という概念について学習し
ておきましょう。
• 相関とは. . .
• 2つの変数(x、y)の変動がどの程度似ているかというその度合い(関係)
のことを言います。
18
得点データ1 Test A;Test B
ID No.
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Test A
24 29 22 22 28 32 26 26 25 22 18 28 22 11 25 25 18 15 24 28 30 27 22 32 34
Test B
24 29 22 22 28 32 26 26 25 22 18 28 22 11 25 25 18 15 24 28 30 27 22 32 34
19
散布図1(相関係数r=1.000)
Test AとTest Bの相関
40
35
30
Test B
25
20
r=1.000
15
10
5
0
0
10
20
30
40
Test A
20
得点データ2 Test C;Test D
ID No.
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Test C
24 29 22 22 28 32 26 26 25 22 18 28 22 11 25 25 18 15 24 28 30 27 22 32 34
Test D
27
9 26 18 31 10 31 25 22 24 20 31 10 35 20 27 19 27 30 25 20 24 22 20 20
21
散布図2 (相関係数r=0.139)
Test C とTest Dの相関
40
35
30
Test D
25
20
r=0.139
15
10
5
0
0
10
20
30
40
Test C
22
得点データ3 OIT(口頭模倣テスト);OTT(口頭英訳テスト)
ID No.
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
OIT
24 29 22 22 28 32 26 26 25 22 18 28 22 11 25 25 18 15 24 28 30 27 22 32 34
OTT
27 30 26 18 31 32 31 25 22 24 20 31 18 11 31 29 27 19 27 30 33 24 22 29 29
23
散布図3 (相関係数r=0.734)
口頭模倣テストと口頭英訳テストの相関
40
35
口頭英訳テスト
30
25
20
15
r=0.734
10
5
0
0
10
20
30
40
口頭模倣テスト
24
妥当性と相関
• もしも、大学入試センターの発音・アクセントテスト問題に関して、「筆記テ
スト」と「実技テスト」の相関が高ければ、
• たとえば、相関係数が0.7であれば、
• (0.7)2=0.7×0.7=0.49 →両者は、49%同じ能力(重複部分)を
測定していることになります。
• たとえば、相関係数が0.9であれば、
• (0.9)2=0.9 × 0.9=0.81→ 両者は、81%同じ能力(重複部分)
を測定していることになります。
• よって、「筆記テスト」で、実際に正しい発音・正しいアクセントで単語を発
音する能力をかなりの度合いで測定することができるということになりま
す。
• つまり、「筆記テスト」が「実技テスト」の代替となる可能性があるというこ
とです。
25
r=0.7; r2=0.49
実技テスト
筆記テスト
r=0.9; r2=0.81
実技テスト
筆記テスト
26
「よい 」テストとは?
3つの条件
• Validity(妥当性)
• Reliability(信頼性)
• Practicality(実用性)
27
信頼性(reliability)
□ 今度は「信頼性(reliability)」について見ていきましょう。
Longman Dictionary of Language Teaching and Applied Linguisticsによれば. . .
•
•
A measure of the degree to which a test gives consistent results. A test is said
to be reliable if it gives the same results when it is given on different occasions
or when it is used by different people. (Richards and Schmidt. 2010:495)
(何度実施しても)一貫した、同じ結果を示す
Dictionary of Language Testingによれば. . .
•
•
The actual level of agreement between the results of one test with itself or
with another test. Such agreement, ideally, would be the same if there were
no measurement error (Davies et al. 1999:168)
誤差がないと同じ結果になる
28
信頼性
• 信頼性(reliability)=真の得点(true score)÷観測得点(observed score)
• 観測得点=真の得点+誤差(error)
真の得点
信頼性 = ―――――――― =
観測得点
真の得点
――――――――――
真の得点+誤差
29
信頼性係数の算出方法
□ では、どのように信頼性係数を求めたらいいのでしょうか。
■安定性(stability)
• 再テスト法( test-retest method)
■内的一貫性(Internal consistency)
• 折半法( split-half method)
• キューダーリチャードソン公式(Kuder-Richardson(KR) 20
formula)
• クロンバックα (Cronbach’s alpha)
30
TOEFL(PBT)の信頼性、標準測定誤差
得点範囲
問題数
テスト時間
信頼性係数
標準測定誤差
ITP Pre-TOEFL
200-500
95
70
0.89
16.4
ITP TOEFL
310-677
140
115
0.95
13.7
31
信頼性、標準測定誤差の解釈
得点範囲
問題数
テスト時間
信頼性係数
標準測定誤差
ITP Pre-TOEFL
200-500
95
70
0.89
16.4
ITP TOEFL
310-677
140
115
0.95
13.7
標準測定誤差から、個人の「真の得点」が変異する範囲を予測
することができます。
たとえば、A君がITP Pre-TOEFLで400点をとったとしましょう。
400 -16.4=383.6 400 + 16.4=416.4
A君の「真の得点」、つまり、実力は、383.6~416.4の間に入る確
率が統計的に68.3%であるということです。
32
信頼性の向上
□ では、信頼性はどのようにしたら上がるのでしょうか?
タスク8:なぜITP Pre-TOEFL(0.89)よりもITP TOEFL(0.95)の方が信頼性が高
いのかを考えなさい。
得点範囲
問題数
テスト時間
信頼性係数
標準測定誤差
ITP Pre-TOEFL
200-500
95
70
0.89
<
16.4
ITP TOEFL
310-677
140
115
0.95
13.7
33
信頼性の向上
得点範囲
問題数
テスト時間
信頼性係数
標準測定誤差
ITP Pre-TOEFL
200-500
95
<
70
0.89
<
16.4
>
ITP TOEFL
310-677
140
115
0.95
13.7
■ 項目数が増えると信頼性は上がる
34
if Item
Deleted
Q1
Q2
Q3
Q4
Q5
Q6
Q7
Q8
Q9
Q10
if Item
Deleted
4.4333
信頼性の向上
5.2000
4.8333
4.7667
4.7333
4.7667
4.9000
4.8667
5.0667
5.0333
Reliability Coefficients
Alpha =
.7489
Total
Multiple
Correlation
Correlat
6.3230
6.9241
5.2471
5.0816
5.3747
5.0816
4.9897
5.1540
4.8920
5.8264
.2579
-.2319
.4729
.5753
.4446
.5753
.5919
.5129
.6937
.2225
.3388
.5819
.8133
.7356
.6061
.9120
.8817
.9230
.9308
.6122
10 items
Standardized item alpha =
.7329
■ 悪い項目を削除すると信頼性は上がる
35
「よい 」テストとは?
3つの条件
• Validity(妥当性)
• Reliability(信頼性)
• Practicality(実用性)
36
実用性(Practicality) ☀
• 費用、テストの長さ、採点、テスト時間、設備
等
• The term practicality covers a range of issues,
such as the cost of development and
maintenance, test length, ease of marking,
time required to administer the test, ease of
administration, and equipment required
(Davies 1999:148)
37
タスク9:ITP Pre-TOEFLとITP TOEFLのどちらが「実用性」が高い
か。
得点範囲
問題数
テスト時間
信頼性係数
標準測定誤差
ITP Pre-TOEFL
200-500
95
70
0.89
16.4
ITP TOEFL
310-677
140
115
0.95
13.7
38
タスク9:ITP Pre-TOEFLとITP TOEFLのどちらが「実用性」が高い
か。
得点範囲
問題数
テスト時間
信頼性係数
標準測定誤差
ITP Pre-TOEFL
200-500
95
<
70
0.89
16.4
ITP TOEFL
310-677
140
115
0.95
13.7
39
Weighting ☀
• If an achievement test covers two areas, one of which is judged to be
twice as important as the other, then twice as many as items should be
written in relation to the more important area. (Ebel 1979:199, cited in
Alderson et al.1995:149)
• In general, however, the best advice is not to weight components by some
formulaic adjustment of scores, but rather to weight components at the
test design stage by including more or fewer items in the individual
components. (Alderson et al. 1995:150)
40
Task 11: Weighting
Which test is better, Test 1 or Test 2?
weighting ratio
Area A
Area B
Area A + Area B
2
1
2:1
Test 1
item number
10
20
30
score (adjusted)
2 points * 10 items = 20 points
0.5 points * 20 items = 10 points
30 points
Test 2
item number
20
10
30
score(non-adjusted)
1 point * 20 items = 20 points
1 point * 10 items = 10 points
30 points
41
Task 11: Weighting
Which test is better, Test 1 or Test 2?
weighting ratio
Area A
Area B
Area A + Area B
2
1
2:1
Test 1
item number
10
20
30
score (adjusted)
2 points * 10 items = 20 points
0.5 points * 20 items = 10 points
30 points
Test 2
item number
20
10
30
score(non-adjusted)
1 point * 20 items = 20 points
1 point * 10 items = 10 points
30 points
42
参考文献
• Alderson, C., Clapham, C. and Wall, D. (1995). Language test construction
and evaluation. Cambridge University Press.
• Davies, A., Brown, A., Elder, C., Hill, K., Lumley, T., and NcNamara, T.(1999).
Dictionary of language testing. Cambridge University Press.
• Harris, D. P. (1969). Testing English as a second language. McGraw-Hill.
• Heaton, J. B. (1988). Writing English language tests. Longman.
• Richards, J. C., and Schmidt, R. (2002). Dictionary of language teaching
and applied linguistics. Longman.
43
2)テストの作成、採点、結果の報告の
実践的な情報:
Practical considerations in developing
language tests
©日本言語テスト学会
島田勝正
44