Ch2測驗的信度(9701)(1037 KB )

Download Report

Transcript Ch2測驗的信度(9701)(1037 KB )

測驗的信度
教育測驗與評量
胡悅倫教授
壹、信度的意義和原理
信度的意義
信度的原理
真實分數與測量誤差
真實分數與信度
信度的意義
從測量的一致性來看,信度就是指相同
的個人在不同的時間,以相同的測驗測
量,或以副本測驗(相同的試題)測量,
或在不同的情境下測量,所得結果的一
致性(consistency)。
信度的原理-真實分數與測量誤差
實得分數是由兩部份組成:
X=T+E
X:實得分數
T:真實分數
(沒有受到測量誤差影響的部分)
E:誤差分數
複本測驗 實得分數 誤差分數
1
60
0
2
62
+2
3
4
5
6
7
8
9
10
58
56
63
62
60
61
59
59
600
-2
-4
+3
+2
0
+1
-1
-1
0
某
實
生
得
在
分
十
600
X=
數
個
10
與
= 60
複
(真實分數) 誤
本
40
差
S =
測
10
分
驗
= 4
數
(誤差變異量)
的
2
e
測量誤差
可分為:
非系統誤差(unsystematic error)
系統誤差(systematic error)
非系統誤差
導致非系統誤差的因素:
受試者的身心狀況,如動機、注意與
情緒
測驗情境
測驗試題,如取樣、難度、計分、數
量等
這些因素是在隨機,沒有規則和不可預
測的方式下,隨著情境不同而影響測驗
分數的。
系統誤差
在一個固定、一致的方式下高估或低估
分數。
在不同情境中,它對一位受試者的影響
是一樣的。
對所有受試者在相同的情境中的影響,
也是一樣的。
又稱為常誤(constant error)或偏誤
(biased)。
信度的原理-真實分數與信度
2
2
2
Sx = St + Se
2
Sx
2
Sx
2
Sx
2
Sx
=
2
St
2
Sx
+
(公式一)
2
Se
2
Sx
(公式二)
實得分數的總變異量
真實分數與信度(續)
r xx =
2
St
2
Sx
r xx =
2
Sx
2
Sx
(公式三)
-
2
Se
2
Sx
(公式四)
r xx = 1 -
2
Se
2
Sx
(公式五)
貳、信度的類型
估計信度的方法
重測方法
複本方法
內部一致性方法
評分者方法
信度類型與測量誤差
估計信度的方法-重測方法
估計測驗分數是否穩定最直接的方法。
重複測量相同的一群受試者兩次。
或稱再測信度(test-retest reliability
coefficient)。
此係數可以表明測驗結果經過一段時間
後的穩定性。
導致變異誤差的原因
測驗不穩定:兩次測驗分數的相關不高
或很低。
導致這種變異的誤差,主要是:
受試者本身情況的改變,如生氣、疲
勞、情緒緊張、焦慮、動機等;
測驗情境的變化,如天氣、吵雜、燈
光等。
重測信度愈高,分數受到這兩個因素的
影響就愈小。
間隔時間的長短
再測信度的高低和兩次間隔時間的長短
有密切的關係。
間隔時間愈長,信度愈低。
間隔時間愈短,信度愈高。
適當的間隔時間是一週或兩週。
不過並沒有單一標準:
年齡愈小的受試者,間隔時間較短。
再測信度的缺點
容易受到練習與記憶的影響
測驗題目的性質因重測而改變,尤
以推理與思考的題目為然。
兩次測驗時難以有相同的測驗情境。
估計信度的方法-複本方法
測驗應該被視為從試題的母群體
(population or universe)所抽出的
樣本,因此,每一個測驗都可以有
許多複本測驗(alternate-forms
test)。
例如:一本國語詞典,可抽出20個字
而編成相當多的字彙測驗。
複本信度
(alternate-forms reliability )
採用複本方法所估計的信度。
旨在確定我們有多少信心能夠從個
人在測驗上的得分,推論到其他相
等複本測驗上的得分。
複本測驗:內容、型式、題數、難
度、指導說明、時間限制與例題等
方面,類似或相等的兩份測驗。
複本測驗的實施方式
在同一個時間連續實施
間隔一段時間實施
估計信度的方法-內部一致性方法
折半方法
庫李方法
評分者方法
折半方法
估計折半信度的首要問題:如何將測驗
分成相等的兩半?
分成兩半的方法:
依照隨機方法將題目分為兩半;
依照奇數題和偶數題分為兩半。
後一種方法簡便易行,較為普遍。
斯布公式
(Spearman-Brown Formula)
r xx =
nr
1+(n-1)r
(公式六)
rxx :估計的信度
r :原測驗的信度
n :測驗加長或減短的倍數
斯布公式(續)
因為兩半測驗的相關,只是以測驗題數的一
半為估計全測驗的信度,測驗長度要加倍,
公式六中的n就成為2,故可以改寫為
r xx =
2r hh
1+ r hh
(公式七)
rxx :全測驗的信度
rhh :兩半測驗的相關
折半法的計算過程
學
生 1
2
3
4
X
Y
X2 Y2 XY
甲 1
1
1
1
2
2
4
4
4
乙 1
0
1
1
2
1
4
1
2
丙 1
0
1
0
2
0
4
0
0
丁 0
0
1
0
1
0
1
0
0
戊 0
0
0
0
0
0
0
0
0
題目
Σx = 7
Σy = 3
Σx2 = 13
奇數題 偶數題
X = 1.4
Y = .60
Σy2 = 5
Sx = .80
Sy = .80
Σxy = 6
折半法的計算過程(續)
Σx = 7
Σy = 3
Σx2 = 13
r hh =
X = 1.4
Y = .60
Σy2 = 5
Sx = .80
Sy = .80
Σxy = 6
NΣxy-ΣxΣy
√[NΣx2 - (Σx)2] [NΣy2 -(Σy)2]
5 (6) - (7) (3)
=
√[5 (13) - (7)2] [5 (5) -(3)2]
r xx = 2 (.56)
1 + .56
= .72
= .56
盧隆的折半信度
r xx = 1 -
2
Sd
2
Sx
(公式八)
rxx :測驗的信度
2
Sd :兩半測驗分數之差的變異量
2
Sx :測驗總分的變異量
福氏折半信度的計算方法
學 題目 總分 奇數題 偶數題 兩半分數的差
生123 4 x
(1+3) (2+4)
D
甲111 1 4
2
2
0
乙101 1 3
2
1
1
丙101 0 2
2
0
2
丁001 0 1
1
0
1
戊000 0 0
0
0
0
平均數
2.00
1.4
.60
.80
標準差
1.414
.80
.80
.75
福氏折半信度的計算方法
平均數
標準差
總分 奇數題 偶數題 兩半分數的差
2.00
1.4
.60
.80
1.414
.80
.80
.75
r xx = 2 (1 -
2
So
2
+Se
2
Sx
2
r xx
)
2
= 2 (1 - (.80) + (.80) ) = .72
2
(1.414)
2
2
Sd
(.75)
= 1-
= 1-
2 = .72
2
Sx
(1.414)
庫李方法
主要是依據受試者對所有題目的反應,
分析題目間的一致性,以確定測驗中的
題目是否測量相同的性質。
影響題目間的一致性的兩種誤差:
內容取樣(content sampling)
取樣內容的異質性(heterogeneity)
內容同質性:測驗中的所有題目均測量
同樣的特質。
內容異質性:測驗中的題目所測量的特
質超過兩種以上。
庫李方法公式
r KR20
n
Σpq
=
(1- 2 )
n-1
Sx
公式九
rKR20 :測驗的信度
n
:測驗的題數
p
:答對某一題的人數比率
q
:答錯某一題的人數比率(q=1-p)
Σpq:全部題目答對與答錯的百分比的總乘績
2
Sx :測驗總分的變異量
庫李方法的計算方法
學生
甲
乙
丙
丁
戊
p
q
pq
1
1
1
1
0
0
.60
.40
.24
題目
2
3
1
1
0
1
0
1
0
1
0
0
.20 .80
.80 .20
.16 .16
4
1
1
0
0
0
.40
.60
.24
總分
X
4
3
2
1
0
X = 2.00
Sx = 1.414
庫李方法的計算方法(續)
1
p
q
pq
r KR20
.60
.40
.24
題目
2
3
4
總分
X
.20 .80 .40
X = 2.00
.80 .20 .60
S = 1.414
.16 .16 .24
n
Σpq
=
(1-
)
n-1
S2x
.80
4
= 4-1(1-
2 ) = .80
1.414
庫李方法對測驗題目基本假定
題目的記分屬於非對即錯
題目沒有明顯的受到速度的影響
題目是同質性的
Cronbach的α係數
測驗的記分是屬於多重記分的方式。
如態度量表中,答「非常同意」5分,
「同意」4分, 「無意見」3分, 「不
同意」2分, 「非常不同意」1分。
此種記分方式的測驗必須採用克朗巴
賀(Cronbach)的α係數。
公式十
α=
n
(1-
n-1
2
ΣSi
2 )
Sx
α :估計的信度
n :題數
2
Si : 每一題目的分數變異量
2
Sx : 測驗總分的變異量
α係數的計算過程
學生
題目
總分
1
2
3
4
X
甲
3
4
3
4
14
乙
4
5
4
5
18
丙
1
2
1
1
5
丁
5
5
5
4
19
戊
3
4
4
5
16
平均數(X) 3.2
4
3.4 3.8 X = 14.40
標準差(Si) 1.33 1.10 1.36 1.47 Sx = 5.00
α係數的計算過程
題目
總分
1
2
3
4
X
平均數(X) 3.2
4
3.4 3.8 X = 14.40
標準差(Si) 1.33 1.10 1.36 1.47 Si = 5.00
2
ΣSi =
(1.33)2 + (1.10)2 + (1.36)2 + (1.47)2 = 6.99
2
n
ΣSi
6.99
4
α=
(1-
)=
(1-
)
= .96
2
n-1
2
4-1
Sx
5
評分者方法
評分者信度(scorer reliability):採用
不同評分者評閱測驗卷,而估計評分的
一致性。
評分會受評分者主觀判斷的影響,而導
致評分的誤差的測驗,須考慮其評分者
信度。
評分者信度的計算過程
學生 甲評分員 乙評分員 評定等第之差 D
2
甲
乙
丙
丁
戊
4
4
0
1
2
-1
3
3
0
5
5
0
2
1
+1
2
6ΣD
6 (2)
ρ=1=
1
=
.90
2
2
N (N – 1)
5 (5 – 1)
0
1
0
0
1
信度類型與測量誤差
(測驗情境的影響)
重測信度
誤差來源:時間取樣
解答的主要問題:
相關內容樣本所得分數受到不同
測驗的影響如何?
在不同測量的時間所得分數的穩
定性如何?
信度類型與測量誤差
(測驗情境的影響)
複本信度
誤差來源:
 時間取樣
 內容取樣
解答的主要問題:
 不管使用的複本測驗或實施的情境怎樣,
測驗的一致性如何?
 在不同測量的時間所得分數的穩定性如何?
信度類型與測量誤差
(不同內容取樣的影響)
複本信度(同時實施)
折半信度
庫李信度
庫李信度21號公式
α 係數霍意特信度
複本信度(同時實施)
誤差來源:內容取樣
解答問題:
測驗分數在相同情境下,是否受不同
內容取樣的影響?
兩份仔細配合的複本測驗是否相等、
平行或可交互使用?
折半信度
誤差來源:內容取樣
解答問題:
測驗分數在相同情境下,是否受不同
內容取樣的影響?
複本形式的信度係數為多少?
庫李信度
誤差來源:
內容取樣
內容異質
解答問題:
測驗分數在相同情境下,是否受不同
內容取樣的影響?
測驗的同質性如何?
每一個題目的反應一致性如何?
庫李信度21號公式
誤差來源:
內容取樣
內容異質
解答問題:
測驗分數在相同情境下,是否受不同
內容取樣的影響?
α 係數霍意特信度
誤差來源:
內容取樣
內容異質
解答問題:
測驗分數在相同情境下,是否受不同
內容取樣的影響?
解答「不同評分者的影響」
的信度類型
評分者信度
誤差來源:評分者的誤差
解答問題:
 如果使用不同的評分者,分數差異
的程度如何?
 測驗的客觀程度如何?
 不同評分者所得的結構是否可替換?
測驗缺乏信度的原因
有缺點的題目
太難的題目
太容易的題目
太少的題目數
不類似的題目
應答者的特徵
工具施測時有瑕疵
計分過程有缺點
有缺點的題目
模稜兩可
受試者在上頭所做的反應,很難說具有
可信性
題目有瑕疵
太難的題目
受試者可能猜測作答。
太容易的題目
無從了解受試者真正了解的是什麼,問
了等於沒問。
太少的題目數
測量工具的題目愈少,造成機遇機會的
可能性愈大,就愈可能沒有信度。
不類似的題目
全部題目測量相同特徵:信度較高
所有題目用以測量不同特徵:信度降低
例:
英語測驗:25題
 拼音、改錯、拼字、翻譯、閱讀測
驗:各5題 => 測量五種不同能力
應答者的特徵
若受試者處於正常狀態,填答測驗,其
信度高於受試者臨時事故而造成不同反
應的結果。
工具施測時有瑕疵
場所太熱,易使受試者分心,主試者施
測時對不同班級採不同態度
所得結果不可信賴
比較的價值相對減低
計分過程有缺點
把正確答案評為不對
計分有偏差
參、影響信度的因素
測驗的長度
團體的變異量
測驗的難度
測驗的客觀性
信度的估計法
測驗的長度
r xx =
nr
1+(n-1)r
3 (.70)
= .88
=
1+(3-1)(.70)
將測驗題目減少一半,
r xx
1/ (.70)
= 12
1+( /2 -1)(.70)
= .54
測驗愈長,內容愈具代表性,分數受到猜測
因素的影響也愈小,但是不呈比例成長。
團體的變異量
(variability of the group)
在其他條件相等情形下,團體的變異量愈
大,信度愈高。
在團體的異質性改變時,測量誤差的變異
2
量(Se)將會維持不變,但是,實得分數
2
的變異量(Sx)卻因團體的異質性而增加。
如果,(Se2)維持不變,而(Sx2)增加,測
驗的信度(rxx)將會提高。
r xx = 1 -
2
Se
2
Sx
測驗的難度
分數變異程度小的測驗,其所估計的信
度將比變異程度大的測驗為低。
如果測驗的題目太難,難到幾乎大家都
不會,其分數的變異程度就愈小,也就
是分數的分布範圍愈小,其信度反而較
低。
如果測驗的題目容易到幾乎大家都答對
每一個題目,分數的變異程度也很小,
所得信度同樣很低。
試題難度與信度的關係
平均數 =
範圍 =
信度 =
容易測驗
困難測驗
理想測驗
100
100
100
75
75
75
50
50
50
25
25
25
0
0
0
88
25
.50
13
25
.50
50
90
.90
測驗的客觀性
如果測驗的題目屬於客觀型的試題,如
是非、選擇或配合題,則其評分客觀,
不會受到評分者主觀判斷的影響。
因此,測驗的信度高。
如果測驗的題目屬於論文式的試題,或
使用各種觀察方法測量的,則測量結果
會受到評分者的影響,不但不同的評分
員會有很大的差異,即使同一評分員在
不同時間的評分,也會有很大的差距。
信度估計方法與信度大小的關係
重測方法:中等到高的信度
複本方法(同時實施):中等到高的信度
複本方法(間隔時間實施):最低的信度
內部一致性方法
折半方法:最高的信度
庫李方法:比折半方法低的信度
增加測驗信度的方法
採用正確的、不含糊的題目
把實施程序標準化
把計分程序標準化
避免應答者處於不正常的情況下測試
務使測驗足夠容納好的題目
測驗上的每個題目確能測量相同的結果
編製具有適當難度的題目
肆、信度的解釋與應用
理想的信度係數
測量標準誤
測量標準誤的意義
測量標準誤的應用
理想的信度係數
兩個團體的平均數是否有顯著的差異,
信度達到.60-.70就夠了。
若是比較個人分數與他人的差異,信度
至少要達到.85。
用來做個人決定(individual decision)
的測驗,其所需的信度係數比用來做團
體決定(group decision)的測驗要高一
些。
各項測驗所需的信度係數
性向測驗
穩定係數
性向測驗的結果主要是用來做長期的
預測。
成就測驗
等值係數(複本信度)
內部一致性係數
各項測驗所需的信度係數
人格測驗:興趣測驗
穩定係數
預測長期的工作滿意情形
人格測驗:暫時的人格特質
內部一致性係數
不需很高的穩定係數
理想的信度係數
標準化測驗的信度高於自編測驗。
標準化的成就測驗:.90或以上
智力測驗:.90或以上
人格測驗和興趣量表:.70和.80左右
測量標準誤
信度係數較適合於比較不同測驗的信度。
測量標準誤則較適合於解釋個人的分數。
測量標準誤的意義
所得分數的平均數稱為個人的真實分數
(true score)。
某生100次的智商和其真實分數間會有
一個差,這些測量誤差分配的標準差:
測量標準誤。
SEmeas. = Sx √
1 - rxx
公式十八
SEmeas. :測量標準誤
Sx
:測驗的標準差
rxx
:測驗的信度係數
測量標準誤的應用
解釋個人測驗分數的意義
兩個測驗分數的比較
解釋個人測驗分數的意義
因為沒有一個測驗有完全的信度,所以,
在解釋個人測驗分數時,應考慮其測量
誤差的大小,避免使用得分的數值代表
個人的確切能力或特質。
應用測量誤差解釋個人的測驗分數,旨
在推測其真實分數的可信範圍
(confidence interval)。
SEmeas= 15√
1 - .96 = 15 (.20) = 3
例子
性向測驗的得分:110分
標準差:3
68.29% => 110 + 1 x 3
95.44% => 110 + 2 x 3
95.00% => 110 + 1.96 x 3
兩個測驗分數的比較
SEmeas.x = S √
1 - rxx
SEmeas.y = S √
1 - ryy
So,
SEdiff. = S√2 – rxx – ryy
公式二十
S :相同尺度量表分數的標準差
rxx:x測驗的信度指數
ryy:y測驗的信度指數
兩個測驗分數的比較(續)
假定性向測驗的分數:
M = 50,S = 10的T分數表示
語文推理測驗的信度:.85
數字性向測驗的信度:.90
某生在性向測驗上的得分:
語文推理得分:54
數字性向得分:62
=>分數相差8分,是否足以確認該生的數
學性向優於語文性向?
兩個測驗分數的比較(續)
根據公式二十
SEdiff. = S√2 – rxx – ryy
= 10√
2 - .85 - .90 = 10 √
.25 = 10 (.50) = 5
如果以95%的信賴水準(即.05顯著水準)
推測,兩個測驗須達10分或以上(1.96 x 5
= 9.8)始能視為真正有差別。
若將信賴水準提高至99%,則須達13分
(2.58 x 5 = 13)或以上方可視為有差異。