Ch2測驗的信度(9701)(1037 KB )

Transcript Ch2測驗的信度(9701)(1037 KB )

測驗的信度
教育測驗與評量
胡悅倫教授
壹、信度的意義和原理
信度的意義
信度的原理
真實分數與測量誤差
真實分數與信度
信度的意義
從測量的一致性來看，信度就是指相同
的個人在不同的時間，以相同的測驗測
量，或以副本測驗（相同的試題）測量，
或在不同的情境下測量，所得結果的一
致性（consistency）。
信度的原理-真實分數與測量誤差
實得分數是由兩部份組成：
X=T+E
X：實得分數
T：真實分數
(沒有受到測量誤差影響的部分)
E：誤差分數
複本測驗實得分數誤差分數
1
60
0
2
62
+2
3
4
5
6
7
8
9
10
58
56
63
62
60
61
59
59
600
-2
-4
+3
+2
0
+1
-1
-1
0
某
實
生
得
在
分
十
600
X=
數
個
10
與
= 60
複
(真實分數) 誤
本
40
差
S =
測
10
分
驗
= 4
數
(誤差變異量)
的
2
e
測量誤差
可分為：
非系統誤差（unsystematic error）
系統誤差（systematic error）
非系統誤差
導致非系統誤差的因素：
受試者的身心狀況，如動機、注意與
情緒
測驗情境
測驗試題，如取樣、難度、計分、數
量等
這些因素是在隨機，沒有規則和不可預
測的方式下，隨著情境不同而影響測驗
分數的。
系統誤差
在一個固定、一致的方式下高估或低估
分數。
在不同情境中，它對一位受試者的影響
是一樣的。
對所有受試者在相同的情境中的影響，
也是一樣的。
又稱為常誤（constant error）或偏誤
（biased）。
信度的原理-真實分數與信度
2
2
2
Sx = St + Se
2
Sx
2
Sx
2
Sx
2
Sx
=
2
St
2
Sx
+
（公式一）
2
Se
2
Sx
（公式二）
實得分數的總變異量
真實分數與信度（續）
r xx =
2
St
2
Sx
r xx =
2
Sx
2
Sx
（公式三）
-
2
Se
2
Sx
（公式四）
r xx = 1 -
2
Se
2
Sx
（公式五）
貳、信度的類型
估計信度的方法
重測方法
複本方法
內部一致性方法
評分者方法
信度類型與測量誤差
估計信度的方法-重測方法
估計測驗分數是否穩定最直接的方法。
重複測量相同的一群受試者兩次。
或稱再測信度（test-retest reliability
coefficient）。
此係數可以表明測驗結果經過一段時間
後的穩定性。
導致變異誤差的原因
測驗不穩定：兩次測驗分數的相關不高
或很低。
導致這種變異的誤差，主要是：
受試者本身情況的改變，如生氣、疲
勞、情緒緊張、焦慮、動機等；
測驗情境的變化，如天氣、吵雜、燈
光等。
重測信度愈高，分數受到這兩個因素的
影響就愈小。
間隔時間的長短
再測信度的高低和兩次間隔時間的長短
有密切的關係。
間隔時間愈長，信度愈低。
間隔時間愈短，信度愈高。
適當的間隔時間是一週或兩週。
不過並沒有單一標準：
年齡愈小的受試者，間隔時間較短。
再測信度的缺點
容易受到練習與記憶的影響
測驗題目的性質因重測而改變，尤
以推理與思考的題目為然。
兩次測驗時難以有相同的測驗情境。
估計信度的方法-複本方法
測驗應該被視為從試題的母群體
（population or universe）所抽出的
樣本，因此，每一個測驗都可以有
許多複本測驗（alternate-forms
test）。
例如:一本國語詞典，可抽出20個字
而編成相當多的字彙測驗。
複本信度
（alternate-forms reliability ）
採用複本方法所估計的信度。
旨在確定我們有多少信心能夠從個
人在測驗上的得分，推論到其他相
等複本測驗上的得分。
複本測驗：內容、型式、題數、難
度、指導說明、時間限制與例題等
方面，類似或相等的兩份測驗。
複本測驗的實施方式
在同一個時間連續實施
間隔一段時間實施
估計信度的方法-內部一致性方法
折半方法
庫李方法
評分者方法
折半方法
估計折半信度的首要問題：如何將測驗
分成相等的兩半？
分成兩半的方法：
依照隨機方法將題目分為兩半；
依照奇數題和偶數題分為兩半。
後一種方法簡便易行，較為普遍。
斯布公式
（Spearman-Brown Formula）
r xx =
nr
1+(n-1)r
（公式六）
rxx ：估計的信度
r ：原測驗的信度
n ：測驗加長或減短的倍數
斯布公式（續）
因為兩半測驗的相關，只是以測驗題數的一
半為估計全測驗的信度，測驗長度要加倍，
公式六中的n就成為2，故可以改寫為
r xx =
2r hh
1+ r hh
（公式七）
rxx ：全測驗的信度
rhh ：兩半測驗的相關
折半法的計算過程
學
生 1
2
3
4
X
Y
X2 Y2 XY
甲 1
1
1
1
2
2
4
4
4
乙 1
0
1
1
2
1
4
1
2
丙 1
0
1
0
2
0
4
0
0
丁 0
0
1
0
1
0
1
0
0
戊 0
0
0
0
0
0
0
0
0
題目
Σx = 7
Σy = 3
Σx2 = 13
奇數題偶數題
X = 1.4
Y = .60
Σy2 = 5
Sx = .80
Sy = .80
Σxy = 6
折半法的計算過程（續）
Σx = 7
Σy = 3
Σx2 = 13
r hh =
X = 1.4
Y = .60
Σy2 = 5
Sx = .80
Sy = .80
Σxy = 6
NΣxy－ΣxΣy
√[NΣx2 － (Σx)2] [NΣy2 －(Σy)2]
5 (6) － (7) (3)
=
√[5 (13) － (7)2] [5 (5) －(3)2]
r xx = 2 (.56)
1 + .56
= .72
= .56
盧隆的折半信度
r xx = 1 －
2
Sd
2
Sx
（公式八）
rxx ：測驗的信度
2
Sd ：兩半測驗分數之差的變異量
2
Sx ：測驗總分的變異量
福氏折半信度的計算方法
學題目總分奇數題偶數題兩半分數的差
生123 4 x
(1+3) (2+4)
D
甲111 1 4
2
2
0
乙101 1 3
2
1
1
丙101 0 2
2
0
2
丁001 0 1
1
0
1
戊000 0 0
0
0
0
平均數
2.00
1.4
.60
.80
標準差
1.414
.80
.80
.75
福氏折半信度的計算方法
平均數
標準差
總分奇數題偶數題兩半分數的差
2.00
1.4
.60
.80
1.414
.80
.80
.75
r xx = 2 (1 －
2
So
2
+Se
2
Sx
2
r xx
)
2
= 2 (1 － (.80) + (.80) ) = .72
2
(1.414)
2
2
Sd
(.75)
= 1－
= 1－
2 = .72
2
Sx
(1.414)
庫李方法
主要是依據受試者對所有題目的反應，
分析題目間的一致性，以確定測驗中的
題目是否測量相同的性質。
影響題目間的一致性的兩種誤差：
內容取樣（content sampling）
取樣內容的異質性（heterogeneity）
內容同質性：測驗中的所有題目均測量
同樣的特質。
內容異質性：測驗中的題目所測量的特
質超過兩種以上。
庫李方法公式
r KR20
n
Σpq
=
(1－ 2 )
n－1
Sx
公式九
rKR20 ：測驗的信度
n
：測驗的題數
p
：答對某一題的人數比率
q
：答錯某一題的人數比率(q=1-p)
Σpq：全部題目答對與答錯的百分比的總乘績
2
Sx ：測驗總分的變異量
庫李方法的計算方法
學生
甲
乙
丙
丁
戊
p
q
pq
1
1
1
1
0
0
.60
.40
.24
題目
2
3
1
1
0
1
0
1
0
1
0
0
.20 .80
.80 .20
.16 .16
4
1
1
0
0
0
.40
.60
.24
總分
X
4
3
2
1
0
X = 2.00
Sx = 1.414
庫李方法的計算方法（續）
1
p
q
pq
r KR20
.60
.40
.24
題目
2
3
4
總分
X
.20 .80 .40
X = 2.00
.80 .20 .60
S = 1.414
.16 .16 .24
n
Σpq
=
(1－
)
n－1
S2x
.80
4
= 4－1(1－
2 ) = .80
1.414
庫李方法對測驗題目基本假定
題目的記分屬於非對即錯
題目沒有明顯的受到速度的影響
題目是同質性的
Cronbach的α係數
測驗的記分是屬於多重記分的方式。
如態度量表中，答「非常同意」5分，
「同意」4分，「無意見」3分，「不
同意」2分，「非常不同意」1分。
此種記分方式的測驗必須採用克朗巴
賀（Cronbach）的α係數。
公式十
α=
n
(1－
n－1
2
ΣSi
2 )
Sx
α ：估計的信度
n ：題數
2
Si : 每一題目的分數變異量
2
Sx : 測驗總分的變異量
α係數的計算過程
學生
題目
總分
1
2
3
4
X
甲
3
4
3
4
14
乙
4
5
4
5
18
丙
1
2
1
1
5
丁
5
5
5
4
19
戊
3
4
4
5
16
平均數（X） 3.2
4
3.4 3.8 X = 14.40
標準差（Si） 1.33 1.10 1.36 1.47 Sx = 5.00
α係數的計算過程
題目
總分
1
2
3
4
X
平均數（X） 3.2
4
3.4 3.8 X = 14.40
標準差（Si） 1.33 1.10 1.36 1.47 Si = 5.00
2
ΣSi =
(1.33)2 + (1.10)2 + (1.36)2 + (1.47)2 = 6.99
2
n
ΣSi
6.99
4
α=
(1－
)=
(1－
)
= .96
2
n－1
2
4－1
Sx
5
評分者方法
評分者信度（scorer reliability）：採用
不同評分者評閱測驗卷，而估計評分的
一致性。
評分會受評分者主觀判斷的影響，而導
致評分的誤差的測驗，須考慮其評分者
信度。
評分者信度的計算過程
學生甲評分員乙評分員評定等第之差Ｄ
2
甲
乙
丙
丁
戊
4
4
0
1
2
-1
3
3
0
5
5
0
2
1
+1
2
6ΣD
6 (2)
ρ=1=
1
=
.90
2
2
N (N – 1)
5 (5 – 1)
0
1
0
0
1
信度類型與測量誤差
(測驗情境的影響)
重測信度
誤差來源：時間取樣
解答的主要問題：
相關內容樣本所得分數受到不同
測驗的影響如何？
在不同測量的時間所得分數的穩
定性如何？
信度類型與測量誤差
(測驗情境的影響)
複本信度
誤差來源：
 時間取樣
 內容取樣
解答的主要問題：
 不管使用的複本測驗或實施的情境怎樣，
測驗的一致性如何？
 在不同測量的時間所得分數的穩定性如何？
信度類型與測量誤差
(不同內容取樣的影響)
複本信度（同時實施）
折半信度
庫李信度
庫李信度21號公式
α 係數霍意特信度
複本信度（同時實施）
誤差來源：內容取樣
解答問題：
測驗分數在相同情境下，是否受不同
內容取樣的影響？
兩份仔細配合的複本測驗是否相等、
平行或可交互使用？
折半信度
誤差來源：內容取樣
解答問題：
測驗分數在相同情境下，是否受不同
內容取樣的影響？
複本形式的信度係數為多少？
庫李信度
誤差來源：
內容取樣
內容異質
解答問題：
測驗分數在相同情境下，是否受不同
內容取樣的影響？
測驗的同質性如何？
每一個題目的反應一致性如何？
庫李信度21號公式
誤差來源：
內容取樣
內容異質
解答問題：
測驗分數在相同情境下，是否受不同
內容取樣的影響？
α 係數霍意特信度
誤差來源：
內容取樣
內容異質
解答問題：
測驗分數在相同情境下，是否受不同
內容取樣的影響？
解答「不同評分者的影響」
的信度類型
評分者信度
誤差來源：評分者的誤差
解答問題：
 如果使用不同的評分者，分數差異
的程度如何？
 測驗的客觀程度如何？
 不同評分者所得的結構是否可替換？
測驗缺乏信度的原因
有缺點的題目
太難的題目
太容易的題目
太少的題目數
不類似的題目
應答者的特徵
工具施測時有瑕疵
計分過程有缺點
有缺點的題目
模稜兩可
受試者在上頭所做的反應，很難說具有
可信性
題目有瑕疵
太難的題目
受試者可能猜測作答。
太容易的題目
無從了解受試者真正了解的是什麼，問
了等於沒問。
太少的題目數
測量工具的題目愈少，造成機遇機會的
可能性愈大，就愈可能沒有信度。
不類似的題目
全部題目測量相同特徵：信度較高
所有題目用以測量不同特徵：信度降低
例：
英語測驗：25題
 拼音、改錯、拼字、翻譯、閱讀測
驗：各5題 => 測量五種不同能力
應答者的特徵
若受試者處於正常狀態，填答測驗，其
信度高於受試者臨時事故而造成不同反
應的結果。
工具施測時有瑕疵
場所太熱，易使受試者分心，主試者施
測時對不同班級採不同態度
所得結果不可信賴
比較的價值相對減低
計分過程有缺點
把正確答案評為不對
計分有偏差
參、影響信度的因素
測驗的長度
團體的變異量
測驗的難度
測驗的客觀性
信度的估計法
測驗的長度
r xx =
nr
1+(n-1)r
3 (.70)
= .88
=
1+(3-1)(.70)
將測驗題目減少一半，
r xx
1/ (.70)
= 12
1+( /2 -1)(.70)
= .54
測驗愈長，內容愈具代表性，分數受到猜測
因素的影響也愈小，但是不呈比例成長。
團體的變異量
（variability of the group）
在其他條件相等情形下，團體的變異量愈
大，信度愈高。
在團體的異質性改變時，測量誤差的變異
2
量（Se）將會維持不變，但是，實得分數
2
的變異量（Sx）卻因團體的異質性而增加。
如果，（Se2）維持不變，而（Sx2）增加，測
驗的信度（rxx）將會提高。
r xx = 1 －
2
Se
2
Sx
測驗的難度
分數變異程度小的測驗，其所估計的信
度將比變異程度大的測驗為低。
如果測驗的題目太難，難到幾乎大家都
不會，其分數的變異程度就愈小，也就
是分數的分布範圍愈小，其信度反而較
低。
如果測驗的題目容易到幾乎大家都答對
每一個題目，分數的變異程度也很小，
所得信度同樣很低。
試題難度與信度的關係
平均數 =
範圍 =
信度 =
容易測驗
困難測驗
理想測驗
100
100
100
75
75
75
50
50
50
25
25
25
0
0
0
88
25
.50
13
25
.50
50
90
.90
測驗的客觀性
如果測驗的題目屬於客觀型的試題，如
是非、選擇或配合題，則其評分客觀，
不會受到評分者主觀判斷的影響。
因此，測驗的信度高。
如果測驗的題目屬於論文式的試題，或
使用各種觀察方法測量的，則測量結果
會受到評分者的影響，不但不同的評分
員會有很大的差異，即使同一評分員在
不同時間的評分，也會有很大的差距。
信度估計方法與信度大小的關係
重測方法：中等到高的信度
複本方法（同時實施）：中等到高的信度
複本方法（間隔時間實施）：最低的信度
內部一致性方法
折半方法：最高的信度
庫李方法：比折半方法低的信度
增加測驗信度的方法
採用正確的、不含糊的題目
把實施程序標準化
把計分程序標準化
避免應答者處於不正常的情況下測試
務使測驗足夠容納好的題目
測驗上的每個題目確能測量相同的結果
編製具有適當難度的題目
肆、信度的解釋與應用
理想的信度係數
測量標準誤
測量標準誤的意義
測量標準誤的應用
理想的信度係數
兩個團體的平均數是否有顯著的差異，
信度達到.60-.70就夠了。
若是比較個人分數與他人的差異，信度
至少要達到.85。
用來做個人決定（individual decision）
的測驗，其所需的信度係數比用來做團
體決定（group decision）的測驗要高一
些。
各項測驗所需的信度係數
性向測驗
穩定係數
性向測驗的結果主要是用來做長期的
預測。
成就測驗
等值係數（複本信度）
內部一致性係數
各項測驗所需的信度係數
人格測驗：興趣測驗
穩定係數
預測長期的工作滿意情形
人格測驗：暫時的人格特質
內部一致性係數
不需很高的穩定係數
理想的信度係數
標準化測驗的信度高於自編測驗。
標準化的成就測驗：.90或以上
智力測驗：.90或以上
人格測驗和興趣量表：.70和.80左右
測量標準誤
信度係數較適合於比較不同測驗的信度。
測量標準誤則較適合於解釋個人的分數。
測量標準誤的意義
所得分數的平均數稱為個人的真實分數
（true score）。
某生100次的智商和其真實分數間會有
一個差，這些測量誤差分配的標準差：
測量標準誤。
SEmeas. = Sx √
1 - rxx
公式十八
SEmeas. ：測量標準誤
Sx
：測驗的標準差
rxx
：測驗的信度係數
測量標準誤的應用
解釋個人測驗分數的意義
兩個測驗分數的比較
解釋個人測驗分數的意義
因為沒有一個測驗有完全的信度，所以，
在解釋個人測驗分數時，應考慮其測量
誤差的大小，避免使用得分的數值代表
個人的確切能力或特質。
應用測量誤差解釋個人的測驗分數，旨
在推測其真實分數的可信範圍
（confidence interval）。
SEmeas= 15√
1 - .96 = 15 (.20) = 3
例子
性向測驗的得分：110分
標準差：3
68.29% => 110 + 1 x 3
95.44% => 110 + 2 x 3
95.00% => 110 + 1.96 x 3
兩個測驗分數的比較
SEmeas.x = S √
1 - rxx
SEmeas.y = S √
1 - ryy
So,
SEdiff. = S√2 – rxx – ryy
公式二十
S ：相同尺度量表分數的標準差
rxx：x測驗的信度指數
ryy：y測驗的信度指數
兩個測驗分數的比較（續）
假定性向測驗的分數：
M = 50，S = 10的T分數表示
語文推理測驗的信度：.85
數字性向測驗的信度：.90
某生在性向測驗上的得分：
語文推理得分：54
數字性向得分：62
=>分數相差8分，是否足以確認該生的數
學性向優於語文性向？
兩個測驗分數的比較（續）
根據公式二十
SEdiff. = S√2 – rxx – ryy
= 10√
2 - .85 - .90 = 10 √
.25 = 10 (.50) = 5
如果以95%的信賴水準（即.05顯著水準）
推測，兩個測驗須達10分或以上（1.96 x 5
= 9.8）始能視為真正有差別。
若將信賴水準提高至99%，則須達13分
（2.58 x 5 = 13）或以上方可視為有差異。

Ch2測驗的信度(9701)(1037 KB )

Transcript Ch2測驗的信度(9701)(1037 KB )

Directory