1. 고전검사이론

Download Report

Transcript 1. 고전검사이론

과목명 : 교육평가
제 6 장 문항 분석
검사이론
 검사와 문항의 질을 분석하는 이론
고전검사이론
검사총점에 의하여 문항과 검사 분석,
피험자의 능력을 추정하는 검사이론
문항반응이론
문항 하나하나에 근거하여 문항과
피험자 특성을 분석하는 검사이론
2
1. 고전검사이론
가. 기본가정
① 관찰점수와 진점수와 오차점수로 이루어진다.
② 피험자의 진점수는 무수히 반복하여 측정된 점수의 평균값이다.
X
T
 E( X )
n
③ 진점수와 오차점수의 상관은 0이다.
PTe  0
④ 한 검사에서 얻은 오차점수와 다른 검사에서 얻은 오차점수와의 상관
이 0이다.
Pee  0
1. 고전검사이론
가. 기본가정
⑤ 한 검사에서 얻은 진점수와 다른 검사에서 얻은 오차점수의 상관은
0이다.
PTe  0
⑥ 오차점수의 평균은 0이다.
e
e
0
n
⑦ 관찰점수의 분산은 진점수 분산과 오차점수 분산으로 합성된다.
   
2
x
2
T
2
e
1. 고전검사이론
나. 문항반응분포
• 표집단 일단의 표적집단에서 응답자들의 검사문항의 각 답
지에 반응한 빈도
• 좋은 문항 답지: 정답지-상위집단의 응답자가 많은 반응
• 오답지 효과성 분석-선택형 문항에서 오답지가 정답처럼 보
여 정답을 모르는 응답자가 오답지를 정답으로 선택할 수
있는 정도(오답지 매력도)
• 개별문항과 검사를 검사 총점에 의해 분석
오답지의이론적빈도 
전체사례수- 정답지수
오답지수
1. 고전검사이론
나. 문항반응분포
1. 고전검사이론
나. 문항난이도(문항곤란도)
• 한 검사문항의 어려운 정도
• 문항에 오답을 한 학생 수의 전체 학생 수에 대한 비율
• 문항에 정답을 한 학생 수의 전체 학생 수에 대한 비율
• 결국, 한 문항의 쉬운 정도-지수가 높을수록 쉬운 쉬움
1) 총사례수에 의한 문항난이도 계산
R
P
N
1. 고전검사이론
나. 문항난이도(문항곤란도)
2) 미달항을 고려한 문항난이도 계산
R
P
N  NR
3) 미달항과 추측요인을 고려한 문항난이도 계산
W
R
k 1
p
N  NR
1. 고전검사이론
나. 문항난이도(문항곤란도)
4) 서답형 문항의 난이도 계산
R
P
NA
문항난이도
문항정답률(%)
언어적 평가
.80 이상
80 이상
매우 쉬운 문항
.60 이상 - .80 미만
60 이상 – 80 미만
쉬운 문항
.40 이상 - .60 미만
40 이상 – 60 미만
중간수준 난이도 문항
.20 이상 - .40 미만
20 이상 – 40 미만
어려운 문항
.20 미만
20 미만
매우 어려운 문항
1. 고전검사이론
다. 문항 변별도
• 각 검사문항이 그 검사의 총점이 낮은 집단과 높은 집단을
얼마나 잘 구별해 주는가를 나타내는 지수
1. 고전검사이론
다. 문항 변별도
• 각 검사문항이 그 검사의 총점이 낮은 집단과 높은 집단을
얼마나 잘 구별해 주는가를 나타내는 지수
문항점수(X)
문항
피험자
A
B
C
D
E
r
(1)
(2)
(3)
1
1
0
0
1
1
1
0
0
1
1
0
1
0
0
N  XY   X  Y
N  X 2  ( X ) 2 N  Y 2  ( Y ) 2
총점(Y)
3
2
1
0
2
N = 총 피험자의 수
X = 각 피험자의 문항점수
Y = 각 피험자의 총점
1. 고전검사이론
• 1번 문항의 문항변별도 추정
X
Y
XY
X2
Y2
A
B
C
D
E
1
1
0
0
1
3
2
1
0
2
3
2
0
0
2
1
1
0
0
1
9
4
1
0
4
∑
3
8
7
3
18
r
5(7)  (3)(8)
5(3)  32
11

 .88
2
6 26
5(18)  8
1. 고전검사이론
• Ebel의 문항변별도 평가 기준
문항변별도 지수
문항평가
.10 미만
.10 이상 ~ .20 미만
.20 이상 ~ .30 미만
.30 이상 ~ .40 미만
.40 이상
변별력이 없는 문항
변별력이 매우 낮은 문항
변별력이 낮은 문항
변별력이 있는 문항
변별력이 높은 문항
1. 고전검사이론
라. 문항 추측도
• 총 피험자 중 문항의 답을 알지 못하고 추측하여 문항의 답을 맞
힌 피험자수의 비율
1
GR  G 
Q
Q 1
GW  G 
Q
G : 추측한 피험자 수
Q : 답지 수
GR : 추측하여 문항의 답을 맞힌 피험자 수
GW : 추측하여 문항의 답을 맞히지 못한
피험자 수
Q 1
Gw  G 
W
Q
WQ
G
Q 1
W : 문항의 답을 맞히지 못한 피험자 수
Q : 답지 수
1. 고전검사이론
마. 오답지 매력도
• 각 오답지에 대한 응답비율에 의해 결정
– 응답비율이 높으면 매력적인 답지
– 응답비율 낮으면 매력적이지 않은 답지
1 P
PO 
Q 1
Po : 답지 선택 확률
P : 문항 난이도
Q : 답지
1. 고전검사이론
마. 오답지 매력도
내용
답지
응답자
응답비율
비고
ⓐ
ⓑ
ⓒ
ⓓ
100
400
300
200
.1
.4
.3
.2
매력적이지 않은 오답지
정답
매력적인 오답지
매력적인 오답지
1. 고전검사이론
바. 고전검사이론의 장단점
• 장점
– 검사 분석 용이
– 추정 방법과 계산이 용이
• 단점
– 문항의 고유한 특성이 피험자 집단의 특성에 의해 변화
– 피험자 능력이 검사도구의 특성에 따라 달리 추정
– 피험자들의 능력 비교 시 총점에 근거하므로 정확성 결여
2. 문항반응이론
 문항반응이론의 시작 : Binet와 Simom(1916)은 지능을 측정하기 위한
문항을 연령에 따라 문항을 정답한 피험자의 비율을 표시한 점들을
연결하는 곡선을 작성
 Richardson(1936)이 고전검사이론에 의한 문항특성 추정과 문항반응
이론에 의한 문항특성 추정의 관계를 처음으로 증명
 1980년대에 이르러 컴퓨터를 이용하여 어려운 수리적 계산이 가능
하면서 문항반응이론은 교육측정 분야에서 보편화되기 시작
2. 문항반응이론
 문항반응이론의 시작 : Binet와 Simom(1916)은 지능을 측정하기 위한
문항을 연령에 따라 문항을 정답한 피험자의 비율을 표시한 점들을
연결하는 곡선을 작성
2. 문항반응이론

Richardson(1936)이 고전검사이론에 의한 문항특성 추정과
문항반응이론에 의한 문항특성 추정의 관계를 처음으로 증명
 1980년대에 이르러 컴퓨터를 이용하여 어려운 수리적 계산
이 가능하면서 문항반응이론은 교육측정 분야에서 보편화되기
시작
2. 문항반응이론
가. 기본 가정
 일차원성(unidimentionality) 가정
하나의 검사도구는 인간이 지닌 하나의 특성을 측정해야 한다.
 지역독립성(local independence) 가정
어떤 능력을 가진 피험자의 하나의 문항에 대한 응답은 다른 문항
의 응답에 영향을 주지 않는다.
2. 문항반응이론
나. 문항특성곡선

피험자 능력과 문항의 답을 맞힐 확률과의 함수 관계

피험자 능력에 따라 문항의 답을 맞힐 확률 나타냄

관찰된 정답비율의 점들을 대표하는 곡선

일반적으로 S자 곡선 형태
2. 문항반응이론
나. 문항특성곡선
2. 문항반응이론
다. 문항모수치 추정
(1) 문항난이도 (위치지수)
문항의 어려운 정도를 나타내는 지수
문항의 답을 맞힐 확률이 .5에 해당하는 능력수준의 점
β 혹은 b로 표기
2. 문항반응이론
다. 문항모수치 추정
• 문항난이도가 다른 세 문항의 문항특성곡선
1
2
3
문항의 답을 맞힐 확률이 .5나 (1 + C)/2에
해당하는 능력수준의 점
2. 문항반응이론
다. 문항모수치 추정
(2) 문항변별도
문항이 피험자의 능력수준을 변별하는 정도
문항난이도를 나타내는 점에서의 문항특성곡선의 기울기
α 혹은 a로 표기
문항변별도 지수
언어적 표현
.00
.00 이상 ~ .35 미만
.35 이상 ~ .65 미만
.65 이상 ~ 1.35 미만
1.35 이상 ~ 1.70 미만
1.70 이상
+∞
없다
거의 없다
낮다
적절하다
높다
매우 높다
완벽하다
2. 문항반응이론
다. 문항모수치 추정
• 문항변별도가 다른 세 문항의 문항특성곡선
2. 문항반응이론
다. 문항모수치 추정
(3) 문항추측도
 능력이 전혀 없는데도 문항의 답을 맞힐 확률
 일반적으로 문항추측도의 범위는 0에서 1/(답지수) 사이며
사지 선다형 문항에서 일반적으로 문항추측도는 .2를 넘지 않는다.
2. 문항반응이론
라. 문항반응모형
문항특성곡선의 특성을 수리적으로 표시한 것
· 문항 모수 및 피험자의 능력을 추정함
· 문항반응 모형을 함수관계로 설명하기 위해 정규 오자이브 모형(normal
ogive model)과 로지스틱 모형(logistic model)을 사용할 수 있음
· 정규 모자이브 모형은 정규분포를, 로지스틱 모형은 로지스틱 함수 사용
2. 문항반응이론
마. 문항반응이론의 장점
• 문항특성의 불변성
– 피험자 집단의 특성과 상관없이 문항 난이도,
문항변별도, 문항추측도 일관성 있게 추정됨
• 피험자 능력의 불변성
– 검사난이도에 관계없이 일관성 있게 피험자 능
력 추정
• 어려운 문항의 답을 맞힌 피험자의 능력을
높게 추정
2. 문항반응이론
마. 문항반응이론의 장점
피험자 능력의 불변성
검사 1
검사 2
평균난이도=-1.0
평균난이도=2.0
피험자 A의 θ1
피험자 A의 θ2
Θ1 = Θ2
과목명 : 교육평가
제14장 검사점수의 동등화
1. 동등화의 개념
가. 동등화의 필요성
• 검사점수는 주요 의사 결정에 필요한 하나의 정보를 제공
• 난이도 조정
– 한해에 여러 번 실시되는 검사
– ACT, SAT, TOEFL, GRE, 운전면허시험, 기타 자격시
험등
– 매번 실시되는 검사에 동일한 문항 사용 불가
– 다른 시기 실시되는 난이도로 인해 이익/불이익 발생
1. 동등화의 개념
가. 동등화의 필요성
 난이도 조정이 없는 상황
- 한 학생이 두 번의 시험
(1) 두 검사날짜에 동일한 form이 사용됐을 때,
- 기억효과, 연습 등
(2) 두 검사 날짜에 다른 form이 사용됐을 때,
- 난이도 차이와 집단간 차이가 혼재
1. 동등화의 개념
나. 동등화의 목적
- 검사간 난이도를 통계적으로 조정함으로써 검사점수들이
호환(interchangeable) 될 수 있도록 하기 위함
-여기에서 test forms 이란 동일한 검사내용 및 통계적 특성
(content and statistical specification)하에 개발된 문항들의
셋
- 비록 검사내용 및 통계적 특성을 고려하여 검사를 가능한 유
사하게 개발한다고 하더라도 난이도가 정확하게 동일한
test forms을 개발하는 것이 불가능하기 때문에 검사동등화
가
필요한 이유이다.
1. 동등화의 개념
나. 동등화의 조건
 동일한 특성을 측정
 공정성
 모집단 불변성
 대칭의 조건
 4가지 조건을 만족시키기 어려움
1. 동등화의 개념
다. 검사동등화를 하지 않을 경우
 원점수 사용
- 쉬운 검사로 시험을 치른 수험생 유리
- 검사형이 여러 해에 걸쳐 시행되었고, 점수의 평균이 상
승했을 때, 평균차가 집단에 의한 것인지 난이도 때문인지
불투명하게 됨
 표준점수 사용(평균이 50점이 되도록 전환)
- 수험생 홍길동은 가을에 보는 수험생들의 평균점수가 일
반적으로 높다는 것을 알고, 봄에 시험을 봄
- 집단 평균의 추이 알 수 없음. 평균이 50으로 환산됨
2. 자료수집 설계
가. 무선집단
 무선할당 혹은 spiraling을 통해 무선동등집단 구성
 각 수험생은 오직 하나의 검사만 받게 됨
 여러 검사형을 한꺼번에 동등화
 보안상의 이슈가 있음
 일반적으로 많은 수험생 필요
2. 자료수집 설계
나. 평형된 무선집단 설계
 절반의 검사책자를 X와 Y순으로 나머지 절반은 Y와 X순으로
 실제 각 수험생이 두 개의 검사형을 받게 됨
 이것을 spiraling을 통해 할당
 무선집단에 비해 시간이 두 배
 무선집단보다 적은 표본수
2. 자료수집 설계
다 공통문항 비동등 집단 설계
 봄, 가을에 2번 있는 시험-시험을 보는 수험생들이 동등하다
고 가정하기 어려움
 검사 보안상, 같은 시험날에 한 개의 검사형만 실시해야 함
 old-new폼에 공통문항 존재
• 내적공통문항: 공통문항이 총점에 포함
• 외적공통문항: 공통문항이 총점에 포함안될 때
2. 자료수집 설계
라. 공통문항의 조건
 내용 및 통계적 특성이 전체문항의 내용 및 통계적 특성을 대
표해야 함( mini version)
 검사 두 형에서 문항 위치가 비슷해야 함
2. 자료수집 설계
라. 공통문항 비동등집단 설계의 장점
 오직 하나의 검사형만 필요
 외적공통문항일 때, operational item은 필요
 집단간 차이와 검사 차이로 분리하기 위해 강한 통계적 가정
 집단간 차이가 클수록 집단 차이와 검사 차이 분리 어려움