Form A 得点分布

Download Report

Transcript Form A 得点分布

項目反応理論によるテストの作成
東京工業大学 大学院社会理工学研究科
前川 眞一

複数のフォーム
複数のフォーム(版、問題冊子)

大規模試験 には複数のテストフォーム (form) が
存在する。

セキュリティのため。
 問題漏洩、緊急事態への対応


それぞれの form は異なる問題
で構成されている。
異なる form の得点は比較可能なのか?
アンケート調査と学力試験
項目 1 項目 2
…
…
個人の推定値
個人 1
個人 2
個人 3
:
:
項目の推定値
アンケート調査  各項目の特性
各項目を全員に受けさせることは不可  個人のサンプリング
学力試験
 各個人の特性
各個人に全項目を受けさせることは不可  項目のサンプリング
分野 1
項目 1 項目 2 項目 3
集計単位 1個人 1
個人 2
個人 3
集計単位 21個人 11
個人 12
個人 13
分野 2
項目 4 項目 5 項目 6
アンケート調査と学力試験

アンケート調査:人の母集団からのサンプリング

集計単位ごとに多数の個人を無作為抽出
 平均値、解答率等の比較

学力テスト:項目の母集団からのサンプリング

分野ごとに多数の項目を無作為抽出
 本当にこれが可能なのか?
分野 1
項目 1 項目 2 項目 3 項目 4 項目 5 項目 6
集計単位 1個人 1
個人 2
個人 3
は比較可能か?
は比較可能か?
異なるフォームの比較



一般的に、テストフォームに含まれる 問題が
異なる場合、テスト得点の比較は出来ない。
易しいテストの 50 点をとった人と、
難しいテストの 40 点をとった人は
どちらが良くできる人なのか?
テスト問題の難易度と、受験生の能力を分離し
て考える必要がある。
異なるフォームの比較

比較可能にするためには
フォーム間に共通な問題(項目)を入れる。
 統計的性質の分かっている問題を入れる。
 能力の等しいと考えられる集団に実施する。


大規模試験 ではフォームの間に共通の問題と
統計的性質の分かっている問題が入っている。
複数のフォーム

大規模試験 のフォームは、以下の2種類の問題か
ら構成されている。
統計的性質の分かっている問題
 新作問題


これらの項目に含まれる情報を利用して異なる
フォーム間の得点を比較可能に
なるようにしている。
日本の伝統的なテスト文化


年に一度、同一問題での試験の一斉実施
新作問題のみでの試験の実施
(プリテスト無し)





試験問題の公開
大問形式の利用 (小さな項目の寄せ集めではない)
問題作成とテスト編集の融合 (権威主義)
素点・配点の利用(0点と満点)
科挙の影響が大きい?
日本的テスト文化(理由)







年に一度、同一問題での試験の斉一実施
(同一問題でないと不公平)
新作問題のみでの試験の実施(プリテスト無し)
(たまたまプリテストを覚えていると得)
試験問題の公開
(情報公開?規制緩和?)
大問形式の利用
(多肢選択式で思考力を測る努力、細かいスペックの欠如?)
問題作成とテスト編集の融合
(権威主義、測定学への無関心)
素点・配点の利用(0点と満点)
(権威主義、測定学への無関心、尺度得点への不信感)
危機管理体制の不備
(資金的問題?)
世界標準?




独立項目 + 大問
比較可能な尺度得点を受験生へ
年に複数回、異なる問題での分散実施
コンピュータ化


何時でも何処でも
自由記述
テストの等化と尺度化



異なるテストフォームの得点を比較可能とする
作業を等化(equating)と呼ぶ。
テスト理論(test theory)と呼ばれる
統計的方法を用いる。
特に大規模試験 では、項目反応理論
(Item Response Theory, IRT)
と呼ばれるテスト理論が用いられている。
テスト理論


テスト理論は 20 世紀初頭から発達
古典的テスト理論(classical test theory)
X
=
T
+ E
観測される得点 = 真の得点 + 誤差
この部分だけほしい
項目反応理論(項目応答理論)
項目反応理論は 1950 年代から発達

テストを構成する項目の統計的性質に着目
主にアメリカ、オランダ、イスラエル

アジア諸国ではあまり利用されていない。

項目反応理論




項目の難易度と、受験生の能力の分離
全ての項目が共通にはかっている 1 次元の
能力値を θ で表す。
項目の特性を項目パラメタ a, b で表す。
能力値が θ の人が、項目パラメタ
を持つ項目 j に正答する確率を
と表し項目特性曲線と呼ぶ ICC or IRF。
Item Characteristic Curve, Item Response Function
原点と単位の不定性



θ の原点と単位は決まっていない。
どのように1次変換をしても良い。
ふつうは全受験生の θ の平均を 0、
標準偏差を 1 とする。
項目特性曲線 A
古典的統計量との関係
b vs p
a vs corr
Θ vs x
特性値θの推定
項目パラメタの推定
多値項目
テスト特性曲線
項目パラメタが分かっている項目でテストを作ると
何が出来るか。
能力値が θ の人が p 個の項目からなるテストで取れると
考えられる得点(期待値)をテスト特性曲線 TCC と呼ぶ。
項目特性曲線を足し合わせたもの。
3項目からなるテストのテスト特性曲線
テスト得点
3.0
2.5
3項目のテストの
2項目のテストの
まず2項目分の
3項目めの
TCCができた
ICCを足す
2.0
1.5
1.0
0.5
0.0
-3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 θ
プール問題の項目特性曲線(例)
テスト(フォーム)特性曲線(例)
各フォームに
含まれる
項目特性曲線
の和
フォーム間の比較(等化)
True Score
10
9
TCCA
TCCB
8
7
テスト A の 8 点は
テスト B の 5 点。
8 点でも 5 点でも
θ は 1.0 。
6
5
4
テスト A の 3 点は
テスト B の 2 点。
3 点でも 2 点でも
θ は -2.0 。
3
2
1
0
-4.0 -3.0 -2.0 -1.0
0.0
1.0
2.0
3.0
4.0
θ
得点分布の予測
得点分布の予測
θを与えたときのテスト得点の分布
(45)
テスト得点の周辺分布
(46)
困難度が中程度で識別力の低い10項目
a = .2
b = 0.0
得点
10
8
6
4
テスト特性曲線
2
-3
-2
-1
0
1
2
3
能力値θ
困難度が中程度で識別力の高い10項目
a = 2.0
b = 0.0
得点
10
8
6
4
テスト特性曲線
2
-3
-2
-1
0
1
2
3
能力値θ
困難度が高く識別力の低い10項目
a =0.2
b = 1.0
得点
10
8
6
4
テスト特性曲線
2
0-3
-2
-1
0
1
2
3
能力値θ
困難度が低く識別力の低い10項目
a =0.2
b = - 1.0
得点
10
8
6
4
テスト特性曲線
2
0-3
-2
-1
0
1
2
3
能力値θ
テストの精度
正答数得点による特性値の区間推定
テスト得点
50
上側確率 2.5% の曲線
45
40
35
30
25 2.5%
上側
20
平均値
15
10
5
0
-3.5 -3 下側
-2.52.5%
-2 -1.5 -1 -0.5 0
テスト特性曲線
下側確率 2.5% の曲線
0.5
1
1.5
2
2.5 3 3.5
能力値 θ
正答数得点による特性値の区間推定
テスト得点
50
上側確率 2.5% の曲線
45
40
35
30
25
20
15
10
5
0
-3.5 -3 -2.5 -2 -1.5 -1 -0.5 0
テスト特性曲線
下側確率 2.5% の曲線
0.5
1
1.5
2
2.5 3 3.5
能力値 θ
25点を取った人の能力値θの
95%信頼区間
テスト特性曲線の例
複数のテスト
難易度の異なる複数のテスト
原点と単位の不定性




θ の原点と単位は決まっていない。
どのように1次変換をしても良い。
ふつうは全受験生の θ の平均を 0、
標準偏差を 1 とする。
異なるフォームごとに項目パラメタを推定する
と比較が出来ない。
項目バンク(項目プール)



item bank, item pool
統計的性質の分かっている項目の集合
良い問題を作るのは非常にむつかしい。
したがって、それらは公開せずに
蓄積し、再利用すべき。
項目バンクの作成




一度に全ての項目を同じ受験生に受けさせるこ
とは困難。
共通項目を含む小テストを複数作り、
共通項目の情報を利用して各フォームを繋いで
いく。
しかし、先ほどの不定性の問題が残る。
適切なデザインが必要。
テストのデザイン
一次元性の確認
20.0
18.0
16.0
14.0
12.0
10.0
8.0
6.0
4.0
2.0
0.0
値1
値2
値1
値2
値3
値4
値5
20.0
18.0
16.0
14.0
12.0
10.0
8.0
6.0
4.0
2.0
0.0
値3
値4
値5
アンカー項目の線形性
3.0
y = 0.8453x - 0.3501
R2 = 0.8671
2.0
0.50
y = 0.9234x
0.50
y = 0.9234x
1.0
0.25
0.25
0.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
-1.0
-2.0
0.00
0.00
0.25
0.50
-3.0
0.00
0.00
0.25
0.50
テストのデザイン 1
テストのデザイン 2
テストのデザイン 3
項目バンクの作成
1
テストA
テストB
テストC
テストD
テストE
テストF
2
3
4
5
項目バンクの作成
項目バンクの作成
項目バンクの作成
項目バンクの作成
尺度化の手順


項目パラメタの推定と等化
共通項目を用いて全ての項目パラメタを
比較可能とすること。
尺度得点の算出
計算される個人の得点に意味を持たせること。
この尺度得点なら、規準集団でどのくらいの位
置か?
尺度化:得点の意味


基準集団内の位置(順位)に基づく方法
点数を見れば、その人が基準集団の中で
どの位置にいるかが分かる。
偏差値の考え方。
特定の問題セットの正答率に基づく方法
点数を見れば、その人が、ある問題セットで
何点を取れるかが分かる。
正規偏差値



基準集団においてθが正規分布するように変換する。
θz=t(θ)
これを線形に変換して平均と標準偏差を決める。
x = s θz+ m = u(θ)
この変換を常に施す。
偏差値
正規化変換の例
thetaZ_new
5
4
3
2
1
0
-5
-4
-3
-2
-1
thetaZ_new
0
-1
-2
-3
-4
-5
1
2
3
4
特定問題セットでの正答率




項目反応理論によれば、個人のθが分かれば
その人がある問題に正答する確率がわかる。
したがって、実際に受験してない項目でも
その項目パラメタが既知であれば、正答率を
予測することが出来る。
この予測値を足し合わせたものが、合計点の予
測値となる。
テスト特性曲線を描くことと同等である。
項目パラメタの推定と等化
◎
一次元性の確認をする。
①
両テストフォームの受験者の
項目反応データ(正解=1、不正解=0)から、
一括して項目パラメタ値を推定する。この際、
両テストフォームの尺度は、両フォームに共通
する項目に基づいて等化される。
②
①で推定した両フォームの項目パラメタ推
定値を、アンカー項目に基づいて基準集団の尺
度に等化する。
尺度得点の算出
③
②で基準集団に尺度等化された項目パラメ
タ推定値と項目反応データを用いて、フォーム
ごとに能力推定値(θ)を推定する。
④
③で推定された能力推定値(θ)を、
得点換算表θzに換算する。
⑤
④で換算されたθzを、次式により尺度得点
に換算する。
尺度得点=400+100θz
配点の効果
項目パラメタ
20 項目
配転は 1 または 2
30 点満点
Obs
A
1
2
3
4
5
6
7
8
9
10
0.5
1.0
0.5
1.0
0.5
1.0
0.5
1.0
0.5
1.0
B
-1.5
-1.5
-1.3
-1.3
-1.0
-1.0
-0.8
-0.8
-0.5
-0.5
SW1 SW2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
SW3 SWPA
2
2
2
2
2
2
2
2
2
2
1
2
1
2
1
2
1
2
1
2
Obs
11
12
13
14
15
16
17
18
19
20
A
0.5
1.0
0.5
1.0
0.5
1.0
0.5
1.0
0.5
1.0
B
0.5
0.5
0.8
0.8
1.0
1.0
1.3
1.3
1.5
1.5
SW1 SW2 SW3 SWPA
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
2
1
2
1
2
1
2
1
2
配点無し(項目正答数得点)
難しい項目に高い配点
易しい項目に高い配点
識別力に比例
得点からのθの推定(事後平均)
赤:難しい項目が高配点
青:易しい項目が高配点
推定値の精度(事後標準偏差)
赤:難しい項目が高配点
青:易しい項目が高配点
標準化・尺度化の問題
テストの標準化・尺度化

従来の方法
規準集団に於ける得点分布の情報
偏差値・パーセンタイル等

尺度得点に対する不信感
具体的問題からの遊離
公開テストフォーム尺度への等化




一つのフォーム、もしくはサンプル問題集を
公開する。
必要とあれば、各項目の配点を公開する。
毎回の結果を、この公開フォームの得点に
等化する。(尺度化)
規準集団における情報と具体的問題との
両方の意味を持つ。
0点と満点が定義される。
パラメタの推定
基本仮定 1
基本仮定 2
ICC or IRF
基本仮定 3
基本仮定 4
能力値パラメタ θ の推定
特定の項目反応パタンの同時確率(局所独立)
最尤解(最大尤度法、Maximum Likelihood Method)
尤度関数を最大とする θ を求める。
能力値パラメタ θ の推定 (ICC)

項目パラメタ
能力値パラメタ θ の推定(尤度)
尤度関数
対数尤度関数
能力値パラメタ θ の推定(最尤解)
対数尤度関数の最大値(関数の最適化)
対数尤度の一次微分が 0 の点
能力値パラメタ θ の推定(最尤解)
ICC の微分
対数尤度関数の一次微分が 0 の点
対数尤度 の微分
能力値パラメタ θ の推定(Bayes 解)
Bayes 推定法
事後分布 は 尤度関数 と 事前分布 の積に比例する。
事前分布
能力値パラメタ θ の推定(Bayes 解)
事前分布 N(0,1)
尤度関数
積
事後分布
能力値パラメタ θ の推定(Bayes 解)
能力値パラメタ θ の推定(別の例)
能力値パラメタ θ の推定(尤度)
尤度関数
対数尤度関数
能力値パラメタ θ の推定(最尤解)
対数尤度関数の最大値(関数の最適化)
対数尤度の一次微分が 0 の点
能力値パラメタ θ の推定(最尤解)
対数尤度関数の一次微分が 0 の点
ICC の微分
対数尤度 の微分
能力値パラメタ θ の推定(Bayes 解)
事前分布 N(0,1)
尤度関数
積
事後分布
能力値パラメタ θ の推定(Bayes 解)
項目パラメタの推定(同時)
項目パラメタの推定(周辺)
項目パラメタの推定(周辺)
EM
アルゴリズム
項目1のパラメタに関する
期待対数完全データ尤度関数
E ln m 1
b
a
項目1のパラメタに関する
期待対数完全データ尤度関数の等高線
a
b
項目2のパラメタに関する
期待対数完全データ尤度関数
E ln m 2
b
a
項目2のパラメタに関する
期待対数完全データ尤度関数の等高線
a
b
おわり
まとめ-1
司法試験
国家公務員
1級
採用
建築士試験
Ⅰ種試験
大学入試
センター試験
法科大学院
適性試験
(大学入試
センター)
日本留学
試験
共用試験
-
-
-
-
-
○
○
1949
1948
1950
1990
2003
2002
2005頃
年1回
年1回
年1回
年1回
年1回
年2回
年1回
(大学ごと)
有効期間
-
-
-
-
-
2年間
-
フォーム
数
1
1
1
1(2)
1(2)
複数
複数
統計専門
家の関与
-
-
-
△
○
○
○
プリテスト
の有無
なし
なし
ノー
コメント
なし
ノー
コメント
ノー
コメント
現在トライア
ル試験中
問題の再
利用
なし
なし
ノー
コメント
検討中
なし
ノー
コメント
あり
している
している
している
している
している
一部
非公開
標準化
開始時期
実施
回数
問題の
公表
標準化について-1
司法試験
年度間の
比較可能
性
保証なし
国家公務員
1級
採用
建築士試験
Ⅰ種試験
保証なし
保証なし
大学入試
センター試験
法科大学院
適性試験
(大学入試
センター)
日本留学
試験
共用試験
保証なし
保証なし
比較可能
比較可能
研究段階
行っている
IRTで検討中
等化につ
行っていない 行っていない 行っていない 行っていない
いて
IRTの導入を
すでに行って
積極的に考
いる
えている
標準化の
計画
なし
なし
なし
研究段階
研究段階
CBT化す
る計画
なし
なし
なし
なし
なし
なし
すでに行って
いる
-
-
-
-
-
○
○
標準化
標準化について-2
司法試験
国家公務員
1級
採用
建築士試験
Ⅰ種試験
(制度)
大学入試
センター試験
法科大学院
適性試験
(大学入試
センター)
日本留学
試験
共用試験
-
-
-
-
-
○
○
1949
1948
1950
1990
2003
2002
2005頃
年1回
年1回
年1回
年1回
年1回
年2回
年1回
(大学ごと)
有効期間
(制限なし)
(3年間)
(2年間)
大学による
単年度
2年間
1年間
フォーム
数
1
1
1
1(2)
1(2)
複数
複数
得点の
種類
素点
素点
素点
尺度点
尺度点
(検討中)
標準化
開始時期
実施
回数
素点(配点) 素点(配点)
標準化について-3
司法試験
国家公務員
1級
採用
建築士試験
Ⅰ種試験
標準化
-
-
-
問題の
形式
小問形式(短
答式)
小問形式
(1次)
小問形式
(1次)
一体
一体
一体
作成者と
編集者
(作題体制)
大学入試
センター試験
法科大学院
適性試験
(大学入試
センター)
日本留学
試験
共用試験
-
-
○
○
大問形式が多 大問形式が多 小問形式が
い
い
多い
一体
一体
分離
(アイテムライター)
小問形式が
多い
分離
(各大学)
直接的には
実施後の分析
採点や分析
統計専門 関与していな
関与していな
全段階で関与
関与していな
で関与してい
で関与してい 関与している
家の関与
い
い
している
い
る
る
プリテスト
の有無
なし
なし
ノー
コメント
なし
ノー
コメント
ノー
コメント
現在トライア
ル試験中
問題の再
利用
なし
なし
ノー
コメント
検討中
なし
ノー
コメント
あり
している
している
している
している
している
一部
非公開
問題の
公表
項目特性曲線 B
テスト特性曲線 B
項目特性曲線 C
テスト特性曲線 C