Лекция 4 Модель тестирования IRT ITEM RESPONSE THEORY Три фундаментальных принципа теории тестирования 1. Применение серии одинаковых испытаний к большому количеству испытуемых. 2.

Transcript Лекция 4 Модель тестирования IRT ITEM RESPONSE THEORY Три фундаментальных принципа теории тестирования 1. Применение серии одинаковых испытаний к большому количеству испытуемых. 2.

Slide 1

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 2

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 3

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 4

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 5

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 6

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 7

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 8

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 9

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 10

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 11

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 12

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 13

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 14

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 15

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 16

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 17

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 18

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 19

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 20

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 21

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 22

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 23

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 24

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 25

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 26

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 27

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 28

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 29

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 30

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Slide 31

Лекция 4
Модель тестирования IRT
ITEM RESPONSE THEORY

Три фундаментальных принципа теории
тестирования
1. Применение серии одинаковых испытаний к
большому количеству испытуемых.
2. Статистическая обработка результатов.
3. Выделение эталонов оценки.

Недостатки классической теории
тестирования

1.
Способности обучаемых определяются сложностью теста. Сложно
сравнить сходные уровни подготовки обучаемых, проходивших разные
тесты.

2.
Свойства каждого задания определяются группой обучаемых,
проходивших их. Сложно оценить трудность заданий в независимости от
уровня подготовки группы экзаменуемых.
3.
Тестовые баллы по-разному достоверны для разных экзаменуемых.
Таким образом сложно сравнить соответствующие способности кандидатов.

Параметрические модели
тестовые задания описываются с помощью набора
параметров (трудность, различающая способность и т.д.).
• по количеству параметров бывают одно-, двух- и
трехпараметрические модели

Параметрические модели
• Базовой
считается
однопараметрическая
модель,
разработанная Г.Рашем в 1960 г. В рамках этой модели
задания характеризуются только одним параметром –
трудностью.
• Георг Раш предположил, что уровень подготовленности
испытуемого θi и уровень трудности задания βj размещены на
одной шкале и измеряются в одних и тех же единицах - логитах.
Аргументом функции успеха испытуемого является разность
θi - β j .
• Достоинство модели Раша – аддитивность, т.е. вероятность
успеха зависит только от разницы между уровнем
подготовленности и трудностью задания. Вместе с тем модель
Раша требует наиболее тщательного подбора заданий, т.к.
накладывает
жесткие
ограничения
на
форму
характеристических кривых.

Параметрические модели

• модель Бирнбаума описывает задания
тремя параметрами – трудностью (B),
различающей способностью (A) и
параметром угадывания (C)

IRT- ITEM RESPONSE THEORY
(СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТИРОВАНИЯ)
В теории Г.Раша никогда не ставилась задача
адекватного описания данных. Напротив, это пример
другой
философии
измерения
model
based
measurement,
где
утверждается
противоположное
–
не
модель
должна
соответствовать эмпирическим данным, а данные
должны соответствовать модели.
Об этом можно спорить, но в соответствии с
философией Rasch шкалу (педагогический тест)
образуют только те задания, которые отвечают
данной модели измерения. Все остальные в тест не
включаются.

Тестовое задание

Площадь круга радиусом 3 см равна:
• 9 см2
• 18.85 cm2
• 28.27 cm2

Вероятность правильного ответа – характеристическая функция задания

Модели IRT (теория моделирования и
параметризации педагогических тестов)
Однопараметрическая модель Раша
Функция успеха

Pij  f ( i   j )

Pij 

e

( i   j )

1 e

( i   j )

Pij- вероятность того, что i-тый обучаемый выполнит
j-тое задание.

латентный параметр, определяющий уровень знания
i-того обучаемого
латентный параметр, определяющий уровень трудности
 jj-того задания
i-

Модели IRT
Начальная оценка уровня знаний в логитах:
i



o

0
j

 pi 
 ln 
 q 
 , i  1 ,..., N
 i 
 qj
 ln 
 p
j



 , j  1 ,..., n



N- число обучаемых; pi- доля правильных ответов i-того
обучаемого на все задания теста;
qi- доля неправильных ответов i-того обучаемого.
n-число заданий; pj- доля правильных ответов всех
обучаемых на j- тое задание теста;
qj- доля неправильных ответов всех обучаемых на j- тое
задание теста;

Характеристические кривые заданий
(Item Characteristic Curve - ICC)
в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если
трудность задания равна уровню подготовленности (ability) испытуемого, то
он с равной вероятностью может справиться или не справиться с этим
заданием.
Характерной
особенностью
модели
Раша
является
то,
что
характеристические кривые (ICC) не пересекаются Это означает, что, если
некоторое задание «А» легче задания «Б», то это соотношение сохраняется
во всем интервале изменения θ.

Характеристические кривые испытуемых (PCC)

Q = латентный параметр, определяющий уровень знания обучаемого
b = латентный параметр, определяющий уровень трудности задания

1,2

Ряд1

1

Ряд2

0,8

Ряд3

0,6

Ряд4

0,4

Ряд5

0,2

Ряд6
Ряд7
Ряд8

5

4

3

2

1

0

Ряд9

Уровень подготовленности

Ряд10

Ряд1
Ряд2
Ряд3

1,2

Ряд4

1

Ряд5

0,8

Ряд6

0,6

Ряд7

0,4

Ряд8

0,2

Ряд9

0

Трудность задания

5

4

3

2

1

-1

-2

-3

Ряд10

-4

-5

Вероятность
правильного ответа

Характеристические кривые испытуемых

0

-1

-2

-3

-4

0
-5

Вероятность
правильного ответа

Характеристические кривые заданий

Ряд11
Ряд12
Ряд13

• http://uss.dvfu.ru/struct/ui/kim/monograph/
src/contents.php

Критерии качества тестов
•надежность
•валидность
•дискриминативность

Надежность
Устойчивость результатов теста.
Надежность теста определяется тем, в какой мере
результаты
измерений
воспроизводятся
при
многократном использовании теста по отношению к
данной группе испытуемых.

Надежность теста – основная метрологическая
характеристика, определяемая как устойчивость средства
педагогического измерения к возникающим в процессе
измерения помехам (например, к изменению условий
тестирования).

Способы проверки надежности
теста

 параллельных форм (parallel-form reliability) – с помощью
взаимозаменяемых (параллельных) форм теста, предъявляемых
одной и той же выборке испытуемых;
 ретестовая (test-retest reliability) – при повторном тестировании с
помощью одного и того же теста по прошествии времени;
 расщепленных частей теста (split-half reliability) – путем
анализа устойчивости результатов отдельных групп заданий в
тесте, например устойчивость результатов по четным и нечетным
заданиям теста.

МЕТОД ОЦЕНКИ НАДЕЖНОСТИ
Параллельный тест
Формы теста - два теста,
идентичных по содержанию и формальным характеристикам.
Задания для разных форм одного и того же теста
разрабатываются на основе одной спецификации.

.В обе формы входит одинаковое количество заданий.
Задания уравнены по трудности и различающей способности

Валидность
Валидность (validity) – комплексная характеристика качества
теста,
отражающая
обоснованность,
значимость
его
результатов, а также пригодность данного теста для целей,
заявленных его разработчиками.

пригодность теста, т. е. способность качественно измерять то,
для чего он создан по замыслу авторов.

Пример. Тест по физике с большим
математических выкладок - не валидный

числом

Содержательная валидность
•просмотр каждого пункта с тем, чтобы определить, соответствует ли он тесту в
целом;
• оценка общей согласованности нескольких тестовых заданий;
Например, чтобы тест математических способностей имел достаточный
уровень содержательной валидности, его пункты не должны иметь таких формулировок,
при которых решающими оказываются вербальные способности, (т.е. нужно понять, о
чем спрашивается в этом пункте).

• содержание должно быть уравновешено, чтобы все тестируемые аспекты были
представлены соответственно; (тест на арифметические навыки не должен быть перегружен,
например, пунктами на умножение в ущерб пунктам на сложение).
Установление содержательной валидности – в значительной степени субъективная
операция, основанная на мнениях "экспертов" относительно уместности используемых
материалов. Оно является ситуационно-специфическим, и оценки, сделанные в одних
обстоятельствах, нельзя переносить на другие.

ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ
(ВАЛИДНОСТЬ ПО КРИТЕРИЮ)

Понимается как обоснование корреляции
результатами теста и эмпирическим критерием.

между

На возможную валидность теста по отношению к этому
критерию указывает корреляция с ним теста; чем выше
коэффициент корреляции, тем выше валидность.

МЕТОД ОЦЕНКИ ВАЛИДНОСТИ ПО
КРИТЕРИЮ
•выбрать контрольную группу студентов;
•провести оценку их знаний, навыков и умений по
дисциплине
с
использованием
теста,
и с помощью обычных оценок;

•оценить корреляцию результатов тестирования
студентов и оценок экспертов.

Дискриминативность

Дискриминативность
(discriminatory
power
или
item
discrimination)
(дифференцирующая
способность
или
различающая способность) – способность отдельных заданий
теста и теста в целом дифференцировать испытуемых
относительно "максимального" и "минимального" результата
теста.

Дискриминативность
Расчет индекса дискриминативности
Из общей совокупности испытуемых выделяют две
подгруппы – тех, кто получил самые высокие суммарные баллы, и
тех, кто получил самые низкие.

Тогда индекс дискриминативности может быть определен как
разность между относительными численностями испытуемых,
правильно выполнивших задание j в этих двух подгруппах.
Например, упорядоченную совокупность суммарных
баллов делят на три части и сравнивают результаты выполнения
каждого задания j первой и последней трети испытуемых.
В этом случае для дихотомических данных индекс
приобретает вид:

ДИСПЕРСИЯ ТЕСТОВЫХ БАЛЛОВ - ОЦЕНКА
ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ
• Малая величина дисперсии говорит о том, что тест плохо
различает испытуемых по уровню знаний, не позволяет с
приемлемой точностью ранжировать их.
• Слишком большая
дисперсия указывает на сильную
неоднородность группы испытуемых, на возможные нарушения
процедуры
тестирования,
на
недостаточно
ясные
формулировки заданий и т.п.

Краткий терминологический словарь по
теории педагогических тестов
А н ал и з зада н и я (item analysis) – п роц ед ура д ля оц ен ки его эф ф екти вн ост и в
тесте, вклю чаю щ ая в себ я ан али з техн олог и чн ос ти ф орм ы , соответс тв и я
сод ерж ан и ю и стати с ти ческ и х хара ктери с ти к зад ан и я (оп ред елен и е корреляц и и
зад ан и й с об щ и м п оказателем п о тесту, ф акторн ы й ан али з зад ан и й ,
ш кали рован и е зад ан и й и ли д руги е ви д ы и х стат и сти ческого оц ен и ван и я).
Б ал л (score) (и н ди ви дуал ьн ы й бал л , тест овы й бал л ) – коли чест вен н ы й
п оказател ь вы раж ен н ости и зм еряем ого свой с тва у д ан н ого и сп ы т уем ого,
п ол учаем ы й п ри п ом ощ и д ан н ого тес та.


и ст и н н ы й (true score) – ги п отети ческ и й б алл, которы й п ол учи л б ы
и сп ы т уем ы й , если б ы он вы п олн и л все зад ан и я и з б ан ка зад ан и й д ля
д ан н ого теста;



н еобработ ан н ы й ("сы р ой ") (ra wscore) – п ер ви чн ы й (н е п од вергн уты й
об раб отке) и н д и в и д уал ьн ы й б алл, п олучен н ы й и сп ы т уем ы м п о д ан н ом у
тест у;



ст ан д арт и зован н ы й
(standard
score)
–
и н д и ви д уальн ы й
б алл,
отраж аю щ и й степ ен ь вы раж ен н ости и зм еряем ого свой с тва у и сп ы т уем ого
отн оси тельн о н екото рой н орм ат и вн о й груп п ы ;



ст ен ай н ы (stanines) – н орм али зован н ы й стан д артн ы й б алл н а од н ом ерн ой
ш кале ран ж и рован и я от -1 д о 9.

Известные тесты

•SAT-I и SAT-II

•TOEFL
•GMAT

Литература
1. Аванесов B.C. Композиция тестовых заданий. Учебная
книга для преподавателей вузов, учителей школ,
аспирантов и студентов педвузов. 2 изд., испр. и доп. М.:
Адепт 1998. -217с.
2. Аванесов В.С. Форма тестовых заданий. -М.: Центр
тестирования, 2005. -156 с
3. Челышкова М.Б. Теория и практика конструирования
педагогических тестов: Учебное пособие. –М.: Логос,
2002. -432 с.
4. Нейман Ю.М., Хлебников В.А. Введение в теорию
моделирования и параметризации педагогических
тестов. -М.: Прометей, -169 с.
5. http://www.uspi.ru/struct/ui/kim/monograph/index.html

Задание
1. Подсчитать оценку (начальные значения) трудности и уровня
знаний (успешности) в логитах для смоделированной в
предыдущем задании матрицы.
2. Построить
характеристические
кривые
заданий
и
характеристические
кривые
испытуемых
(http://uss.dvfu.ru/struct/ui/kim/monograph/src/glava_5_5.html).
3. Рассчитать индекс дискриминативности
4. Промоделировать расчет надежности расщепленного теста.
5. Провести анализ результатов.

Спасибо за внимание!

Directory