Ocenianie_testy_osiagniec

Download Report

Transcript Ocenianie_testy_osiagniec

Ocenianie szkolne
Teoria budowy testów osiągnięć szkolnych
Roman Dolata
Wydział Pedagogiczny UW
Michał Modzelewski
Instytut Badań Edukacyjnych
Kontakt
Roman Dolata
• Dyżury
Piątki od 16 do 17, s. 314
• Poczta
[email protected]
Cele kursu
• Opanowanie umiejętności:
– tworzenia nauczycielskich testów osiągnięć
szkolnych
– oceny jakości i interpretacji wyników
standaryzowanych testów osiągnięć
szkolnych
– wykorzystania wyników egzaminacyjnych do
ewaluacji wewnątrzszkolnej (metoda EWD)
Literatura, zaliczenie
• Literatura:
M. Jakubowski, A. Pokropek (2009) Badając egzaminy. Podejście
ilościowe w badaniach edukacyjnych. Centralna Komisja
Egzaminacyjna. Str. 8-72. (do pobrania ze strony
www.ewd.edu.pl)
Strona www.ewd.edu.pl
• Zaliczenie
Opracowanie, przeprowadzenie i przeanalizowanie wyników
testu osiągnięć edukacyjnych
Czym jest ocenianie szkolne?
Perspektywa
ewaluacyjna
Perspektywa
programowa
Perspektywa
diagnostyczna
Wykonanie
zadań
Czym jest test osiągnięć szkolnych?
• Mała próbka zadań, której używamy do
oszacowania opanowania przez uczniów
szerokiego wachlarza wiadomości i umiejętności
(Daniel Koretz)
Cechy formalne testu:
- obiektywność
- standaryzacja
- liczbowa postać wyniku
Testy osiągnięć szkolnych a testy zdolności
testy poznawcze
testy osiągnięć
związane
z określonymi
kursami
testy osiągnięć
szeroko
zorientowane
słowne testy
inteligencji
bezsłowne
i wykonaniowe
testy inteligencji
testy inteligencji
wolne od
wpływów
kulturowych
Typy testów osiągnięć szkolnych
• Przesiewowe (minimum kompetencji),
szerokiego stosowania, selekcyjne
• Testy różnicujące i testy kryterialne
• Testy mocy i testy szybkości
Podstawowe pojęcia statystyczne przydatne
przy konstrukcji testów i analizie ich
wyników
Rozkład wyników
L. pkt.
L. uczn.
0
1
1
3
2
6
…
…
38
13
39
7
40
6
0
2
4
6
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40
Jak opisać rozkład wyników?
1) Miary tendencji centralnej
2) Miary rozproszenia wyników
3) Miary kształtu rozkładu
Jak opisać rozkład wyników?
1) Miary tendencji centralnej: np. średnia
Jak opisać rozkład wyników?
2) Miary rozproszenia wyników: np. odchylenie standardowe
Jak opisać rozkład wyników?
3) Miary kształtu rozkładu: np. skośność
Rozkład procentowy
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Rozkład skumulowany, procentowy
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Wyniki Sprawdzianu w klasie szóstej 2002-2014
Skąd się biorą zróżnicowane rozkłady wyników surowych?
• Źródła zmienności rozkładów wyników
surowych dla kolejnych roczników:
 zmiany w rozkładzie umiejętności w kolejnych
rocznikach absolwentów SP
 http://pwe.ibe.edu.pl
 zmiany narzędzia pomiarowego, czyli testu
Na jakiej skali przedstawiać wyniki testów?
1. Kwestia pożądanego kształtu rozkładu wyników
2. Kwestia odpowiedniej skali wyników
Zakładany kształt rozkładu wyników testu...
... a funkcja testu.
Liczba wyników
Niskich
Przeciętnych
Wysokich
Test minimum
kompetencji
+
++
+++
Test szerokiego
spektrum
++
+++
++
Test selekcyjny
+++
++
+
Rodzaj testu
Zakładany kształt rozkładu wyników testu...
... a funkcja testu.
Liczba wyników
Niskich
Przeciętnych
Wysokich
Test minimum
kompetencji
+
++
+++
Test szerokiego
spektrum
++
+++
++
Test selekcyjny
+++
++
+
Rodzaj testu
Sprawdzian, egzamin gimnazjalny, testy diagnostyczne typu OBUT
to testy w założeniu badające szerokie spektrum umiejętności
Zakładany kształt rozkładu wyników testu...
... a funkcja testu.
Liczba wyników
Niskich
Przeciętnych
Wysokich
Rodzaj testu
Test minimum
kompetencji
+
++
+++
Test szerokiego
spektrum
++
+++
++
Test selekcyjny
+++
++
+
Rozkład normalny
Sprawdzian, egzamin
gimnazjalny, testy
diagnostyczne typu OBUT,
to testy w założeniu badające
szerokie spektrum umiejętności
Zakładany kształt rozkładu wyników testu...
... a faktyczny rozkład wyników.
W praktyce bywa różnie 
Zakładany kształt rozkładu wyników testu...
... a faktyczny rozkład wyników.
W praktyce bywa różnie 
Możemy jednak rozkład empiryczny spróbować dopasować do
założonego
Popularne skale wyników
Założenia
Przykłady
typy skal
standardowe
pozycyjne
 wyniki mają rozkład normalny
 skala staninowa
 odchylenie standardowe jako
jednostka pomiaru
 skala 500/100 (np. PISA)
 odsetek wyników w grupie
odniesienia jako jednostka
pomiaru
 centylowa
 skala 100/15
Skale standardowe
Skala staninowa
 Dzieli rozkład normalny na 9 przedziałów
(staniny)
 Wyniki surowe przypisywane do staninów
Skale standardowe
Skala 500/100
 Wykorzystywana np. w badaniach PISA
 Skala „ciągła”
Skale standardowe
Skala 100/15
 Tzw. skala „IQ”
 Skala „ciągła”
Skala centylowa
 Pochodna rozkładu skumulowanego
Przyjmuje się, że jest 99 rang
Wyniki są przypisywane do rang centylowych
Którą skalę wybrać?
500/100
100/15
Pożądane cechy skali wyników
dostateczna
precyzja
(liczba
wyników,
funkcja testu)
łatwość
interpretacji
ilościowej
wygoda
(wynik 
grupa
odniesienia)
(brak wyników
ujemnych i
ułamkowych)
Którą skalę wybrać?
Problemy ze skalą staninową
 Za „gruboziarnista”
 Utrata informacji: 41 wyników  9 wartości
 W obrębie stanina nie rozróżniamy wyników
stanin
wynik
Sprawdzian
2014
1
0-9
2
11 - 14
3
15 -19
4
20 - 24
5
25 - 28
6
29 - 32
7
33 - 34
8
35 - 37
9
38 - 40
Tu jest
dwadzieścia
kategorii
punktowych
Którą skalę wybrać?
Problemy ze skalą 500/100
 Za „drobnoziarnista”
 Złudzenie precyzji (zwłaszcza przy krótkich testach)
 Skala wyników dziurawa
wynik
Sprawdzian
2014
wynik na
skali
500/100
...
...
5
6
7
245
266
284
...
...
20
21
22
...
434
444
454
...
Którą skalę wybrać?
Problemy ze skalą centylową
 Ryzyko złączenia się kategorii punktowych
 Ryzyko dziur w rangach (przy krótkim teście)
 Statystyka lubi rozkład normalny 
wynik
Sprawdzian
2014
Percentyl
(max. ranga)
...
...
5
6
7
1
1
1
...
...
20
21
22
...
25
28
32
...
Którą skalę wybrać?
Skala 100/15
 Dobra „gęstość” wyników
 Sensowny „zapas” precyzji (dla dłuższych testów)
 Nasz wybór !
wynik
Sprawdzian
2014
wynik na
skali 100/15
...
...
5
62
6
65
7
...
68
...
20
90
21
92
22
...
93
...
Jak przełożyć wyniki surowe na skalę 100/15
metodą rozkładu skumulowanego w czterech
prostych krokach
Bierzemy rozkład
(procentowy)
wyników surowych
Jak przełożyć wyniki surowe na skalę 100/15
metodą rozkładu skumulowanego w czterech prostych
krokach
Bierzemy rozkład
wyników surowych
(procentowy)
Przekształcamy go
na rozkład
skumulowany
Jak przełożyć wyniki surowe na skalę 100/15
metodą rozkładu skumulowanego w czterech
prostych krokach
Bierzemy rozkład
wyników surowych
(procentowy)
Przekształcamy go
na rozkład
skumulowany
Porównujemy z
rozkładem
skumulowanym dla
skali 100/15
Jak przełożyć wyniki surowe na skalę 100/15
metodą rozkładu skumulowanego w czterech
prostych krokach
wynik
Sprawdzian
2014
wynik na
skali 100/15
...
5
6
7
...
62
65
68
...
...
Bierzemy rozkład
wyników surowych
(procentowy)
Przekształcamy go
na rozkład
skumulowany
Porównujemy z
rozkładem
skumulowanym dla
skali 100/15
I otrzymujemy
wyniki na skali
100/15
Zalety używania skal standardowych
 Wyniki mają znany rozkład w grupie odniesienia.
 Wynik na skali łatwo porównać do rozkładu w grupie odniesienia (ile
jest wyników poniżej/powyżej danego wyniku).
 Różnice w wynikach indywidualnych na skali 100/15 są sensownie
interpretowalne. Nie ma potrzeby wykorzystania wyników
ułamkowych.
 Może „obsłużyć” krótsze i dłuższe testy.
Gdzie jest wykorzystywana skala 100/15 ?
 Porównywalne Wyniki Egzaminów
 http://pwe.ibe.edu.pl
 Kalkulator EWD SP, wskaźniki EWD dla gimnazjów i szkół
maturalnych
 http:// ewd.edu.pl
 Testy wykorzystane w badaniu SUEK (TOS3 i TOS6)
 OBUT
 Test umiejętności na starcie szkolnym (TUNSS)
 Niektóre testy psychologiczne
Przykłady ilościowej interpretacji wyników na skali 100,15
• Wyraź poniższe wyniki w jednostkach odchylenia
standardowego:
• 115
• 95
• 111
Ćwiczenia: wyrażanie wyniku w jednostkach
odchylenia standardowego
•
•
•
•
145
70
105
103
Przykłady ilościowej interpretacji wyników na skali 100,15
• Jaki procent uczniów w grupie odniesienia (kraju)
uzyskał wynik wyższy niż:
• 115
• 85
• 112
Przykłady ilościowej interpretacji wyników na skali 100,15
• Jaki procent uczniów w grupie odniesienia (kraju)
uzyskał wynik wyższy niż 112:
Fragment rozkładu
skumulowanego dla skali
100,15
Wartość
na skali
104
105
106
107
108
109
110
111
112
Procent
skumulowany
60,51
63,06
65,54
67,96
70,31
72,58
74,75
76,83
78,81
100% – 78,18%
= 21,82%
Ćwiczenia: podawanie odsetka wyników wyższych
i niższych od danego
•
•
•
•
100
87
113
133
Przykład przekładania wyniku surowego na skalę 100,15
• Na sprawdzianie 2013 uczeń uzyskał 12 punktów.
Fragmenty rozkładów skumulowanych dla:
wyników surowych
wyników na skali 100,15
Wartość
na skali
10
5,82
79
Procent
skumulowany
8,08
11
7,86
80
9,12
12
10,17
13
14
Wynik Procent
surowy skumulowany
12
81 81
10,26
12,74
82
11,51
15,52
83
12,85
Ćwiczenia w przekładaniu wyniku surowego na wynik na
skali 100,15: sprawdzian 2013
•
•
•
•
•
24
9
16
28
39
Ćwiczenia w przekładaniu wyniku surowego na wynik na
skali 100,15: sprawdzian 2014
•
•
•
•
•
24
9
16
28
39
Zestawienie wyników dla 2013 i 2014 roku
Wynik
surowy
Wynik na skali
100,15
w roku 2013
Wynik na skali
100,15
roku 2014
24
100
96
9
74
72
16
88
84
28
106
103
39
136
134
Przykład przekładania wyniku ze skali 100,15 na skalę
staninową
• 108
Fragment rozkładu
skumulowanego dla skali
100,15
Wartość Procent
na skali skumulowa
ny
104
60,51
105
63,06
106
65,54
107
67,96
108
70,31
109
72,58
110
74,75
111
76,83
Skal staninowa
108 = 6
Ćwiczenia w przeliczaniu wyników między skalami
• Proszę przeliczyć poniższe wyniki wyrażone na skali
100,15 na wynik w skali staninowej:
•
•
•
•
•
100
70
129
91
121
Ćwiczenia w przeliczaniu wyników między skalami
• Proszę przeliczyć poniższe wyniki wyrażone na skali
staninowej na wynik w skali 100,15:




1
5
8
9
Zestawienie wyników: 100,15 - staninowa
Wynik na Wynik na
skali
skali
100,15
staninowej
100
5
70
1
129
9
91
4
121
8
Wynik na
Wynik na
skali
skali 100,15
staninowej (w
przybliżeniu)
1
do 74
5
96 - 104
8
119 - 126
9
127 i więcej
Badanie współzmienności wyników dwóch
testów
• Czy zmianom jednej zmiennej towarzyszą zmiany
drugiej zmiennej?
• Analiza graficzna: wykresy rozrzutu
• Możliwe do zastosowania statystyki:
- współczynnik korelacji r Pearsona
Korelacja dodatnia (pozytywna)
współczynnik korelacji wyższy od zera
Korelacja ujemna (negatywna)
współczynnik korelacji niższy od zera
Brak korelacji (zerowa)
współczynnik korelacji bliski zeru
Korelacja nieliniowa
Konstruowanie testów osiągnięć
szkolnych
Schemat konstrukcyjny testów
osiągnięć szkolnych
Normy wykonania
Wynik testu
Skalowanie
Wynik surowy
Ostateczna postać testu
Badania pilotażowe
– wybór zadań,
określenie rzetelności testu
Zadania testowe
Cele kształcenia
Elementy składowe testu
1. Lista celów edukacyjnych
2. Plan testu
3. Zadania testowe
4. Schematy punktacji
5. Kwestionariusz testu i instrukcja testowania
6. Normy wykonania testu: ilościowe i treściowe
Lista celów edukacyjnych
• Fundament budowy testu
• Cele dotyczą wiadomości i umiejętności, które
mają opanowywać uczniowie, a nie czynności
nauczyciela
• Cele muszą być sformułowane w sposób jasny
i jednoznaczny
• Lista celów nie powinna być zbyt długa; gdy zbyt
długa:
– łączenie celów w ogólniejsze
– wyznaczenie priorytetów
Plan testu
• W najprostszej postaci tabela o postaci:
Cel edukacyjny
Liczba
zadań
Typy zadań
Nr w
kwestionariusz
u
1. Umie przedstawić
geometryczną
interpretację mnożenia
4
2 WW, 2 KO
1,2,7,8
2. Potrafi przedstawić
mnożenie jako dodawanie
i odwrotnie
4
4 WW
3,4,5,6
3. Rozwiązuje zadania
tekstowe,
jednodziałaniowe na
mnożenie
4
4 KO
9,10,11,12
Plan testu
taksonomia ABC na podstawie B. Blooma
Cele
Materiał
Wiadomości Umiejętności
Zastosowanie Razem
dodawanie
4 zadania
4 zadania
4 zadania
12
odejmowanie
4 zadania
4 zadania
4 zadania
12
mnożenie
4 zadania
2 zadania
4 zadania
12
12
12
12
36
razem
Plan testu: przykład kursu statystyki
Zadania testowe
• Zadanie testowe to wskaźnik opanowania celu
edukacyjnego
• By rzetelnie wypowiadać się o opanowaniu celu
potrzebujemy wielu wskaźników
• W wypadku szczegółowego celu wystarczy kilka
zadań testowych
• W wypadku ogólnych celów potrzeba znacznie
więcej zadań testowych
Zadania testowe: klasyfikacja
Zadania
testowe
„Papier ołówek”
Praktyczne
W sytuacji
naturalnej
Prowokowane
Otwarte
Krótkiej
odpowiedzi
Rozbudowanej
odpowiedzi
Zamknięte
Prawda-fałsz
Na dobieranie
Wielokrotnego
wyboru
Porządkowanie
listy
Schemat punktacji
• Schematy punktacji do zadań zamkniętych
– Problem tzw. punktów ujemnych
• Schematy punktacji do zadań otwartych
– Problem rzetelności oceny wykonania zadań
otwartych
Kwestionariusz testu i instrukcja
przeprowadzenia testowania
• Szata graficzna testu
• Problem praw autorskich
• Kolejność zadań
– Od najłatwiejszych do najtrudniejszych
• Instrukcja przeprowadzenia testu
– Standaryzacja sytuacji testowej
– Limit czasu: testy mocy vs testy szybkości
Norma ilościowa wykonania testu
• Interpretacja ilościowa wyniku testu: wynik testu
na tle rozkładu wyników w grupie odniesienia
• Najprostsza norma: odniesienie wyniku do
średniej w grupie odniesienia
• Standaryzacja wyniku:
– skala staninowa
– skale o zadanej średniej i odchyleniu standardowym
– skale pozycyjne: centyle
Norma treściowa
• Wynik testu jako miara opanowania celów
edukacyjnych
• Najprostsza norma treściowa: wskazanie od
jakiego wyniku można uznać, że cel został
opanowany w stopniu pozwalającym na dalsze
uczenie się
• Złożone normy treściowe: zdefiniowanie kilku
poziomów opanowania celu
– Problem kumulatywności testu
Trafność testu
Trafność w testach osiągnięć
• Test jest trafny, gdy:
– uczniowie wykonują, te operacje umysłowe,
na których nam zależy
– możemy dostać na to dowód
Trafność zadania testowego
Treść celu
edukacyjnego
Procesy
umysłowe
zachodzące
„w głowie”
rozwiązującego
Trafność zadania - problemy
Przykład:
• Badana umiejętność: zasób słownikowy dziecka
Trafność zadania - problemy
Przykład:
• Badana umiejętność: zasób słownikowy dziecka,
rozpoznawanie błędnego użycia słowa.
Trafność zadania zamkniętego problemy
• Czy prawidłowa odpowiedź jest na pewno
poprawna, a dystraktory błędne?
• Jakość dystraktorów:
– Czy są prawdopodobne?
– Czy zawierają typowe błędne przekonania
uczniów?
– Czy wykorzystują prawdziwe stwierdzenia,
które nie są poprawną odpowiedzią?
Trafność zadania - problemy
• Czy treść zadania (polecenie, pytanie, możliwe
odpowiedzi, rysunki i schematy) jest jednoznaczna, jasna i
zrozumiała?
– Język odpowiedni do wieku ucznia.
– Główna myśl w pytaniu, nie w odpowiedziach.
• Czy w zadaniu nie ma nadmiaru słów?
• Czy w pytaniu i możliwych odpowiedziach nie ma negacji?
Jeśli musi być, czy jest wyróżniona?
• Czy poprawna odpowiedź jest dłuższa od dystraktorów?
• Czy występują duże kwantyfikatory: zawsze, nigdy,
całkowicie, absolutnie.
Metody analizy trafności
• Analiza treściowa zadań - jw
• Analiza jakościowa rozwiązywania zadań przez
uczniów (technika głośnego myślenia)
• Analiza statystyczna: związek z innymi miarami
odniesienia
Rzetelność testu
Rzetelność testu
• Każdy pomiar obarczony jest niepewnością pomiarową
• Klasyczne ujęcie niepewności pomiarowej
wynik empiryczny = wynik prawdziwy + błąd pomiaru
Wynik prawdziwy: średni wynik z nieskończonej liczby
powtórzeń testu
Błąd pomiaru
Wynik ucznia w teście
Uczeń
Wysokie
Niskie
Wyniki
Błąd pomiaru
Wynik ucznia w teście
Wynik
prawdziwy
Uczeń
Błąd pomiaru
Wysokie
Niskie
Wyniki
Główne źródła błędu pomiaru w testach
osiągnięć szkolnych
• Arbitralność doboru zadań testowych
• Niedostatki standaryzacji procedury testowej
• Zgadywanie w zadaniach zamkniętych
• Ocenianie zadań otwartych
• Ściąganie
• Losowe wahania dyspozycji intelektualnych ucznia
• Błędy systematyczne: stronniczość testu
Rzetelność punktacji – opis
eksperymentu
Na podstawie: R. Dolata, E. Putkiewicz, A. Wiłkomirska Reforma
egzaminu maturalnego: oceny i rekomendacje
Instytut Spraw Publicznych, badanie sfinansowane przez MENiS
Analiza rzetelności systemów punktacji
• Przedmiotem analiz były systemy punktacji
przygotowane na maturę 2002:
– Język polski - wypracowania (arkusz I i III), rozumienie
czytanego tekstu (arkusz II).
– Historia – test i interpretacja źródeł (arkusz I i II).
– Matematyka – poziom podstawowy i rozszerzony
(arkusz I i II).
Procedura badania rzetelności
• Dobór prac.
• Przygotowanie prac do ponownego
sprawdzania.
• Dobór egzaminatorów.
Problem trafności ekologicznej
eksperymentu
• Czynniki mogące zawyżać oszacowanie rzetelności:
- dobór egzaminatorów (posługiwanie się dobrze znanym
schematem punktacji),
- pominięcie opcji (polski, historia).
• Czynniki mogące zaniżać oszacowanie rzetelności:
- upływ czasu,
- brak procedur oceniania grupowego
Metoda badania rzetelności systemów
punktacji
• Każda praca była niezależnie sprawdzana przez ośmiu
egzaminatorów. Problem wielkości próbki.
• Zbiór danych (dla każdego kryterium):
Lp
E1 E2 E3 E4 E5 E6 E7 E8
1.
31
25
35
36
21
27
36
21
2.
55
41
59
25
26
21
36
54
3.
48
49
51
50
48
47
52
50
…
… … … … … … … …
50. 21
18
19
20
21
21
19
20
Model analizy statystycznej
Efekt jakości pracy
Całkowita zmienność ocen
Prosty efekt egzaminatora
Interakcyjny efekt egzaminatora
Wyniki analizy rzetelności punktacji dla
wypracowania, arkusz III
Efekt jakości pracy
49%
Całkowita zmienność ocen
22%
Prosty efekt egzaminatora
29%
Interakcyjny efekt egzaminatora
Efekt egzaminatora dla przykładowych
wypracowań
Lp.
Średnia
ocena
Rozrzut ocen
(SD)
Minimalna
Maksymalna
39
60,3
18,9
29
86
48
46,9
18,5
11
67
18
43,4
18,2
24
72
28
57,5
17,1
33
80
06
46,0
16,6
19
77
Co odpowiada za niską rzetelności
systemu punktacji arkusza III?
• Zawiodła przede wszystkim kryterialna skala
rozwinięcia tematu (rzetelność=54%).
• Zła budowa skal szacunkowych:
– skala kompozycji (rzetelność=33%),
– skala stylu (rzetelność=31%),
– skala poprawności językowej (rzetelność=34%).
• Użyto z założenia subiektywnej skali szczególnych
walorów pracy (rzetelność=23%).
Najmniej i najbardziej rzetelne kryterium
skali rozwinięcia tematu, arkusz III
• Kryterium 17: 77%
– Dostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji
łacińskiej i wkroczenia barbarzyńców)
• Kryterium 15.1.: 14%
– Za pogłębione wnioski
• Ogólna prawidłowość: im wyższy poziom
taksonomiczny, tym niższa rzetelność kryterium.
Przykład wadliwie skonstruowanej skali
szacunkowej
Skala poprawności językowej wypracowania
Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt.
Oto ich opis:
• 0 – brak opisu,
• 5 – w większości poprawna składnia i frazeologia, zgodna z normą
fleksja, nieliczne usterki leksykalne oraz nieliczne błędy
ortograficzne i interpunkcyjne,
• 10 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą
fleksja, sporadycznie pojawiają się błędy ortograficzne i
interpunkcyjne,
• 21 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą
fleksja i ortografia, rzadko pojawiające się błędy interpunkcyjne.
Zestawienie wyników analizy rzetelności
systemów punktacji
Rzetelność
Prosty efekt
egzaminatora
Interakcyjny
efekt
egzaminatora
Polski, arkusz I
55%
16%
29%
Polski, arkusz III
49%
22%
29%
Polski, arkusz II
80%
7%
13%
Historia, arkusz I
95%
2%
3%
Historia, arkusz II
58%
29%
13%
Matematyka,
arkusz I
99%
1%
0%
Matematyka,
arkusz II
97%
1%
2%
Arkusz
Koniec opisu eksperymentu
Zapewnianie rzetelności testu: analiza mocy różnicującej
zadań testowych
Krzywe charakterystyczne dla trzech zadań ze Sprawdzianu 2010
1.00
.90
.80
.70
.60
zad_7
.50
zad_11
zad_15
.40
.30
.20
.10
0 pkt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40 pkt
.00
Zadanie X
Zadanie Y
Zadanie Z
Metody określania rzetelności wyniku testu
• Dwukrotne testowanie
– Korelacja między wynikami dwóch testów
• Metoda połówkowa
– Korelacja między wynikami dwóch połówek
• Wewnętrzna spójność testu
– Wsp. rzetelności Alfa Cronbacha
Współczynnik rzetelności Alfa Cronbacha
Rzetelność jest to stosunek
zróżnicowania wyniku
prawdziwego
do zróżnicowania wyniku
uzyskanego na podstawie
testowania (będącego
sumą zróżnicowania wyniku
prawdziwego oraz
zróżnicowania błędu pomiaru)
Intertretacja ws. Alfa Cronbacha
Wykorzystanie wsp. rzetelności
w interpretacji wyniku testu
• Wyznaczanie przedziału ufności dla wyniku
indywidualnego
Idea szacowania przedziału ufności
Wynik ucznia w teście
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Przedział
ufności
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Rzetelność testu
Funkcja
prawdopodobieństwa
Wynik mało
prawdopodobny
(2,5%)
Wynik mało
prawdopodobny
(2,5%)
Wyniki
Wysokie
Niskie
Wynik prawdopodobny (95%)
Przykład
Przykładowa informacja o wyniku ucznia dla rodziców,
Massachusets, MCSA 2002
Prawdopodobieństwo, że
wynik ucznia znajduje się w
przedziale wyznaczonym
przez prostokąt wynosi 95%
Skalowanie wyniku testu
• Jaki rozkład ma wynik testu w populacji docelowej?
• Skale standardowe i pozycyjne
Normalizacja i standaryzacja
skala o średniej 100 i odchyleniu standardowym 15
Egzamin 1
Wyniki pierwotne
Egzamin 2
Egzamin 3
Normalizacja i standaryzacja
skala o średniej 100 i odchyleniu standardowym 15
Egzamin 1
Wyniki pierwotne
Wyniki
znormalizowane
Egzamin 2
Egzamin 3
Normalizacja i standaryzacja
skala o średniej 100 i odchyleniu standardowym 15
Test 1
Wyniki pierwotne
Wyniki
znormalizowane
Wyniki po
przejściach
Test 2
Test 3
Prosta analiza wyników testu
Analiza wyników dla grupy
• Klasa IIIa, 20 uczniów
Cel edukacyjny
Norma
treściowa
Procent
uzyskanych
przez klasę pkt
Procent uczniów,
którzy opanowali
cel
1. Umie przedstawić
geometryczną interpretację
mnożenia
60%
55%
40%
2. Potrafi przedstawić
mnożenie jako dodawanie
i odwrotnie
70%
80%
75%
3. Rozwiązuje zadania
tekstowe, jednodziałaniowe
na mnożenie
50%
60%
80%
Analiza wyników dla poszczególnych
uczniów
• Janek K.
Cel edukacyjny
Procent
uzyskanych
pkt
Czy opanował
cel?
Wynik na tle
klasy
1. Umie przedstawić
geometryczną interpretację
mnożenia
40%
nie
-15pp
2. Potrafi przedstawić
mnożenie jako dodawanie
i odwrotnie
85%
tak
+5pp
3. Rozwiązuje zadania
tekstowe, jednodziałaniowe
na mnożenie
60%
tak
0pp
Wprowadzenie do IRT
(probabilistyczna teoria odpowiedzi na zadanie testowe)
Schemat konstrukcyjny testów osiągnięć
szkolnych
Item Response Theory
Normy wykonania
Wynik testu
Skalowanie
Pilotaż wersji przeznaczonych
do danego zastosowania
Wiele możliwych wersji testu
Bank zadań
Badania pilotażowe
– wybór zadań do banku
i określenie ich parametrów
Zadania testowe
Cele kształcenia
Podstawowe założenia i cechy IRT
•
Wykonanie zadania testowego zależy od poziomu ukrytej (bezpośrednio
nieobserwowalnej) dyspozycji umysłowej
•
Skala pomiarowa jest kumulatywna
•
Poziom ukrytej dyspozycji wyznacza prawdopodobieństwo poradzenia
sobie z danym zadaniem testowym (uwzględnienie czynników losowych)
•
Jedno- lub wielowymiarowość danego testu
•
Model zależności ukryta dyspozycja - radzenie sobie z zadaniem podlega
empirycznemu testowi (zgodność modelu z danymi)
•
Trudność zadań i poziom ukrytej dyspozycji umysłowej ucznia można
lokować na jednej skali
• Jak rozumieć pojęcie ukrytej dyspozycji?
Interpretacja związku między poziomem
wykonania dwóch zadań
• Analiza dla zadań 0-1
zadanie 2
zadanie 1
wykonał
nie
wykonał
wykonał
a
b
a+b
nie
wykonał
c
d
c+d
a+c
b+d
a+b+c+d
Korelacja negatywna między dwoma zadaniami
Φ=-1,0
zad. 2
zad. 1
1
0
1
0
50
0
50
0
zad.1
zad. 2
dysp. x
dysp. y
Wykluczające się dyspozycje
Brak korelacji między dwoma zadaniami
Φ=0,0
zad. 2
zad. 1
1
0
1
25
25
0
25
25
zad.1
zad. 2
dysp. x
dysp. y
niezależne dyspozycje
Korelacja pozytywna między dwoma zadaniami
Φ=1,0
zad.1
zad. 2
zad. 2
zad. 1
1
0
1
50
0
0
0
50
dysp. x
wspólna dyspozycja
Odkrywanie ukrytych wymiarów
• Analizując empiryczne powiązania między zadaniami
odkrywamy ukryte dyspozycje umysłowe mierzone przez
dany test
• Do wyjaśnienia radzenia sobie z danym zbiorem zadań
może wystarczyć jedna (test jednowymiarowy) lub kilka
(wielowymiarowy) ukrytych dyspozycji umysłowych
• W praktyce stosuje się jednowymiarowe modele IRT
• Jak rozumieć kumulatywność skali
pomiarowej?
Zależności kierunkowe między zadaniami
zad. 1 / zad. 2
zad. 2  zad. 1
zad.1
zad. 2
zad. 2
zad. 1
1
0
1
50
20
0
0
30
wspólna dyspozycja
Trzy wiązka trzech zadań tworzy kumulatywną
skalę?
zad.1
zad. 2
wspólna dyspozycja
zad. 3
Sprawdzanie, czy wiązka trzech zadań spełnia
warunek kumulatywności (skalogram Guttmana)
Wzorce zgodne
Wzorce niezgodne
Wzorzec
odpowiedzi
Liczba
przypadków
Wynik
surowy
Wynik
skalowy
000
100
110
111
101
010
011
001
15
25
30
20
5
2
2
1
100
0
1
2
3
2
1
2
1
0
1
2
3
3
2
3
3
razem
Jak uwzględniamy działanie czynników
losowych?
Prosty determinizm
poziom dyspozycji  radzenie sobie z zadaniem
radzi sobie z zadaniem
prawdopodobieństwo
poradzenia sobie z zadaniem
1
nie radzi sobie z zadaniem
niski
poziom dyspozycji umysłowej
wysoki
Związek probabilistyczny – model
prostoliniowy
prawdopodobieństwo
poradzenia sobie z zadaniem
1
niski
poziom dyspozycji umysłowej
wysoki
Związek probabilistyczny – model
logistyczny
prawdopodobieństwo
poradzenia sobie z zadaniem
1
niski
poziom dyspozycji umysłowej
wysoki
Jak empirycznie testujemy teorię związku
poziomu dyspozycji umysłowej
z radzeniem sobie z danym zadaniem?
Przykład modelu dobrze dopasowanego do
danych
prawdopodobieństwo
poradzenia sobie z zadaniem
1
niski
poziom dyspozycji umysłowej
wysoki
Przykład modelu źle dopasowanego do
danych
prawdopodobieństwo
poradzenia sobie z zadaniem
1
niski
poziom dyspozycji umysłowej
wysoki
Lokowanie zadania na skali 
Zadanie x
prawdopodobieństwo
poradzenia sobie z zadaniem
1,0
0,5
-4
niski
-3
-2
-1
0
1
poziom dyspozycji umysłowej
2
3
wysoki
4

Zestaw 5 zadań tworzących skalę
0.8
0.6
0.4
0.2
0.0
Prawdopodobieństwo poprawnej odpowiedzi
1.0
Krzywa charakterystyczna odpowiedzi
-4
-2
0
2
4
Cecha ukryta
niski
poziom dyspozycji umysłowej
wysoki

Określanie trudności tych zadań
0.8
0.6
0.4
0.2
0.0
Prawdopodobieństwo poprawnej odpowiedzi
1.0
Krzywa charakterystyczna odpowiedzi
-4
-2
0
2
4
Cecha ukryta
niski
poziom dyspozycji umysłowej
wysoki

Lokowanie ucznia na skali 
Metoda największej wiarygodności
Warunkowe prawdopodobieństwo poradzenia
sobie z zadaniem
Jaś:
Małgosia:

Zad. 1
Zad. 2
Zad. 3
Zad. 4
Zad. 5
110--
--110
-3
0,15
0,05
0,01
0,01
0,01
0,007
0,001
-2
0,50
0,15
0,05
0,01
0,01
0,070
0,001
-1
0,90
0,50
0,15
0,05
0,01
0,383
0,007
0
0,95
0,90
0,50
0,15
0,01
0,428
0,074
1
0,99
0,95
0,90
0,50
0,15
0,094
0,383
2
0,99
0,99
0,95
0,90
0,50
0,049
0,428
3
0,99
0,99
0,99
0,95
0,90
0,010
0,094