Ewaluacja_testy

Download Report

Transcript Ewaluacja_testy

Elementy teorii testów osiągnięć
szkolnych
Roman Dolata
Wydział Pedagogiczny UW
Kontakt
Roman Dolata
• Dyżury
Piątki od 16 do 17, s. 314
• Poczta
[email protected]
Co to jest test?
• Mała próbka zadań, której używamy do
oszacowania opanowania przez uczniów
szerokiego wachlarza wiadomości i umiejętności
(Daniel Koretz)
Cechy formalne testu:
- obiektywność
- standaryzacja
- liczbowa postać wyniku
Podstawowe pojęcia statystyczne przydatne
przy konstrukcji testów i analizie ich
wyników
Rozkład liczebności
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Rozkład procentowy
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Rozkład skumulowany, procentowy
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Podstawowe parametry rozkładu
1. Miary tendencji centralnej i inne miary pozycji
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
•
•
•
•
•
Średnia arytmetyczna x: 22,6
Mediana Me: 23
Pierwszy kwartyl (25 percentyl): 17
Drugi kwartyl (mediana, 50 percentyl): 23
Trzeci kwartyl (75 percentyl): 28
Jak wyznaczamy medianę i kwartyle
1. Porządkujemy wszystkie uzyskane wyniki od najmniejszego do
największego (400887 wyników, najpierw zera, potem jedynki itd.)
2. Poczynając od wyników najniższych szukamy takiego wyniku, że:
a) 25% wyników jest od niego niższych, a 75% wyższych – pierwszy kwartyl
b) 50% wyników jest od niego niższych, a 50% wyższych – drugi kwartyl, mediana
c) 75% wyników jest od niego niższych, a 25% wyższych – trzeci kwartyl
minimum
25% wyników
1. kwartyl
25% wyników
mediana
25% wyników
3.kwartyl
maksimum
25% wyników
Podstawowe parametry rozkładu
2. Miary zmienności wyników
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
średnia
1. kwartyl
•
•
•
3. kwartyl
Wariancja: 58,2
Odchylenie standardowe: 7,6
Odchylenie kwartylowe (ćwiartkowe): 11
Porównanie dwóch rozkładów
Sprawdzian 2009, szkoły publiczne i niepubliczne
miara
Średnia
Mediana
1. kwartyl
3. kwartyl
Wariancja
Odchylenie standardowe
Roztęp ćwiartkowy
Publiczne
n=393982
22,6
23
17
28
57,7
7,6
11
Niepubliczne
n=6905
27,4
29
22
34
60,4
7,8
12
Porównanie dwóch rozkładów
Sprawdzian 2009, dwie szkoły
miara
Średnia
Mediana
1. kwartyl
3. kwartyl
Wariancja
Odchylenie standardowe
Roztęp ćwiartkowy
SP A
n=132
28,9
29
25
33
26,0
5,1
8
SP B
n=143
24,9
25
18
33
83
9,1
15
Badanie współzmienności wyników dwóch
testów
• Czy zmianom jednej zmiennej towarzyszą zmiany
drugiej zmiennej?
• Analiza graficzna: wykresy rozrzutu
• Możliwe do zastosowania statystyki:
- współczynnik korelacji r Pearsona
- współczyniki regresji
Korelacja dodatnia (pozytywna)
współczynnik korelacji wyższy od zera
Korelacja ujemna (negatywna)
współczynnik korelacji niższy od zera
Brak korelacji (zerowa)
współczynnik korelacji bliski zeru
Korelacja nieliniowa
Konstruowanie testów osiągnięć
szkolnych
Testy osiągnięć a testy zdolności
testy poznawcze
testy osiągnięć
związane
z określonymi
kursami
testy osiągnięć
szeroko
zorientowane
słowne testy
inteligencji
bezsłowne
i wykonaniowe
testy inteligencji
testy inteligencji
wolne od
wpływów
kulturowych
Typy testów osiągnięć szkolnych
• Do pomiaru indywidualnej cechy lub cechy grupy
• Indywidualne:
– Przesiewowe (minimum kompetencji)
– Szerokiego stosowania
– Selekcyjne
• Testy różnicujące i testy kryterialne
• Testy mocy i testy szybkości
• Koncepcja oceniania kształtującego
Konstrukcja testu – podejście
klasyczne
Schemat konstrukcyjny testów
osiągnięć szkolnych
Normy wykonania
Wynik testu
Skalowanie
Wynik surowy
Ostateczna postać testu
Badania pilotażowe
– wybór zadań,
określenie rzetelności testu
Zadania testowe
Cele kształcenia
Elementy składowe testu
1. Lista celów edukacyjnych
2. Plan testu
3. Zadania testowe
4. Schematy punktacji
5. Kwestionariusz testu
6. Instrukcja przeprowadzenia testu (standaryzacja
sytuacji testowej)
7. Normy wykonania testu: ilościowe i treściowe
Zadania testowe: klasyfikacja
Zadania
testowe
„Papier ołówek”
Praktyczne
W sytuacji
naturalnej
Prowokowane
Otwarte
Krótkiej
odpowiedzi
Rozbudowanej
odpowiedzi
Zamknięte
Prawda-fałsz
Na dobieranie
Wielokrotnego
wyboru
Porządkowanie
listy
Trafność testu
Trafność testu
• Podejście dydaktyczne: test jest trafny, gdy:
– uczniowie wykonują, te operacje umysłowe,
na których nam zależy
– możemy dostać na to dowód
Trafność testu
Aspekt trafności:
•Dydaktyczny
Czy zadania sprawdzają przyswojenie wiadomości i umiejętności
przewidzianych w programie
•Fasadowy
Czy test zdaniem użytkowników i odbiorców jest adekwatny
•Kryterialny
Czy wynik testu koreluje z uznanymi miarami danego zasobu wiedzy lub ich
korelatami
•Prognostyczny
Czy test pozwala prognozować przyszłe osiągnięcia
•Interpretacyjny
Czy wynik jest właściwie interpretowany i na jego podstawie podejmowane są
adekwatne decyzje
•Konsekwencyjny
Jakie konsekwencje społeczne niesie za sobą stosowanie testu
Metody analizy trafności
• Analiza treściowa testu
• Analiza jakościowa rozwiązywania zadań:
wywiady pogłębione z uczniem (Jak
rozwiązywałeś to zadanie?)
• Analiza statystyczna: związek z innymi miarami
odniesienia
Rzetelność testu
Rzetelność testu
• Każdy pomiar obarczony jest niepewnością pomiarową
• Klasyczne ujęcie niepewności pomiarowej
wynik empiryczny = wynik prawdziwy + błąd pomiaru
Wynik prawdziwy: średni wynik z nieskończonej liczby
powtórzeń testu
Błąd pomiaru
Wynik ucznia w teście
Uczeń
Wysokie
Niskie
Wyniki
Błąd pomiaru
Wynik ucznia w teście
Wynik
prawdziwy
Uczeń
Błąd pomiaru
Wysokie
Niskie
Wyniki
Główne źródła błędu pomiaru w testach
osiągnięć szkolnych
• Arbitralność doboru zadań testowych
• Niedostatki standaryzacji procedury testowej
• Zgadywanie w zadaniach zamkniętych
• Ocena wykonania zadań otwartych
• Ściąganie
• Losowe wahania dyspozycji intelektualnych ucznia
• Błędy systematyczne: stronniczość testu
Metody ilościowego określania rzetelności
wyniku testu
• Dwukrotne testowanie
– Korelacja między wynikami dwóch testów
• Metoda połówkowa
– Korelacja między wynikami dwóch połówek testu
• Wewnętrzna spójność testu
– Współczynnik rzetelności Alfa Cronbacha
Współczynnik rzetelności Alfa Cronbacha
Rzetelność jest to stosunek
zróżnicowania wyniku
prawdziwego
do zróżnicowania wyniku
uzyskanego na podstawie
testowania (będącego
sumą zróżnicowania wyniku
prawdziwego oraz
zróżnicowania błędu pomiaru)
Intertretacja ws. Alfa Cronbacha
Wykorzystanie wsp. rzetelności
w interpretacji wyniku testu
Przykładowa informacja o wyniku ucznia dla rodziców,
Massachusets, MCSA 2002
Prawdopodobieństwo że
wynik ucznia znajduje się w
przedziale wyznaczonym
przez oddcinek wynosi 95%
Idea szacowania przedziału ufności
Wynik ucznia w teście
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Przedział
ufności
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Rzetelność testu
Funkcja
prawdopodobieństwa
Wynik ucznia
Wynik mało
prawdopodobny
(2,5%)
Wynik mało
prawdopodobny
(2,5%)
Wyniki
Wysokie
Niskie
Wynik prawdopodobny (95%)
Rzetelność oceny zadań otwartych –
opis eksperymentu
Na podstawie: R. Dolata, E. Putkiewicz, A. Wiłkomirska Reforma
egzaminu maturalnego: oceny i rekomendacje
Instytut Spraw Publicznych, badanie sfinansowane przez MENiS
Analiza rzetelności systemów punktacji
• Przedmiotem analiz były systemy punktacji
przygotowane na maturę 2002:
– Język polski - wypracowania (arkusz I i III), rozumienie
czytanego tekstu (arkusz II).
– Historia – test i interpretacja źródeł (arkusz I i II).
– Matematyka – poziom podstawowy i rozszerzony
(arkusz I i II).
Procedura badania rzetelności
• Dobór prac.
• Przygotowanie prac do ponownego
sprawdzania.
• Dobór egzaminatorów.
Problem trafności ekologicznej
eksperymentu
• Czynniki mogące zawyżać oszacowanie rzetelności:
- dobór egzaminatorów (posługiwanie się dobrze znanym
schematem punktacji),
- pominięcie opcji (polski, historia).
• Czynniki mogące zaniżać oszacowanie rzetelności:
- upływ czasu,
- brak procedur oceniania grupowego
Metoda badania rzetelności systemów
punktacji
• Każda praca była niezależnie sprawdzana przez ośmiu
egzaminatorów. Problem wielkości próbki.
• Zbiór danych (dla każdego kryterium):
Lp
E1 E2 E3 E4 E5 E6 E7 E8
1.
31
25
35
36
21
27
36
21
2.
55
41
59
25
26
21
36
54
3.
48
49
51
50
48
47
52
50
…
… … … … … … … …
50. 21
18
19
20
21
21
19
20
Model analizy statystycznej
Efekt jakości pracy
Całkowita zmienność ocen
Prosty efekt egzaminatora
Interakcyjny efekt egzaminatora
Wyniki analizy rzetelności punktacji dla
wypracowania, arkusz III
Efekt jakości pracy
49%
Całkowita zmienność ocen
22%
Prosty efekt egzaminatora
29%
Interakcyjny efekt egzaminatora
Efekt egzaminatora dla przykładowych
wypracowań
Lp.
Średnia
ocena
Rozrzut ocen
(SD)
Minimalna
Maksymalna
39
60,3
18,9
29
86
48
46,9
18,5
11
67
18
43,4
18,2
24
72
28
57,5
17,1
33
80
06
46,0
16,6
19
77
Co odpowiada za niską rzetelności
systemu punktacji arkusza III?
• Zawiodła przede wszystkim kryterialna skala
rozwinięcia tematu (rzetelność=54%).
• Zła budowa skal szacunkowych:
– skala kompozycji (rzetelność=33%),
– skala stylu (rzetelność=31%),
– skala poprawności językowej (rzetelność=34%).
• Użyto z założenia subiektywnej skali szczególnych
walorów pracy (rzetelność=23%).
Najmniej i najbardziej rzetelne kryterium
skali rozwinięcia tematu, arkusz III
• Kryterium 17: 77%
– Dostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji
łacińskiej i wkroczenia barbarzyńców)
• Kryterium 15.1.: 14%
– Za pogłębione wnioski
• Ogólna prawidłowość: im wyższy poziom
taksonomiczny, tym niższa rzetelność kryterium.
Przykład wadliwie skonstruowanej skali
szacunkowej
Skala poprawności językowej wypracowania
Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt.
Oto ich opis:
• 0 – brak opisu,
• 5 – w większości poprawna składnia i frazeologia, zgodna z normą
fleksja, nieliczne usterki leksykalne oraz nieliczne błędy
ortograficzne i interpunkcyjne,
• 10 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą
fleksja, sporadycznie pojawiają się błędy ortograficzne i
interpunkcyjne,
• 21 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą
fleksja i ortografia, rzadko pojawiające się błędy interpunkcyjne.
Zestawienie wyników analizy rzetelności
systemów punktacji
Rzetelność
Prosty efekt
egzaminatora
Interakcyjny
efekt
egzaminatora
Polski, arkusz I
55%
16%
29%
Polski, arkusz III
49%
22%
29%
Polski, arkusz II
80%
7%
13%
Historia, arkusz I
95%
2%
3%
Historia, arkusz II
58%
29%
13%
Matematyka,
arkusz I
99%
1%
0%
Matematyka,
arkusz II
97%
1%
2%
Arkusz
Koniec opisu eksperymentu
Zapewnianie rzetelności testu: analiza mocy
różnicującej zadań testowych
Krzywe charakterystyczne dla trzech zadań ze Sprawdzianu 2010
1.00
.90
.80
.70
.60
zad_7
.50
zad_11
zad_15
.40
.30
.20
.10
0 pkt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40 pkt
.00
Zadanie X
Zadanie Y
Zadanie Z
Skalowanie wyniku
• Jaki rozkład ma wynik testu w populacji docelowej?
• Normalizacja wyniku
• Standaryzacja wyniku
Normalizacja i standaryzacja
skala o średniej 100 i odchyleniu standardowym 15
Egzamin 1
Wyniki pierwotne
Egzamin 2
Egzamin 3
Normalizacja i standaryzacja
skala o średniej 100 i odchyleniu standardowym 15
Egzamin 1
Wyniki pierwotne
Wyniki
znormalizowane
Egzamin 2
Egzamin 3
Normalizacja i standaryzacja
skala o średniej 100 i odchyleniu standardowym 15
Egzamin 1
Wyniki pierwotne
Wyniki
znormalizowane
Wyniki po
przejściach
Egzamin 2
Egzamin 3
Rozkład normalny
Standaryzacja
• Skala standaryzowana - skala przedstawiająca wyniki pomiarów
uzyskanych z dowolnej skali w postaci jednostek odchylenia
standardowego, czyli tzw. wyników standaryzowanych
• Zastosowanie skal standaryzowanych wynika z potrzeby
porównywania wyników uzyskanych na dwóch (lub więcej) skalach
pomiarowych o odmiennych właściwościach i przez to bezpośrednio
nieporównywalnych
• Najczęściej spotykanym sposobem standaryzacji jest tzw.
standaryzacja Z którą można wyrazić poniższym wzorem gdzie:
–
–
–
–
Zi - zmienna standaryzowana
SD - odchylenie standardowe w grupie
X - średnia w gupie
Xi – wynik i-tego ucznia
Skala wyników standaryzowanych z
• Uzyskane w ten sposób wartości wyników standaryzowanych
przyjmują wartości dodatnie lub ujemne, w zależności od tego, czy
odchylają się w górę, czy w dół od wartości średniej.
Autor, dr H. Szaleniec
Relacje pomiędzy pięcioma skalami standardowymi
Skala staninowa
Wprowadzenie do IRT
(probabilistyczna teoria odpowiedzi na zadanie testowe)
Schemat konstrukcyjny testów osiągnięć
szkolnych
Item Response Theory
Normy wykonania
Wynik testu
Skalowanie
Pilotaż wersji przeznaczonych
do danego zastosowania
Wiele możliwych wersji testu
Bank zadań
Badania pilotażowe
– wybór zadań do banku
i określenie ich parametrów
Zadania testowe
Cele kształcenia
Podstawowe założenia i cechy IRT
•
Wykonanie zadania testowego zależy od poziomu ukrytej (bezpośrednio
nieobserwowalnej) dyspozycji umysłowej
•
Skala pomiarowa jest kumulatywna
•
Poziom ukrytej dyspozycji wyznacza prawdopodobieństwo poradzenia
sobie z danym zadaniem testowym (uwzględnienie czynników losowych)
•
Jedno- lub wielowymiarowość danego testu
•
Model zależności ukryta dyspozycja - radzenie sobie z zadaniem podlega
empirycznemu testowi (zgodność modelu z danymi)
•
Trudność zadań i poziom ukrytej dyspozycji umysłowej ucznia można
lokować na jednej skali
• Jak rozumieć pojęcie ukrytej dyspozycji?
Interpretacja związku między poziomem
wykonania dwóch zadań
• Analiza dla zadań 0-1
zadanie 2
zadanie 1
wykonał
nie
wykonał
wykonał
a
b
a+b
nie
wykonał
c
d
c+d
a+c
b+d
a+b+c+d
Brak korelacji między dwoma zadaniami
Φ=0,0
zad. 2
zad. 1
1
0
1
25
25
0
25
25
zad.1
zad. 2
dysp. x
dysp. y
niezależne dyspozycje
Korelacja pozytywna między dwoma zadaniami
Φ=1,0
zad.1
zad. 2
zad. 2
zad. 1
1
0
1
50
0
0
0
50
dysp. x
wspólna dyspozycja
Odkrywanie ukrytych wymiarów
• Analizując empiryczne powiązania między zadaniami
odkrywamy ukryte dyspozycje umysłowe mierzone przez
dany test
• Do wyjaśnienia radzenia sobie z danym zbiorem zadań
może wystarczyć jedna (test jednowymiarowy) lub kilka
(wielowymiarowy) ukrytych dyspozycji umysłowych
• W praktyce stosuje się jednowymiarowe modele IRT
• Jak rozumieć kumulatywność skali
pomiarowej?
Zależności kierunkowe między zadaniami
zad.1
zad. 2
zad. 2
zad. 1
1
0
1
50
20
0
0
30
wspólna dyspozycja
Trzy wiązka trzech zadań tworzy kumulatywną
skalę?
zad.1
zad. 2
wspólna dyspozycja
zad. 3
Sprawdzanie, czy wiązka trzech zadań spełnia
warunek kumulatywności (skalogram Guttmana)
Wzorce zgodne
Wzorce niezgodne
Wzorzec
odpowiedzi
Liczba
przypadków
Wynik
surowy
Wynik
skalowy
000
100
110
111
101
010
011
001
15
25
30
20
5
2
2
1
100
0
1
2
3
2
1
2
1
0
1
2
3
3
2
3
3
razem
Jak uwzględniamy działanie czynników
losowych?
Prosty determinizm
poziom dyspozycji  radzenie sobie z zadaniem
radzi sobie z zadaniem
prawdopodobieństwo
poradzenia sobie z zadaniem
1
nie radzi sobie z zadaniem
niski
poziom dyspozycji umysłowej
wysoki
Związek probabilistyczny – model
prostoliniowy
prawdopodobieństwo
poradzenia sobie z zadaniem
1
niski
poziom dyspozycji umysłowej
wysoki
Związek probabilistyczny – model
logistyczny
prawdopodobieństwo
poradzenia sobie z zadaniem
1
niski
poziom dyspozycji umysłowej
wysoki
Jak empirycznie testujemy teorię związku
poziomu dyspozycji umysłowej
z radzeniem sobie z danym zadaniem?
Przykład modelu dobrze dopasowanego do
danych
prawdopodobieństwo
poradzenia sobie z zadaniem
1
niski
poziom dyspozycji umysłowej
wysoki
Przykład modelu źle dopasowanego do
danych
prawdopodobieństwo
poradzenia sobie z zadaniem
1
niski
poziom dyspozycji umysłowej
wysoki
Lokowanie zadania na skali 
Zadanie x
prawdopodobieństwo
poradzenia sobie z zadaniem
1,0
0,5
-4
niski
-3
-2
-1
0
1
poziom dyspozycji umysłowej
2
3
wysoki
4

Zestaw 5 zadań tworzących skalę
0.8
0.6
0.4
0.2
0.0
Prawdopodobieństwo poprawnej odpowiedzi
1.0
Krzywa charakterystyczna odpowiedzi
-4
-2
0
2
4
Cecha ukryta
niski
poziom dyspozycji umysłowej
wysoki

Określanie trudności tych zadań
0.8
0.6
0.4
0.2
0.0
Prawdopodobieństwo poprawnej odpowiedzi
1.0
Krzywa charakterystyczna odpowiedzi
-4
-2
0
2
4
Cecha ukryta
niski
poziom dyspozycji umysłowej
wysoki

Lokowanie ucznia na skali 
Metoda największej wiarygodności
Warunkowe prawdopodobieństwo poradzenia
sobie z zadaniem
Jaś:
Małgosia:

Zad. 1
Zad. 2
Zad. 3
Zad. 4
Zad. 5
110--
--110
-3
0,15
0,05
0,01
0,01
0,01
0,007
0,001
-2
0,50
0,15
0,05
0,01
0,01
0,070
0,001
-1
0,90
0,50
0,15
0,05
0,01
0,383
0,007
0
0,95
0,90
0,50
0,15
0,01
0,428
0,074
1
0,99
0,95
0,90
0,50
0,15
0,094
0,383
2
0,99
0,99
0,95
0,90
0,50
0,049
0,428
3
0,99
0,99
0,99
0,95
0,90
0,010
0,094