statistisk usikkerhet - Universitetet i Stavanger

Download Report

Transcript statistisk usikkerhet - Universitetet i Stavanger

Vurdering av statistiske
analysemetoder brukt i Læringslabens
undersøkelser i videregående skole i
Rogaland
Oppdragsgiver for prosjektet:
Rogaland Fylkeskommune
Bakgrunn: støy omkring Læringslaben (LL) sine
arbeider
Bjørn Henrik Auestad
Førsteamanuensis i statistikk
Universitetet i Stavanger
Hovedfag i statistikk (UiB, 1988)
Dr.grad i statistikk (UiB 1991),
Lang erfaring med bruk av statistiske metoder;
forskning og undervisning
Arbeidsform i prosjektet
• utgangspunkt i ”Grunnlagsrapport 2007”; også
arbeid LL har gjort tidligere for Rogaland fylk.
• dialog med LL; bl.a. møte i Stavanger den 15.
mars; nyttig kontakt
• Metodene som beskrives i grunnlagsrapporten er
de samme som brukes i rapport til Rog. fylk. for
2007
Grunnlagsrapport 2007
• Pedagogisk teori, vurderinger og analyser
• Vitenskapsteori (!)
• Statistiske analyser
– enkle beskrivende
– avanserte (korrespondanse, prinsipal komponent,
faktor, ...)
– sammensatte, ikke-standard-metoder
Grunnlagsrapport 2007
korrespondanseanalyse,
prinsipal komponent analyse,
faktoranalyse, ...
• Det er flott å kunne håndtere slike avanserte
metoder!
• Utfordring ved formidling?
• Unødvendig komplisert?
Kunne det vært gjort enklere?
Statistisk usikkerhet
Når vi skal trekke konklusjoner på bakgrunn av
statistiske data, må vi ta høyde for det vi kaller
statistisk usikkerhet i resultatene våre.
Skoledataene er data med statistisk usikkerhet.
Dette må forstås og håndteres ordentlig!
Statistisk usikkerhet
Eksempel: Skolegjennomsnittene for variabelen
”motiverende lærer”:
Statistisk usikkerhet
Eksempel: Skolegjennomsnittene for variabelen
”motiverende lærer”:
2,6
2,8
3,0
3,2
3,4
3,6
Figur viser skolesnittene og grenser.
Statistisk usikkerhet?
3,8
Statistisk usikkerhet
Modell for statistisk usikkerhet; s. 62 i gr.rapp.:
observert skåre
= valid skåre
+ systematisk feil
+ tilfeldige feil
BRA!
Beskrivelsen av leddet tilfeldige feil mangler
individuell variasjon.
Statistisk usikkerhet
Individuelle variasjoner
(Ulike elever opplever
skolens/skolesystemets
egenskaper ulikt. Neste kull
sine svar på de aktuelle
spørsmålene vil neppe gi
eksakt samme fordeling.)
Omfanget av denne
variasjonen dominerer de
tilfeldige feilene.
Omfanget av tilfeldige feil
totalt kommer til uttrykk i
spredningen i svarene
som vi ser i figurene
Motiv. lærer for en skole i Rog.
Statistisk usikkerhet
Omfang av tilfeldig variasjon kan simuleres:
Statistisk usikkerhet
Omfang av statistisk usikkerhet i skolesnittene:
2,6
2,8
3,0
3,2
3,4
3,6
3,8
2,6
2,8
3,0
3,2
3,4
3,6
3,8
2,6
2,8
3,0
3,2
3,4
3,6
3,8
Statistisk usikkerhet
• Det er ikke tatt hensyn til denne usikkerheten i
forbindelse med "Kriteriebasert vurdering"
• F.eks. vil skolesnittene ha en viss spredning
utelukkende forårsaket av individvariasjonen,
mens LL nærmest forutsetter virkelige forskjeller.
– (ANOVA-liknende metode aktuell)
Statistiske tester
Det brukes t-tester, effektstørrelse og kikvadrat-tester i forbindelse med "Kriteriebasert
vurdering"
t-test: sammenligning av to gjennomsnitt der man
tar hensyn til foreliggende statistisk usikkerhet
(”statistisk signifikant forskjell”)
effektstørrelse: mål på praktisk interessant
forskjell.
KUN DERSOM DET ER STATISTISK FORSKJELL!!!
Statistiske tester
• t-tester og effektstørrelse brukes feil i forbindelse
med grenseverdiene, kp. 10.4, ... (f.eks. s 273)
Statistiske tester
• Ki-kvadrat-tester; i forbindelse med grensene
• feil bruk
Statistiske tester
• Ki-kvadrat-tester; i forbindelse med grensene
mot * int Crosstabulation
Count
int
rød
mot
gul
grønn
Total
rød
5
10
15
30
gul
5
28
10
43
15
10
5
30
25
48
30
103
grønn
Total
Chi-Square Tests
Value
As ymp. Sig.
(2-sided)
df
Pearson Chi-Square
23,754 a
4
,000
Likelihood Ratio
22,021
4
,000
Linear-by-Linear
As sociation
12,418
1
,000
N of Valid Cases
103
a. 0 cells (,0%) have expected count less than 5. The
minimum expected count is 7,28.
• feil bruk, 2
Statistiske tester
• Videre brukes effektstørrelse i feil (for å teste
statistisk forskjell) i kp. 8.2, 9.2
Kriteriebasert vurdering
Bra å komme bort fra rangeringen av
skolegjennomsnittene!
En del har sikkert opplevd analysene fra LL som
gode beskrivelser som har vært til hjelp –
konklusjonene synes å stemme.
Det er svært mange konklusjoner i en typisk
fylkesrapport. Mange av dem stemmer nok!
Statistiske tester
• Generelt problem med at det gjøres mange
statistiske tester (sammenligninger):
– forventet forekomst av feile konklusjoner øker!!!
• Flere metoder for å gjøre noe med dette finnes.
LL har ikke berørt problemet i det hele tatt.
Frafall/representativitet
Frafall/representativitet
Frafall/representativitet
Frafall/representativitet
• Personalundersøkelsen, Rogaland 2006, kp. 2:
– ca. 1550 deltar av ca.3300
– er utvalget representativt??
• Hvem er de som ikke svarte?
• Kan det tenkes noe mønster i holdninger?
– Dette er ikke berørt i det hele tatt i rapporten.
Regresjonsanalyser
• I kp. 8.4, 9.4 og 10.3 (miljø- og
motivasjonsvariablene)
• Eksempel på regresjonsanalyse:
Regresjonsanalyser
• Forutsetninger for bruk
• .....
• ”Residualene” bør se noenlunde slik ut:
3
2
1
0
-1
-2
-3
-4
Regresjonsanalyser
• Residualene for modell beskrevet på s. 261:
4,00000
Standardized Residual
Standardized Residual
2,50000
0,00000
2,00000
0,00000
-2,00000
-2,50000
-4,00000
1,2
1,5
NTILES of motivasjon
1,8
2,00
4,00
COMPUTE motivasjon = (motærer + intrlære) / 2 (COMPUTE)
Spurv med kanon?!?!
• Hensikt med analysene: grunnlag for
kvalitetsutvikling av skolesystemene
• Viktig: grunnlaget må være udiskutabelt
• Enkle analyser er en stor fordel og brukes
klart mest!
– kan tenkes å være tilstrekkelig til de viktigste
formålene
– grunnlag for eierskap og engasjement
– komplekse og omfattende analyser er
resurskrevende
• Skeptisk til bruk av de avanserte metodene
på denne bakgrunn
Avslutning
• Ikke enkelt å finne ut hvilke metoder som har
vært brukt og hvordan de har vært brukt.
– Den delen har vært dårlig dokumentert, etter min
mening.
• Hva konsekvenser feil eller dårlig bruk av
statistiske metoder har i disse arbeidene, er
uoversiktlig.
– kvalitetssikringsarbeid trenges, etter min mening.