Eksperimentet

Download Report

Transcript Eksperimentet

Eksperimentet
Frode Svartdal
UiTø
© Frode Svartdal – H2005
Korrelasjonell forskning
Problemer med tolkning av en observerte
relasjon mellom to variabler, A og B:



Hvilken variabel er den kausale, A eller B?
Tredjevariabelproblemet (er det en tredje variabel,
C, som er årsak til både A og B?)
En observert korrelasjon mellom to variabler
innebærer ikke nødvendigvis et årsakvirkningsforhold
Eksperimentell forskning
Siktemål



Identifisere kausale relasjoner
Formulere gode forklaringer
Eliminere dårlige forklaringer
Strategi

Prøve ut en mulig kausal faktor mens
andre mulige kausale faktorer holdes
konstant
Eksperimentet
 Viktige kjennetegn:



Forskeren manipulerer en variabel
(uavhengig variabel)
Forskeren har kontroll over andre relevante
variabler i situasjonen
Forskeren måler om manipulasjonen har
effekt på en annen variabel (avhengig
variabel)
Eksperimentell metode
”The experiment is a matter of logic,
not of location.”
Eksperimentet
 Uavhengige variabel
Manipuleres av
eksperimentator
 Avhengig variabel
Måles av
eksperimentator
 Eks.: Støy
 Eks.: Prestasjon
ÅRSAK
VIRKNING
Manipulasjon I
 Den uavhengige variabel innføres på
ulike nivåer for ulike betingelser i
eksperimentet
 Eksempler:



Belønning: Høy vs. lav
Belønning: Høy vs. ingenting (0)
Støy: Høy, middels, lav
Manipulasjon II
Variabelnivå:

Belønning: Høy, lav
Operasjonalisering:


For barn: Høy=100 kr, lav=5 kr
For voksne: Høy=500 kr, lav=100 kr
Mao: Operasjonaliseringen må tilpasses deltakerne i
eksperimentet
Manipulasjon III
Et eksperiment kan manipulere én eller
flere uavhengige variabler
• Én variabel:
•
Støy (høy vs. lav)  Effekt på prestasjon?
• To variabler:
•
•
Støy (høy vs. lav)
 Effekt på prestasjon
Oppgave (vanskelig vs. lett)
Manipulasjon IV
Alle eksperimenter innebærer manipulasjon av
den uavhengige variabel:
• Mellomgruppe-design: Ulike nivåer innføres
for forskjellige grupper av forsøksdeltakere
• Eksperimentgruppe: Høy belønning
• Kontrollgruppe: Lav belønning
• Innengruppe-design: Ulike nivåer kan
fordeles i tid for samme gruppe av
forsøksdeltakere
• Observasjonsbetingelse: Ikke ros
• Treningsbetingelser: Ros
Manipulasjon V
GRUPPEDESIGN
• Mellomgruppe
• Eksperimentgruppe: Høy belønning
• Kontrollgruppe: Ikke belønning
• Innengruppe
• Observasjon (ikke belønning)  Trening (belønning)
• Blandet
• Mellomgruppe + innengruppe
N=1-DESIGN
• Bare en deltaker om gangen
• Observasjon (ikke belønning)  Trening (belønning)
Kontroll
For å kunne observere en effekt av den
manipulerte variabelen, må annen
vatriasjon være under kontroll


Variasjon som skyldes at deltakere er
forskjellige
Variasjon som skyldes situasjonsbetingelser
Kontroll II
Kontroll over situasjonen:
Bortsett fra den variabelen som
manipuleres, må alt annet i situasjonen
holdes konstant.



Eksperimentsituasjonen er lik for alle
Instruksen er lik for alle
Prosedyren er lik for alle
Kontroll III
Kontroll over deltakerne:
Variasjon som skyldes at folk er
forskjellige, må være under kontroll



Randomisert fordeling av deltakere til ulike
betingelser – sikrer at det ikke oppstår
systematiske forskjeller mellom gruppene
Matching (se boka)
Bruke bare kvinner, bare menn? (Variasjon
som skyldes kjønn elimineres.)
Kontroll IV
Hypotese: «Koffein virker positivt på læring?»
Manipulasjon:
 Gruppe 1: 1 kopp kaffe før læring
 Gruppe 2: 5 kopper kaffe før læring
Situasjonen er under kontroll:
 Ingen kaffe drukket 5 timer før forsøket startet
 Eksperimentsituasjonen er den samme for alle
 Prosedyren er den samme for alle
Variasjon mellom deltakerne er under kontroll:
 Bruker bare kaffedrikkere, eller bare ikke-kaffedrikkere
 Fordeler deltakerne tilfeldig til de to gruppene
Eksperimentet
Enkel logikk!
Vi vil undersøke om variasjon (manipulasjon) i en UV
(koffein) fører til systematisk variasjon i AV (læring)
All annen variasjon er under kontroll
Hvis AV varierer systematisk med variasjon i UV, kan
vi trekke en slutning om kausalitet
Vårt eksperiment:


1 kopp kaffe: Gjennomsnitt 20,3
5 kopper kaffe: Gjennomsnitt 30,1
Slutning: “Koffein virker positivt på læring”
Beskrivelse vs. eksperiment
 Eksperiment
–
–
–
UV manipuleres
AV måles
Andre relevante
variabler er under
kontroll
 Beskrivende



Vi måler “naturlig”
variasjon i flere variabler
Noen av disse variablene
er mulige årsaker, andre
mulige effekter
Liten kontroll over andre
variabler
Eksperiment: Indre validitet
Indre validitet



Foreligger når vi kan si at det er
manipulasjonen i UV som er årsak til
endring i AV
Ikke alltid lett å dokumentere
Ofte alternative årsaker: Forstyrrende
(“confounding”) variabler
“Confounding” variabler
Hypotese: “Koffein virker gunstig på
prestasjon”


Manipulasjon: 1 vs. 5 kopper kaffe
Effekt på AV: 5 kopper gir bedre prestasjon enn 1
kopp
Slutning: “Koffein virker gunstig på
prestasjon”
Mulig confounding variabel: Væsken i kaffen!
To mulige forklaringer:


Koffein virker gunstig på prestasjon
Væske virker gunstig på prestasjon
Indre validitet II
Alle forhold som kan sette
spørsmålstegn ved vår slutning om
effekt av UV på AV, utgjør trusler
mot den indre validiteten i
eksperimentet
Trusler mot den indre validiteten
•
•
•
•
•
•
•
Historie: Hva skjer i tillegg til manipulasjonen?
Modning: Folk endres i løpet av eksperimentet
Testing: Hva er effekten av at folk testes?
Instrumentering: Endring i målemetoden
Statistisk regresjon
Seleksjon: Forskjellige folk havner i ulike betingelser
Mortalitet: Frafall (uheldig hvis dette skjer
differensielt over betingelser)
• Utvanning mellom betingelsene: Informasjon
utveksles mellom betingelsene i eksperimentet
Historie
Manipulasjon

Drikker 5 kopper kaffe
Andre ting som skjer parallelt med
manipulasjonen

Solen begynner å skinne inn vinduet, eksperimentator
mister en kopp i gulvet, …
Historie spesielt viktig hvis manipulasjonen
strekker seg over tid

Eks.: Terapi
Modning
Endring som skjer med fp i løpet av
eksperimentet

Eks.: Tretthet, kjedsomhet, hodepine,
skepsis mot deltakelse, …
Testing
Samme måleprosedyre brukt to ganger
kan innebære at de ikke blir de
”samme”

Samme person
 IQ-test i august: Naiv
 IQ-test i november: Husker fra første gang
Instrumentering
Endring i måleprosedyre

Observatør:
 I starten av eksperimentet: Liten rutine, mye
feil
 Etter hvert: Mer rutine, færre feil
Statistisk regresjon
Gitt et gjennomsnitt: Observasjon av en
ekstrem observasjon  mindre ekstrem
observasjon
Fly-elev:



Prikkfri landing  ros fra instruktør  neste
landing dårligere
Dårlig landing  skrape fra instruktør  neste
landing bedre
Konklusjon: ”Ros virker negativt, skjenn positivt”?
Seleksjon
Ikke-tilfeldig fordeling av deltakere til
bestingelser
 Folk som kjenner hverandre kommer i samme
betingelse
 Overvekt av kvinner i en betingelse, menn i en
annen
 Røykeavvenningsprogram: Overvekt av
storrøykere i en betingelse, selskapsrøykere i
en annen
Mortalitet
Frafall underveis

Røykeavvenningsopplegg, 10 uker
 Storrøykere: 20% trekker seg underveis
 Selskapsrøykere: 5% trekker seg underveis
Diffusjon mellom betingelsene
Elever med atferdsproblemer



Eksp.gruppe: Spesiell trening
Kontrollgruppe: Ingenting
Men: Hvis dette skjer på samme skole, er
det vanskelig å holde manipulasjonen
atskilt  noe av manipulasjonen vil smitte
over på kontrollgruppen
Trusler … II
Eksperimenter designes med det
siktemål å stå mot slike trusler
 Eksperimentelle design (neste gang)
Andre trusler …
Eksperimentsituasjonen  fp
• Demand characteristics (Orne, 1962)
•
Forhold i situasjon kan påvirke deltakernes
prestasjon
• Eks.: Fp tror at eksperimentet handler om
lydighet, og blir enten veldig lydig eller veldig
ulydig
•
Svært uheldig hvis holdepunktene er
systematisk relatert til hypotesen
Andre trusler …II
Eksperimentator  fp
• Eksperimentator kan oppføre seg
systematisk forskjellig i eksperimentets
betingelser  påvirke resultatene
• Løsning: Eksperimentator er “blind”
overfor hypotese, eksperimentell
betingelse
Eksperimentet
Uavhengig
variabel =
belønning
Eksperiment- Høy betaling
gruppe (20)
(100 kr)
Avhengig
variabel =
prestasjon
Rette svar på
test = 17 av 20
Randomisering
Kontrollgruppe (20)
Lav betaling
(10 kr)
Rette svar på
test = 12 av 20
Signifikans
Er den effekten vi ser i vårt utvalg
representativt for populasjonen?


Utvalg (40, 20 i eksperimentgruppen og
20 i kontrollgruppen)
Populasjon (den enhet utvalget er hentet
fra)
Signifikanstesting
Deltakere (40) hentet fra en tenkt populasjon



Randomisert fordeling til to grupper, 20 + 20
Ulike nivåer av UV for de to gruppene
Gruppeforskjell: 17 vs. 12
Hvor sannsynlig er det at den observerte forskjellen skal
inntreffe, gitt at utvalgene stammer fra samme populasjon?
To hypoteser vi må velge mellom


0-hypotesen: “Utvalgene er like”
Forskningshypotesen: “Utvalgene er forskjellige”
Hvis 0-hypotesen er meget usannsynlig (< 1 av 100), forkastes
0-hypotesen
Forskningshypotesen støttes indirekte
Signifikans vs. effektstørrelse
• Er gruppeforskjellen (17 vs. 12)
statistisk signifikant?
•
Dvs.: Ville vi fått samme resultat om vi
hadde gjentatt undersøkelsen på nytt, med
et nytt utvalg fra samme populasjon? Er
forskjellen reliabel?
• Er gruppeforskjellen stor?
•
Dvs. Effektstørrelse: Hvor mye slår
manipulasjonen ut på AV?
Effektstørrelse
Effektstørrelse: Vurderes ut fra teoretiske,
praktiske hensyn, for eksempel:
• Effekt av terapi
•
Rettet mot individer  Tiltak bør ha relativt stor
effektstørrelse
• Effekt av tiltak mot trafikkulykker
•
Rettet mot store grupper i samfunnet  Tiltak
kan ha nesten ubetydelig effektstørrelse, men
er likevel signifikante og kan være av betydning i
et samfunnsperspektiv
Signifikans II
Mao: Signifikanstesten angår om man
forkaster 0-hypotesen eller ikke
Hvis 0-hypotesen forkastes, aksepteres
forskningshypotesen indirekte
NB! Forskningshypotesen støttes altså ikke
automatisk, dette må sannsynliggjøres


Statistisk hypotesetesting vs.
Tolkning av data til støtte for en hypotese
Eksperimentell forskning
+ Høy indre validitet pga god kontroll
over variabler
- Hvis i lab: “Kunstige” betingelser, lav
økologisk validitet
- Vekker ofte mistro, mistanke hos
deltakerne
Studier i det ”naturlige” miljø
+ Høy økologisk validitet pga høy grad
av realisme i studiesituasjonen
+ Kan studere temaer som ikke lar seg
studere i en lab

Eksempel: _______
- Minimum av mistro fra deltakerne
Lab vs. felt
Realismen i feltundersøkelser er høy, i
laboratorieundersøkelser typisk lav


Felt: Betingelsene “ligner” den virkelige verden
Lab: Betingelsene er kunstige og arrangerte
Realisme:


“Mundan” realisme: Overflatisk likhet mellom
studiesituasjon og verden
Psykologisk realisme: Likhet i mekanismer
(psykologisk likhet)
Korrelasjonell vs. eksperimentell
KORRELASJONELL
UAVHENGIG
VARIABEL
RANDOMISERT
FORDELING
EKSPERIMENTELL
Varierer naturlig Under kontroll av
forsker
Nei
Ja
KLAR SLUTNING OM Vanligvis ikke
KAUSALITET
Ja
EKSPLORERENDE
Ofte
Vanligvis ikke
TESTER TEORI
Ofte
Typisk
UNDERSØKER
FLERE RELASJONER
Typisk
Ofte
Lab-eksp. vs feltstudier
LAB-EKSPERIMENT
FELTSTUDIER
KONTROLL OVER
VARIABLER
Høy
Lav
RANDOMISERING
Alltid
Sjelden (kun i
felteksperimenter)
GJENNOMFØRBARHET
Enkel
Ofte komplisert
MUNDAN REALISME
Lav
Høy
PSYKOLOGISK REALISME
Bør være høy
Bør være høy
MISTANKE, MISTRO
Ofte høy
Ofte lav
EXTERN VALIDITET
Ikke alltid høy
Høy