Effectonderzoek in de gedragswetenschappen: Zelftoets

Download Report

Transcript Effectonderzoek in de gedragswetenschappen: Zelftoets

Effectonderzoek in de gedragswetenschappen: Zelftoets Antwoorden
Open vragen
nr
juiste antwoord
1
Effectonderzoek kan een bijdrage leveren aan theorieontwikkeling, aan
een betere afstemming van de vele vormen van interventie op de
verschillende hulpvragen van volwassenen en kinderen en aan de
verhoging en/of waarborging van de kwaliteit van de hulp.
Omdat nog onvoldoende (goed) effectonderzoek plaatsvindt om een
dergelijke conclusie te rechtvaardigen en omdat er ook studies zijn, waarin
negatieve of géén effecten worden gevonden van interventies.
Als gevolg van het politieke beleid, dat evidence-based werken stimuleert,
en door de groeiende competitie tussen aanbieders van hulp en zorg.
2
3
4
5
6
7
8
9
10
11
Het black box-principe: er is een bepaalde situatie, daarin pleeg je een
interventie en vervolgens meet je of de situatie is veranderd. De
interventie, bijvoorbeeld het toedienen van medicatie, is een gegeven,
daar hoef je verder niet naar te kijken. De hulpverleningspraktijk draait
helemaal om de interventie en ziet die als een proces. Er is een idee dat
zich ontwikkelt in de praktijk. Er is aan het begin wel een notie over de
gewenste uitkomsten, maar nog lang geen zicht op een meetbaar
resultaat. De interventie is niet te beschouwen als een vast gegeven,
waardoor het black box-principe hier niet goed toe te passen is.
Er bestond een gebrek aan kennis van onderzoek en statistiek en er was de
kloof tussen onderzoek en praktijk.
1 Observatie, op ideeen komen. 2 Inductie, ideeën scherp formuleren. 3
Deductie, consequenties aan de formuleringen ontlenen voor de empirie.
4Toetsing, nagaan of de consequenties gelden in de empirie. 5 Evaluatie,
nagaan of de toetsing goed is verlopen en nagaan wat ik er van geleerd
heb.
Enkelvoudige deterministische hypothesen Alle A zijn B. Deterministische
existentiehypothese, er zijn A die B zijn. Probabilistische hypothesen, de
meeste A zijn B.
Descriptief. Exploratief. Hypothesetoetsend. Instrumenteel-nomologisch.
Interpretatief-theoretisch
1 Voorwerp van studie recht doen. 2 Vermijden van storende subjectiviteit.
1 Probleemstelling. 2 Diagnose. 3 Plan. 4 Ingreep. 5 Evaluatie
Alle activiteiten van een (menselijk) organisme, die waarneembaar of
registreerbaar zijn of tot waarneembare of registreerbare
toestandswijzigingen leiden.
12
13
14
15
16
17
Een interventieprogramma is een geheel van hulpverleningsactiviteiten,
die gekenmerkt worden door goed omschreven doelen, gericht op het
oplossen, verminderen of voorkomen van risico’s of problemen bij
kinderen en/of volwassenen; aansluiten bij toepasselijke theorieën en
hypothesen; goed gedefinieerd zijn wat betreft inhoud en doelgroep; in de
tijd gefaseerd zijn ter wille van het bereiken van de doelen; en vooraf
geplande evaluatiemomenten en evaluatiecriteria bevatten.
Wanneer de interventie (a) afhankelijkheid vertoont, dat wil zeggen
wanneer er een functionele relatie is tussen onafhankelijke variabele (de
interventie) en de afhankelijke variabele (de factor waaruit blijkt dat de
interventie invloed heeft); (b) specifiek is, dat wil zeggen de mate waarin
bepaalde handelingen verondersteld worden verantwoordelijk te zijn voor
de verandering in de participant(en); en (c) niet samengaat met
alternatieve verklaringsmogelijkheden, dat wil zeggen de mate waarin het
onderzoek er in slaagt verborgen factoren te benoemen en weg te werken.
Dat het bij effectiviteit en causale gevolgtrekkingen niet gaat om een allesof-niets zaak. Zij plaatsen het begrip op een continuüm, zodat het mogelijk
is om verschillende vormen en niveaus van causale gevolgtrekkingen te
onderscheiden.
De kosten die de toepassing van een interventieprogramma met zich
meebrengt zijn niet alleen voor rekening van degenen die het
interventieprogramma toepassen, maar bestaan ook uit de (financiële)
inspanningen die de doelgroep zich moet veroorloven om aan het
programma deel te nemen. Natuurlijk is het ook van belang om de kosten
van het effectonderzoek zelf te ramen en te wegen. In het algemeen is het
zo dat hoe hoger het niveau van precisie, betrouwbaarheid en
generalisatie is, hoe hoger de kosten zijn in termen van tijd, personele en
andere benodigde middelen (Wholey, Hatry & Newcomer, 2004). De
kosten van een effectonderzoek bestaan uit benodigde tijd en middelen
voor de effectonderzoeker en onderzoeksmedewerkers, maar ook die van
beleidsmakers, programmamanagers, ander personeel en de doelgroep
van het programma. Deze moeten worden afgewogen tegen de
opbrengsten van het onderzoek, zoals de kracht en geloofwaardigheid van
het geproduceerde bewijs ten opzichte van beleidsmakers, managers en
andere gebruikers en de invloed van de resultaten op de werking van het
programma.
Ontwikkelen van theorieën. Vooral en in het merendeel langs de weg van
de empirische cyclus van wetenschappelijk onderzoek.
Het doel van praktijkgericht onderzoek is het ontwikkelen, proberen en
evalueren van oplossingen voor praktijkproblemen die bestaan bij
aanwijsbare actoren buiten de wetenschap. Praktijkgericht onderzoek
wordt ook wel toegepast onderzoek genoemd (Verschuren, 1994) en
wordt vaak beschreven aan de hand van de regulatieve cyclus van Van
Strien (1975, 1986).
18
19
20
21
Product- en procesevaluaties verschillen wat betreft het doel dat zij
nastreven en de criteria die aangelegd worden. Productevaluaties hebben
vaak tot doel de rechtvaardiging van de interventie ten opzichte van de
uitvoerders, de doelgroep, de opdrachtgever en de financiers of het maken
van een beslissing over stoppen of doorgaan met de interventie. Deze
doelen worden ook wel summatief genoemd. De criteria op grond waarvan
de interventie wordt beoordeeld zijn bij productevaluaties ontleend aan
het doel van de interventie (zogenaamde goal-based productevaluaties).
De procesevaluatie heeft tot doel het tot stand brengen van veranderingen
in de interventie en/of bewustwording van de betrokkenen bij het proces
(ook wel formatieve doelen genoemd). De criteria op grond waarvan de
effectiviteit van de interventie wordt beoordeeld hoeven bij
procesevaluaties niet te zijn ontleend aan het doel van de interventie. Ook
de morele, maatschappelijke of politieke waarden kunnen bijvoorbeeld als
beoordelingsmaatstaf worden genomen.
Het belangrijkste verschil tussen kwalitatieve en kwantitatieve methoden
heeft te maken met de mogelijkheid om de verzamelde informatie
gemakkelijk tot getallen te reduceren. Kwantitatieve methoden bevatten
instrumenten
(bijvoorbeeld
gestructureerde
vragenlijsten,
gestandaardiseerde tests) die gemakkelijk vertaald kunnen worden in een
kwantitatieve formulering. Informatie, afkomstig van kwalitatieve
methoden
(bijvoorbeeld
participerende
observatie,
open
of
semigestructureerde interviews, dagboeken) bestaat in verbale, dus nietkwantitatieve termen.
Effectonderzoek is onderzoek, waarin met gebruikmaking van methoden
en technieken uit de sociale wetenschappen een waardeoordeel wordt
uitgesproken
over
het
feitelijk
functioneren
van
een
interventieprogramma, door dat te vergelijken met de doelen ervan en,
voor zover mogelijk, de systematische bepaling van de mate waarin het
programma een eventueel geconstateerde verandering veroorzaakte, met
de bedoeling bij te dragen tot betere, meer gefundeerde, rationelere
beslissingen over het programma om uiteindelijk bij te dragen aan een
optimale hulp- en zorgverlening.
De voorheen gebruikelijke uitdrukkingswijze voor een effect van een
interventie was gebaseerd op de statistische significantietoets van
bijvoorbeeld de verschillen tussen een groep die de interventie heeft
gevolgd en een controlegroep, na afloop van de interventie. In zo’n
toetsing kan ook een miniem effect statistisch significant worden, als de
grootte van de steekproeven (het aantal mensen dat de interventie volgt
en het aantal mensen in de vergelijkingsgroep) toeneemt. Het
begrippenpaar significant versus relevant is ingevoerd om een verschil te
kunnen maken tussen wat zowel significant als relevant is en wat wel
statistisch significant is, maar vakinhoudelijk nauwelijks relevant. Een ES is
niet afhankelijk van de omvang van een of meer steekproeven en levert
daardoor meer informatie op over de relevantie van de resultaten. ES’s
bieden bovendien daardoor het grote voordeel dat men de effecten van
verschillende studies kan vergelijken. Het rapporteren van ES verbetert de
eigen interpretatie én stelt de lezers in staat tot een betere interpretatie.
22
23
24
25
26
1. Inventariseren van begrippen en doelen. 2. Van doelen naar criteria en
hypothesen. 3. Opstellen van meetinstrumenten. 4. Opstellen van een
(experimenteel) onderzoeksdesign. 5. Verzameling, analyse en
interpretatie van de data. 6. Verslaglegging van het onderzoek.
Vragen naar de bruikbaarheid: Kunnen de resultaten van de evaluatie
beslissingen aangaande het programma beïnvoeden? Kan de evaluatie op
tijd plaatsvinden om bruikbaar te zijn? En is het programma relevant of
zwaar genoeg? Vraag naar de noodzaak: is er ander onderzoek verricht en
zo ja, wat zijn daaruit de resultaten? Vraag naar de noodzaak tot ethische
toetsing: valt het onderzoek onder de Wet medisch-wetenschappelijk
onderzoek met mensen?
Een analyse van de factoren die bij een probleem of risico een rol spelen
(risicofactoren, beschermende factoren, intermediaire factoren). Hoe die
factoren met elkaar in verband staan. Welke daarvan beinvloedbaar zijn en
welke niet. Wat is de prognose zonder ingrijpen (normale ontwikkelling)?
Een aanduiding van de werkzame bestanddelen van de interventie, zowel
algemeen werkzame bestanddelen als unieke (proces- en
therapeutvariabelen, afstemmingsvariabelen). Evt. storende factoren en
belangrijke covariaten. Doelen van de interventie. Tot welk type hulp het
interventieprogramma behoort en bij welke bestaande theorieën
aangesloten wordt, zodat een verband gelegd wordt met reeds aanwezige
kennis. Accurate bronvermelding. Duidelijke beschrijving van de doelgroep
van de interventie en de reden voor die doelgroep (cliëntvariabelen).
Met hidden third factors of storende factoren worden factoren bedoeld die
in plaats van de interventie de afhankelijke variabele beïnvloeden,
waardoor men, wanneer men er bij de toetsingsopzet niet in slaagt
storende factoren uit te schakelen, op basis van het onderzoek geen
conclusies kan trekken over het verband tussen de interventie en de
afhankelijke variabele(n). Dit gaat ten koste van de interne validiteit van
het onderzoek.
Met intermediaire factoren, ook wel intervening variable of moderatoren,
worden factoren bedoeld die het beoogde effect van de interventie
mediëren. De interventie heeft dan via een andere onafhankelijke
variabele (intermediaire factor) invloed op de afhankelijke variabele.
Grafisch kan dit als volgt worden weergegeven: A--> B -->C (A: Interventie,
B: Intermediaire factor, C: Afhankelijke variabele). Er is hier sprake van een
keteneffect of een distaal causaal verband (in tegenstelling tot een
rechtstreeks proximaal causaal verband).
27
het SMART-principe is management- en pedagogenjargon voor het
eenvoudig en eenduidig opstellen en controleren van doelstellingen. De
letters van SMART staan voor: Specifiek: de doelstellingen moeten
eenduidig
en
gedetailleerd
zijn;
Meetbaar:
onder
welke
(meetbare/observeerbare) voorwaarden is het doel bereikt; Acceptabel:
de doelstellingen moeten aanvaardbaar zijn voor en relevant gevonden
worden door de doelgroep en/of management; Realistisch: de
doelstellingen moeten haalbaar zijn; Tijdgebonden: wanneer (in de tijd)
moeten de doelen bereikt zijn?
28
Een goed onderscheid is dat van Lorion en Lounsburg (1982):
Tertiair:
na
het
opkomen
van
een
probleem
Secundair:
tijdens
het
opkomen
van
een
probleem
Primair: voor het opkomen van een probleem
29
Wat? De inhoud van de interventie, zoals bedoeld en uitgevoerd (de
methode en de implementatie). Werkt het? Welke effecten worden
beoogd en hoe zijn deze te operationaliseren en welke mogelijke
ongunstige effecten zijn er? Wanneer? Onder welke omstandigheden
treden de effecten (het sterkst) op (verloop/implementatie)? voor Wie? Bij
welke participanten (doelgroep) treden de effecten (het sterkst) op?
Waarom? Welke oorzakelijke of in stand houdende mechanismen zijn
beïnvloed?
Sleepereffecten zijn effecten die na de interventie pas na verloop van tijd
optreden en dus alleen met een longitudinaal design gemeten kunnen
worden. Bijvoorbeeld: minder behoefte aan speciaal onderwijs of vaker
afronden van middelbare school.
Effectcriteria vormen een steekproef uit alle mogelijke variabelen waarin
effect zich kan weerspiegelen. De onderzoeker moet een keus maken, op
grond waarvan een netwerk van variabelen ontstaat. Wanneer het effect
op
die
variabelen
benoemd
en
meetbaar
geformuleerd
(geoperationaliseerd) is, wordt in het boek gesproken van effectcriteria.
Het gevaar is dat studies ten onder gaan in een lawine van gegevens,
omdat vooraf te weinig keuzen worden gemaakt. Design dump is een
valkuil, waarbij bij gebrek aan een heldere vraagstelling een enorme
hoeveelheid data door de onderzoeker worden verzameld, waarvan
vervolgens onduidelijk is of en hoe die geïnterpreteerd moeten worden. Er
wordt dan vaak achteraf gedaan aan HARKing (Hypothesizing After the
Results are Known).
30
31
32
33
34
35
36
Omdat de effectiviteit van de interventie sterk bepaald wordt door de
daadwerkelijke implementatie ervan en omdat die implementatie vaak
afwijkt van het plan op papier. Zonder registratie van het
programmaverloop kan niet nagegaan worden hoe een eventueel effect is
bereikt en waardoor er bijvoorbeeld verschillende effecten bij subgroepen
zijn. Ook is het van belang voor het repliceren van het onderzoek.
Het meetinstrument moet: relevant zijn ten aanzien van de
onderzoekshypothesen; aansluiten bij de doelgroep, doelen en activiteiten
van de interventie (en dus een duidelijke omschrijving van doel en
doelgroep bezitten); theoretisch goed onderbouwd zijn; praktische
bruikbaar zijn; sensitief genoeg zijn om de gewenste verandering vast te
stellen; zo objectief mogelijk door bij voorkeur gestructureerde,
genormeerde methoden, voorzien van systematische richtlijnen;
betrouwbaar; valide.
Paralleltestbetrouwbaarheid, gebaseerd op de overeenkomst tussen tests
die strikt parallel (vergelijkbaar) zijn, bijvoorbeeld verschillende versies van
een test; Betrouwbaarheid op basis van inter-itemrelaties (zoals
Cronbach’s alpha (α; 1951), Guttman’s lambda2 (λ-2; 1945), KR20,
gebaseerd op de covarianties tussen de items van de test (de mate waarin
de items overeenstemmen); Test-hertestbetrouwbaarheid, gebaseerd op
de overeenkomst in scores als het instrument op dezelfde manier, door
dezelfde persoon en bij dezelfde participanten nogmaals wordt
afgenomen;nInterbeoordelaarsbetrouwbaarheid, gebaseerd op de
overeenkomst in scores als het instrument door verschillende personen
wordt gehanteerd bij dezelfde participanten; Overige methoden, zoals die
op basis van item-responsetheorie of generaliseerbaarheidstheorie en
structrurele vergelijkingmodellen.
Bij de inhoudsvaliditeit wordt de vraag gesteld of de inhoud van de test
representatief is voor de inhoud van de eigenschap die wordt gemeten.
Zijn de items een representatieve steekproef uit het theoretische
universum van alle mogelijke items over het te meten aspect?
Criteriumvaliditeit wordt gemeten door de testscores te vergelijken met
externe variabelen of criteria, waarvan aangenomen wordt dat ze dezelfde
eigenschap meten. Een belangrijke vorm van criteriumvaliditeit is de
predictieve validiteit, de mate waarin een test een voorspelling kan doen
over gedrag dat zich buiten de testsituatie voordoet, in de toekomst, het
verleden of het heden. Bij de begripsvaliditeit is het van belang wat de test
meet, niet wat het voorspelt. De begripsvaliditeit geeft de mate aan waarin
de test daadwerkelijk het psychologisch begrip meet: welke
eigenschap(pen) kan (kunnen) de individuele variantie in de testscores
verklaren? Men moet hier proberen de theorie achter de test te valideren,
door bijvoorbeeld hypothesen over relaties, voortvloeiend uit die theorie,
te testen. Zowel Drenth (1971) als De Groot (1971) scharen de soortgenoot
(convergente of congruente) validiteit onder de begripsvaliditeit: de mate
waarin een bepaalde test correleert met een andere test, waarvan wordt
aangenomen dat die dezelfde trek meet.
37
38
39
40
41
42
43
De experimentele benadering van onderzoek heeft zijn wortels in het
empirisch-analytische (positivistische) denken, dat in de decennia na de
jaren vijftig gaandeweg de standaard werd binnen de psychologische
discipline. Daartegenover staat de geesteswetenschappelijke stroming,
waarin de experimentele benadering bij psychologisch gericht onderzoek
wordt bekritiseerd. In het geesteswetenschappelijke denken ligt de nadruk
niet op het opsporen en toetsen van algemene wetmatigheden in de
individuele verscheidenheid, maar op de intuïtieve benadering van iedere
unieke persoon. Het onderscheid tussen de twee denkwijzen is mooi
geïllustreerd aan de hand van twee aforismen over wat wetenschappelijke
kennis is, van twee vooraanstaande psychologen (Dehue, 1990): Van der
Horsts – niet letterlijke uitspraak (geesteswetenschappelijk georiënteerd):
ik weet iets, ik beleef iets en De Groots (1961) (empirisch-analytisch
georiënteerd) parafrase: als ik iets weet kan ik iets voorspellen, als ik niets
kan voorspellen weet ik niets.
(a) Pre-experimenteel design, een ontwerp waarbij vrijwel alle interne en
externe bedreigingen niet worden beheerst. (b) Quasi-experimenteel
design, een ontwerp waarbij bedreigingen in zekere mate worden
beheerst, zij het dat er geen sprake is van randomisatie. (c) Experimenteel
design, een ontwerp waarbij er maximale beheersing van de bedreigingen
tegen de externe en interne validiteit is.
Meer dan een voormeting is nodig om het pre-experimentele verloop van
de ontwikkeling van een variabele (de baseline) te schatten. Meer dan een
nameting is belangrijk om het beklijven van het effect vast te stellen en om
sleepereffecten te specificeren. Een design met zeer veel voor- en
nametingen is van een bepaald type: het longitudinale design. Bijvoorbeeld
bedoeld om individuele variatie van proefpersonen te schatten.
Random toewijzing houdt in: toewijzing van deelnemers aan
experimentele en controle groep op basis van toeval. Eventueel, een
zwakkere vorm: het toewijzen van intacte groepen aan de experimentele
en controle groep op basis van toeval.
Hierbij zorgt men dat beide groepen op een aantal belangrijk geachte
aspecten aan elkaar gelijk zijn. Dit kan door uit een grotere groep steeds
twee personen te kiezen, die op deze aspecten gelijk zijn en van elk paar
willekeurig de ene aan de experimentele groep en de ander aan de
controlegroep toe te wijzen (reële matching of precisiecontrole). Een
andere manier is twee groepen te vormen, die op een aantal variabelen
dezelfde frequentieverdeling hebben (frequentieverdelingscontrole of
globale controle).
Door een placebogroep op te nemen, waarin interventies worden
gepleegd die niet relevant zijn.
Een overzicht van de aantallen personen in alle fasen van het onderzoek,
zoals: het totale aantal personen dat in de studie wordt geworven; de
aantallen per groep; het aantal personen dat tijdens de studie uitvalt; de
aantallen in de analyse.
44
O5 moet hoger zijn dan O4, zodat kan worden aangenomen dat de
voortest geen sensitiziationeffecten had of dat de interventie sterk
genoeg is om de interactie tussen sensitization en de interventie te
overtreffen.
45
Het meetniveau van variabelen bepaalt in de statistiek welke berekeningen
je kunt uitvoeren met de gegevens.
46
In het kort komt het erop neer dat de zwart-wit beslissing op basis van het
gekozen significantieniveau arbitrair is, de nulhypothese-aanname vaak
niet realistisch is en de vraag hoe groot de kans is dat er een effect is in de
populatie, gegeven het gevonden effect, op basis van een
betrouwbaarheidsinterval BI (confidence interval CI), eigenlijk
interessanter is.
Dit is de mogelijkheid om, wanneer verschillen in de populatie bestaan,
deze verschillen tijdens het onderzoek in de steekproef aan te tonen. Het
significantieniveau (alpha: α) dat de onderzoeker heeft gekozen. Hoe meer
men de kans op een type I-fout wil controle¬ren (verkleinen), hoe lager
juist de power wordt. Een belangrijke uit¬daging voor onderzoekers is dan
ook het vinden van een passende balans tussen de kans op een type I-fout
en de benodigde power. De steekproefgrootte. De effect size ES, die
aangeeft hoeveel verschil een interventie maakte of hoeveel de groepen in
de populatie verschillen op de afhankelijke variabele.
A priori schatting gebeurt tijdens de planning en design van een onderzoek
en hoort strikt gesproken dus niet thuis in de fase van data-analyse. Men
wil een bepaalde power hebben (bijvoorbeeld .70 of .80) en zal daarmee
rekening moeten houden bij de bepaling van de hoeveelheid participanten
in het onderzoek (gegeven een bepaald vastgesteld significantieniveau en
geschatte ES).
1. Verzekering van de nauwkeurigheid van de wetenschappelijke kennis. 2.
De bescherming van de rechten en het welzijn van deelnemers
(onderzoeksparticipanten, cliënten, organisaties, derde partijen) aan het
onderzoek, die de bron van informatie zijn die in het onderzoek wordt
gepubliceerd. 3. Ook moet aandacht besteed worden aan eventuele
conflicts of interests, waarbij de onderzoeker een belang zou hebben bij
bepaalde uitkomsten: alle informatie moet worden opgenomen in het
artikel, die nodig is voor de lezer om in te schatten of er misschien
omstandigheden zijn waardoor de onderzoeker positief dan wel negatief
biased zou zijn. 4. De bescherming van intellectuele eigendomsrechten:
onderzoekers mogen geen woorden of ideeën van anderen als hun eigen
presenteren.
47
48
49
50
51
52
53
54
55
56
57
58
Er is niet altijd een toereikende theorie, waarop de interventie zich kan
baseren, met name waar het gaat om de oorzakelijke mechanismen bij het
ontstaan van problemen. De complexiteit in de gedragswetenschappen
bemoeilijkt het samenvatten in een theoretisch model. Er is het gevaar van
oversimplificatie van de complexe werkelijkheid. Er zijn weinig
voorbeelden van theorie-gestuurde evaluaties. Het theoretisch raam
wordt niet altijd (voldoende) geëxpliciteerd. Het definiëren van
subpopulaties is ingewikkeld, doordat het niet altijd de gangbare
diagnostische categorieën of (demografische) variabelen zijn, die
verschillende effecten kunnen verklaren. Ook zijn er enorm veel
(achtergrond)variabelen, waaruit gekozen moet worden.
In plaats van op basis van categorieën van stoornissen, subpopulaties
onderscheiden op basis van de oplopende ernst van stoornissen.
Zich bewust zijn van de eigen normativiteit, keuzes expliciteren en
beargumenteren en niet méér feitelijkheid of wetenschappelijke zekerheid
suggereren dan zij ten overstaan van zichzelf en de betrokkenen kunnen
verantwoorden.
Hoe meer ecologische variabelen er in het onderzoek betrokken dienen te
worden, hoe meer men aanloopt tegen het tekort aan meetinstrumenten
van voldoende kwaliteit.
Het voordeel is dat het instrument helemaal aangepast kan worden aan
het betreffende programma, de betreffende doelgroep en de
onderzoeksvragen. Een nadeel hiervan is dat specifieke instrumenten voor
elk programma afzonderlijk de vergelijking met effecten van andere
programma’s bemoeilijkt. Dit kan bovendien de verbetering van
instrumenten, door middel van toetsing en ervaring in de praktijk, en de
ontwikkeling van beschrijvende normatieve data over interessante
variabelen in de weg staan.
Dat de instrumenten genormeerd zijn op normale populaties, waardoor
geen geschikte referentiepopulatie voorhanden is.
Bij criteriumgeoriënteerde testen gaat het niet om het vergelijken met een
referentiepopulatie maar om het beoordelen van het al of niet bereiken
van een of ander criterium.
Enerzijds kan er sprake zijn van reactiviteit van de metingen en anderzijds
kunnen participanten om andere redenen dan beoogd door de
onderzoeker tevreden zijn over het effect van de interventie. Uit
onderzoek blijkt dat participanten de neiging hebben positief effect van de
interventie te zien, ook al is dit niet het geval.
Onderzoekers kunnen zelden een actieve rol spelen in de samenstelling
van de experimentele groep, waardoor het vaak geen aslecte steekproef
uit de populatie kan zijn. Een controlegroep is vaak niet haalbaar,
bijvoorbeeld door de heterogeniteit van de populatie en de kleine
aantallen participanten. Random toewijzing is vaak ook niet mogelijk,
bijvoorbeeld door ethische bezwaren.
59
Zie tabel 5.1.
60
Dat het eveneens onethisch is om een programma, waarvan de waarde
nog niet empirisch is vastgesteld, aan te bieden aan gezinnen.
Er wordt gewerkt met vrijwillige opkomst of deelname, waardoor mensen
die zich opgeven voor het onderzoek kunnen verschillen van de mensen uit
dezelfde doelgroep die zich niet opgeven voor het onderzoek. Als dit het
geval is, is de onderzoeksgroep geen representatieve steekproef uit de
populatie en kunnen de resultaten niet gegeneraliseerd worden naar die
populatie.
Nee, zelfs waar wel random toewijzing mogelijk is, blijven problemen
bestaan. Bijvoorbeeld: de randomisatie kan niet gemakkelijk geschieden
omdat (a) er sprake kan zijn van systematische experimentele uitval, (b)
niet-inschikkelijkheid van de participanten en (c) verandering in gedrag als
participanten in de gaten krijgen tot welke groep ze behoren. Vergelijk ook
het probleem met equipoise. Ander lijstje met bedreigingen voor de
interne en externe validiteit: Selectieve uitval: Random toegewezen
deelnemers kunnen, wanneer het programma veeleisend is, selectief
uitvallen.
- Selectie: Nog steeds kunnen mensen die zich opgeven voor het
onderzoek, dus bereid zijn om mee te doen, verschillen van andere
mensen uit de populatie.
- Contamination of horizontale diffusie: Deelnemers interacteren met de
controlegroep waardoor ze een deel van de behandeling doorgeven.
- Compensatory rivalry: Deelnemers in de controlegroep kunnen manieren
vinden om het gebrek aan hulpverlening te compenseren.
61
62
63
64
65
66
Respondenten die uitvallen zijn op belangrijke variabelen verschillend van
respondenten die niet uitvallen, waardoor de generalisatiewaarde (externe
validiteit) van het onderzoek wordt beperkt.
Niet beantwoorde items in een vragenlijst, interview of test.
Tweezijdig toetsen.
De term univariaat geeft aan dat er één afhankelijke en één onafhankelijke
variabele in de analyse is opgenomen. Bij een multivariate toets gaat het
om meer dan een afhankelijke variabele en meestal verschillende
onafhankelijke variabelen.
67
68
69
70
71
72
73
74
Het kan zijn dat de toetsen een laag onderscheidingsvermogen hadden,
dus dat er wel effecten waren, maar deze niet aangetoond zijn.Het kan zijn
dat de theorie of hypothesen incorrect opgesteld waren, waardoor
bijvoorbeeld de verkeerde of irrelevante variabelen of operationalisaties
daarvan zijn gekozen binnen het onderzoek. Er kunnen andere
methodologische fouten zijn gemaakt.
Valkuilen bij het rapporteren van onderzoek zijn dat er meer zekerheid
wordt gesuggereerd dan men heeft en dat slechts positieve effecten
worden gerapporteerd en gepubliceerd. De eisen aan wetenschappelijke
artikelen stemmen niet altijd overeen met de informatiebehoefte van de
(hulpverlenings)praktijk. Er kunnen ook conflicts of interests ontstaan.
Een logic model toont de veronderstelde verbanden tussen begrippen. Het
is ook een stroomschema (flowchart) bedoeld om te beschrijven hoe het
programma zal werken, volgens de elementen: middelen, activiteiten,
output, doelgroepen, kortetermijneffecten, intermediaire uitkomsten,
langetermijneffecten.
Een programma moet nooit voortijdig worden geverifieerd, om hoge
kosten te vermijden. De vraag is nu wanneer een interventieprogramma
voldoende ontwikkeld is om beoordeeld te worden. Hiertoe kan een logic
model dienen, in de vorm van uitgekristalliseerde ideeën over relaties
tussen programma-elementen. Dit kan in een flowchart geplaatst worden,
om na te gaan of het programmamodel logisch in elkaar steekt. Is zulks het
geval, dan is de evaluability assessment met positief resultaat afgerond.
(a) Een schematische weergave van alle met een programma beoogde
(intermediaire) doelen en effecten en het veronderstelde verband
daartussen. (b) Een poging om een rangorde in (eind)doelen aan te
brengen.
Een doelenhiërarchie -helpt om het overzicht te behouden op alle
verschillende variabelen en doelstellingen die getoetst moeten worden in
het effectonderzoek; - kan helpen voorkomen dat relevante effecten over
het hoofd worden gezien; - dwingt de onderzoeker zijn of haar
basisassumpties en theoretische overwegingen te expliciteren; -brengt een
rangorde aan in (eind)doelen.
Veranderingen in B = f(I, S, G, K, O, X), B = Afhankelijke of
uitkomstvariabele, f betekent ‘functie van’, I = Kenmerken van de
vroegtijdige orthopedagogische interventie, S = Eigenschappen van het
sociale netwerk, G = Gezinskenmerken, K = Kindkenmerken, O = Overige
variabelen die invloed uitoefenen op gezin en kind, X = Variabelen die een
bedreiging vormen voor de interne validiteit.
(a) Specificatie van variabelen die gedragsverandering veroorzaken. (b)
Analyse van interventie als onafhankelijke variabele met andere
variabelen. (c) Beheersing van validiteitsbedreigingen. (d) Specificatie van
(eind)doelen.
75
76
77
78
79
80
81
82
In telegramstijl zijn dit de componenten die de aandacht behoeven.
Is er behoefte aan het stimuleren van burgerschap?
Beschrijving van de deelnemers aan het onderzoek. Dus de basisscholen.
Inclusief of exclusief de groepen 1 en 2?
De wetgever vindt de bevordering van burgerschap belangrijk in het kader
van de integratie.
Het interventieidee is oorspronkelijk ontwikkeld in het buitenland, met de
volgende uitkomsten.
Belangrijkste doel, naast burgerschap, is het ontwikkelen van extra
veiligheid op school
Op korte termijn neemt de identificatie van de leerling met het
Nederlanderschap met bepaalde rechten en plichten toe
Op lange termijn wordt het aantal conflicten tussen leerlingen onderling
verminderd
Enzovoorts: invullen het het logis model: aangeboden prograam en
resultaten van het programma;
organisatiestructuur, staf, financiele bronnen, samenwerking
implementatiestrategie in andere scholen, evaluatieplan
Deze laatste stap moet goed zichtbaar zijn voor de managers, maar de
uitwerking is hier heel kort, want een template is altijd een samenvatting.
Een programma-template vat op een helde en simpele manier de essentie
van een interventie samen, bedoeld voor managers, staf en
effectonderzoekers. Het bevat allerlei categorieën, waaronder het logic
model en de flowchart. Zie tabel 6.1
Vanwege de geringe toepasbaarheid van standaardnormen bij kinderen
met een ontwikkelingsachterstand of een ernstige beperking en vanwege
het veronderstelde lineaire verloop van de ontwikkeling wordt normgeoriënteerd testen door deze auteur niet geschikt gevonden.
Bij Indices of Change met betrekking tot zich ontwikkelende kinderen: deze
procedures zijn alleen te gebruiken in combinatie met gestandaardiseerde
tests en veronderstellen een lineair ontwikkelingsverloop
Bij deze procedures wordt verondersteld dat verandering in het
ontwikkelingstempo van het kind een indicatie is voor interventie-effect
De Reliable Change Index (RCI), ook wel genoemd de J-T-index, naar
Jacobson en Truax (1991). De maat standaardiseert het verschil tussen
voor- en nameting, door middel van delen door standaardmeetfout.
Er zijn verschillende manieren om de standaardmeetfout van de
verschilscores te bereken. Let bijvoorbeeld op de kritiek van Maassen
(2004).
De subjectiviteit van ouders, onderzoekers en hulpverleners speelt een
grote rol, zowel bij het opstellen van de doelen als bij het voorspellen van
het succes en het vergelijken van het voorspelde succes met de
vooruitgang van het individu. Er is mede hierdoor onduidelijkheid over de
betrouwbaarheid en validiteit van de doelen.
83
84
85
86
87
88
89
90
91
92
(a) Door gevoelig en voorzichtig te werk te gaan bij de afname van de tests
en het interpreteren van de scores. (b) Door de tests niet te gebruiken
voor het vaststellen van het cognitieve niveau van kinderen met
motorische of cognitieve beperkingen. (c) Door te letten op atypische
scorepatronen, waarbij men rekening houdt met allerlei kenmerken van
het kind en zijn of haar omgeving.
(a) Wanneer men een construct wil meten waar simpelweg geen andere
bruikbare instrumenten voor zijn. (b) Wanneer de onderzoeker bezorgd is
over de representatie van het individu in de normpopulatie. (c) Wanneer
men niet tevreden is over de sensitiviteit van een traditioneel
meetinstrument.
Deze ontwikkelingen spelen zich nog voornamelijk af op Engelstalig
grondgebied.
De uitvoering van de observatie in een standaard, semi-gestructureerde
situatie. Daarbij kan de generalisatiewaarde vergroot worden door aan te
tonen dat de data valide metingen opleveren van het te meten construct
of door de semi-gestructureerde observatie te herhalen met bijvoorbeeld
andere taken of observatoren.
Het toepassen van verschillende meetvormen. Bevestiging van de
resultaten door verschillende meetvormen maken de resultaten
geloofwaardiger, betrouwbaarder en meer valide, dan zonder deze
congruentie.
Voorbeeld: De ontwikkeling van het kind meten met behulp van een
gestandaardiseerde ontwikkelingstest, observaties in de thuissituatie en
een interview met de ouders
(a) Zo kan men erachter komen of de groepen pre-experimenteel van
elkaar verschillen. Wanneer dit het geval is, heeft dat grote consequenties
voor de analyse en interpretatie van de uitkomsten. (b) Zo kan men uitval
beter analyseren en voorzien.
(a) Men kan statistisch corrigeren voor deze verschillen (zie ook p. 106-107
over covariantie-analyse). (b) Men kan alsnog subjecten bij het onderzoek
zoeken, zodat er beter ‘gematcht’ kan worden.
Op basis van multipele regressieanalyse waar bij een aantal relevante
afhankelijke variabele betrokken zijn, wordt de PS van een persoon
geschat Door middel van PS’s kan vrij gemakkelijk een controlegroep
worden samengesteld uit een groot – toepasbaar – databestand,
vergelijkbaar met de karakteristieken van een experimentele groep.
De onderzoeker moet zich bij deze designs wel goed bewust zijn van de
variabelen die in zijn of haar design niet beheerst kunnen worden. Als hij of
zij dit niet doet, spreekt men van positieve interventie-effecten zonder dat
de relatie tussen oorzaak (interventie) en effect duidelijk aangetoond is.
Men kan gebruik maken van de ‘detective view’: zoveel mogelijk
alternatieve verklaringen bedenken en deze verklaringen zo goed mogelijk
proberen uit te schakelen.
93
94
95
96
97
98
99
Nee, een theorie of hypothese kan alleen verworpen of aanvaard worden:
een theorie of hypothese kan een toets niet doorstaan of wel doorstaan,
maar daarmee is de theorie of hypothese nog niet bewezen. Strikte
bewijsvoering van ‘gestoorde’ positieve universele deterministische
hypothese komt niet voor; immers noch falsificatie noch verificatie van
zulke hypothesen is mogelijk
(a) Time-series design (enkelvoudige tijdreeks). (b) Untreated control
group design. (c) Cohort design. (e) Nonequivalent dependent variables
design. (d) Planned variation design.
Het onderscheid tussen toetsingsonderzoek en interpretatief-theoretisch
onderzoek: (a) Toetsingsonderzoek (kwantitatief onderzoek): een beperkt
aantal, gewoonlijk aan de theorie ontleende, onderling samenhangende
hypothesen wordt aan empirisch materiaal getoetst, meestal via
steekproefonderzoek. (b) Interpretatief-theoretisch onderzoek (kwalitatief
onderzoek): Een bepaalde verzameling van gegevens wordt in onderling
verband gebracht door ze proberenderwijs af te leiden uit een hypothese
of theorie (of opvatting of visie), die door de onderzoeker op het gegeven
materiaal van toepassing geacht wordt.
(a) Aandacht voor de empowerment van ondergewaardeerde groepen,
waardoor men de onderzoekssubjecten bijvoorbeeld meer inspraak wil
geven in het vormgeven van het onderzoek. (b) Discussies over theorieën
die de context van de hulpverlening zeer belangrijk achten (zoals het
transactionele ontwikkelingsmodel). (c) De erkenning van de normativiteit
in elk onderzoek. (d) Het in twijfel trekken van de mogelijkheid tot het
uitvoeren van zuivere experimenten.
Type-fout I waarbij H0 wordt verworpen door de toets terwijl Ho toch waar
is (kans hierop is α). Type-II-fout, waarbij H0 niet wordt verworpen door de
statistische toets terwijl H1 waar is (kans hierop is β).
Power neem toe, daarom is het niet onverstandig op een zo goed
mogelijke manier het significantieniveau te bepalen, en niet zonder meer
kiezen voor α=.01.
1 A priori. Hoe groot moet de steekproef zijn om een bepaald gewenst
effect met power 1-β te ontdekken? 2 Post-hoc analyse. Als we een goede
schatting hebben kunnen maken van ES, is de uitgevoerde toets dan met
voldoende power gedaan? 3 Compromis-analyse. Zoals uit vraag blijkt
moet er een goede balans zijn tussen α en β. Weten we de ES en de N dan
kunnen we een bepaalde balans uitrekenen. 4 Sensitiviteitsanalyse. Van
toepassing bij de beoordeling van reeds uitgevoerd onderzoek, waarbij we
weten: N, power en α. De vraag is dan welk ES hier mee gedetecteerd kan
worden.
100
101
102
103
104
105
106
Afhankelijk van toets en design. Een voorbeeld is dat de ES in een
afhankelijk design met de fractie 1/√(1-r) toeneemt
De noemer van de breuk. ES wordt gestandaardiseerd door de
standaarddeviatie. Probleem is dat een keuze voor een bepaalde
standaarddeviatie gemaakt moet worden
De mate waarin de hulp er in slaagt de doelgroep positief te beïnvloeden,
zodanig dat alternatieve verklaringen zijn uitgesloten (zo veel mogelijk).
Associatie, in de betekenis van ‘samengaan’.
Omdat op deze manier efficiënt compromissen gesloten kunnen worden
met de praktijk. Het is een kwestie van wikken en wegen om in de praktijk
– met het ideaaltype als voorbeeld – onderzoek op te zetten.
Idee van ZonMw is meer of zelfs uitsluitend aandacht te vragen voor de
identiteit van de hulpverlener, als verklarende variabele voor positieve
effecten.
Kennis van interventiemethoden kan de hulpverlening doen verbeteren.
Effectonderzoek in de gedragswetenschappen: Antwoorden
Zelftoets 1 Multiple Choice-vragen
Nr
Vraag
Juiste Antwoord
1
Welke stelling omtrent effectonderzoek in de
gedragswetenschappen is waar?
2
Welke stelling omtrent de effecten van
hulpverleningsprogramma's is waar?
Effectonderzoek in de gedragswetenschappen is heel complex
en onderzoekers zijn het niet altijd eens over de toe te passen
methoden en technieken.
Van slechts een fractie van de aangeboden programma's is het
effect wetenschappelijk bewezen.
3
Het aantonen van verschillend gebruik van dezelfde term in één
theorie wijst erop dat er iets schort aan de theorie. Op welke
formuleringseis heeft dit mankement betrekking?
In welke fase van de empirische cyclus valt de keuze voor een
welbepaald meetinstrument om bijvoorbeeld verbale
intelligentie te meten?
Het wetenschappelijk forum omschrijft De Groot als
4
5
6
In 'Effectonderzoek in de gedragswetenschappen' wordt onder
gedragswetenschappen verstaan rationele activiteiten van
terzake deskundigen, gericht op overeenstemming, waarbij met
behulp van empirisch onderzoek zicht wordt verkregen op
gedrag en beleving. Welke stelling over gedrag in de in het boek
Logische consistentie
Deductie
de verzameling van alle ter zake kundige
wetenschapsbeoefenaars
Essentieel bij de definitie van gedrag is dat de nadruk wordt
gelegd op registratie en waarneming, terwijl ook beleving
onder de definitie kan vallen, voor zover deze beleving
waarneembaar is.
gehanteerde definitie is waar?
7
Dunst, Snyder & Mankinen (1989) hanteren een
multidimensionale definitie van effectiviteit, waarin drie
dimensies besloten liggen. Welke dimensie hoort daar niet bij?
Wanneer is volgens Dunst, Snyder en Mankinen (1989) in een
effectstudie maximaal voldaan aan de eisen voor het maken van
causale gevolgtrekkingen? Wanneer de interventie
(I) hoge afhankelijkheid vertoont, (II) in hoge mate specifiek is
en (III) niet samengaat met alternatieve
verklaringsmogelijkheden.
10
Welk kenmerk is geen onderdeel van de definitie van
effectonderzoek?
Wat behoort in het theoretisch raam beschreven te zijn?
Hantering van een onderzoeksdesign in de vorm van
Randomized Controlled Trial (RCT).
Alle genoemde antwoorden zijn juist.
11
De vijf W's van Orobio de Castro (2007):
12
Wat maakt het effectonderzoek naar preventieve doelen
moeilijk?
geven een overzicht van vragen, waarop het effectonderzoek
antwoord moet geven en die vruchtbaar zijn gebleken als
criteria voor bruikbaar effectonderzoek.
Alle drie genoemde antwoorden zijn juist.
13
Het beschrijven van de methode en de implementatie is van
cruciaal belang om achteraf te kunnen nagaan welke dimensies
van de interventie verandering teweegbrachten en onder welke
omstandigheden en voor wie de interventie effectief is (en met
welke eventuele bijeffecten). Wat wordt hier bedoeld met
methode en implementatie?
Welk advies over het operationaliseren van het doel in criteria
wordt gegeven?
8
9
14
Methode is het interventieprogramma zoals bedoeld.
Implementatie is het interventieprogramma, zoals in de
praktijk uitgevoerd.
Het advies om het doel niet in één, maar in een zorgvuldig
gekozen aantal criteria te operationaliseren en daarbij gebruik
te maken van verschillende informanten.
15
Waarom is de nauwkeurige beschrijving van de participanten
tijdens een effectstudie van belang?
16
Welke stelling over de betrouwbaarheid van psychometrische
tests is juist?
De mogelijkheid dat een verschil tussen voor- en nameting door
toeval of door andere factoren dan de interventie (nietexperimentele variabelen) veroorzaakt was, kan worden
beheerst door opname van een controlegroep. Dit verhoogt de:
Welke stelling over Null-Hypothesis Significance Testing (NHST) is Als de gevonden p-waarde kleiner is dan het gehanteerde
waar?
significantieniveau, wordt het effect significant genoemd en
wordt geconcludeerd dat de interventie in de populatie
wellicht effect had.
Wat is de juiste volgorde van meetniveau's van laag naar hoog?
Nominaal, ordinaal, interval, ratio
Welke instantie biedt richtlijnen voor het schrijven van
De APA
wetenschappelijke publicaties?
17
18
19
20
21
22
23
24
De Groot (1994) wijst in verband met instrumentatieproblemen
op een spanning tussen objectiviteit en relevantie. Wat wordt
daarmee bedoeld?
Welke stelling omtrent ontwikkelingstests is juist?
Alleen kinderen die extreem laag scoren, worden aangemeld
voor een interventieprogramma. Hierdoor is de kans op
verbeterde scores na de interventie hoger. Van welke bedreiging
voor de interne validiteit is dit een voorbeeld?
Hoe wordt de situatie genoemd waarin de participant aan een
Omdat ervan uitgegaan moet worden dat niet iedere
participant op dezelfde wijze en in dezelfde mate profiteert
van het interventieprogramma.
De betrouwbaarheid is een maat voor de consistentie,
stabiliteit en precisie van de testscore.
interne validiteit
Het risico, dat de technische vervolmaking van het instrument
geschiedt ten koste van de inhoud, van de 'dekking' van wat
gemeten wordt.
Vele auteurs achten gestandaardiseerde ontwikkelingstests
geen betrouwbare maat voor individuele variatie voor
atypische groepen kinderen.
Statistische regressie naar het gemiddelde.
Equipoise.
25
effectonderzoek een neutrale positie inneemt ten aanzien van
de verwachte effecten met betrekking tot beide interventies
(controlegroep en experimentele groep)?
Wat is kanskapitalisatie, met betrekking tot de data-analyse?
26
Een logic model is vooral bedoeld om
27
Hoe zou u een zogenaamde programma-template willen
definieren?
Samenvatting van centrale kenmerken van een programma,
bedoeld om van tijd tot tijd te actualiseren
28
De Reliable Change Index, ook wel genoemd de J-T-index, is een
maat voor betrouwbare verandering op individueel niveau. Toch
moeten in de berekening groepsgegevens worden opgenomen.
Welke?
Ook in de medische effectonderzoekliteratuur komen evidencebased rating voor. Een voorbeeld is de taxonomie van Swanston,
Williams en Nunn (2000), waarbij niveau I de sterkste vorm van
bewezen effectiviteit is. Welke omschrijving behoort volgens u
bij niveau I ?
Het percentage zero data (PZD) is een eenvoudige maat die
gebruikt wordt in
Residual Change Scores is een methode om veranderingen
tussen pre- en posttest vast te stellen, hoewel er veel kritiek
bestaat. De methode werkt op basis van regressie-analyse van
de pretestscores. Waarom wordt deze methode residual change
scores genoemd?
(a) Correlatie tussen voor- en nameting van alle participanten
in het onderzoek; (b) standaarddeviatie van de voormetingen
van alle deelnemers
29
30
31
Dit is het verhogen van de kansen op het vinden van
statistische verbanden door een groot aantal (onafhankelijke)
hypothesen te testen.
De volgorde der handelingen in een effectonderzoek te
beoordelen op logische verbanden
Meta-analyse van zuiver experimentele designs
ABAB-designs (N=1-designs)
Het residu bestaat uit het verschil tussen werkelijke en
voorspelde posttestscore,
32
Een mogelijkheid om een bepaald methodologisch verschijnsel
te bestrijden is te streven naar geografische spreiding in
onderzoeksgroepen (zowel E als C), Welk van onderstaande
verschijnselen wordt hier bedoeld?
33
Stel dat in een statistische toets H0 wordt verworpen, terwijl de
alternatieve hypothese H1 juist is, dan nemen we een juiste
beslissing. Hoe wordt deze uitkomst getypeerd?
Stel dat de a priori poweranalyse aangeeft dat 156 ppn nodig zijn
om gewenste power van .80 te behalen. Stel dat de onderzoeker
slechts 100 deelnmers kan includeren. Waarom is dit
buitengewoon vervelend voor de kwaliteit van het onderzoek?
Er zijn verschillende maten voor Effect Size ontwikkeld, zoals
Cohens d, Hedges'g, Cohens f-kwadraat en Odds ratio's. Welke
maat wekt in dit rijtje de meeste verwondering?
De Groot somt twee kwalificaties voor effectonderzoek op:
wetenschappelijke en maatschappelijk. In welke rangorde plaatst
hij deze kwalificaties?
34
35
36
Contact tussen E en C is ondermijning van de juiste balans
tussen informatie over nuttigheid van verschillende
interventies en dus ondermijning van het gewenste effect van
randomisatie. Geografische spreiding gaat deze ondermijning
enigszins tegen.
Als 1-β, zijnde de power van de toets
Er bestaat een grote kans dat er niks uit het onderzoek komt,
terwijl er in de populatie wel degelijk een (klein) effect te
bespeuren is.
Hedges' g
Wetenschappelijke kwaliteit gaat boven maatschappelijke
Effectonderzoek in de gedragswetenschappen: antwoorden
Zelftoets 2 Multiple Choice-vragen
Nr.
Vraag
Antwoord 1
1
Welke stelling is waar?
Als gevolg van het politieke beleid en de groeiende competitie tussen
aanbieders van hulp en zorg, geniet de effectiviteit van de
hulpverlening bij uiteenlopende partijen, zoals beleidsmakers,
professionals in praktijkinstellingen en onderzoekers, veel
belangstelling
2
Waarom is effectonderzoek in de gedragswetenschappen
belangrijk? Welk antwoord is niet waar?
Omdat het doel van effectonderzoek is, aan te tonen dat
participanten aan interventieprogramma's tevreden zijn over de
interventie.
3
Kenmerkend voor de regulatieve en empirische cyclus is
dat ze beide
essentiële aspecten van empirisch onderzoek expliciteren
4
De ‘fenomenologie’ is volgens De Groot een methode om
op ideeën te komen. Deze uitspraak is
juist, omdat de fenomenologie thuis hoort in de empirische cyclus.
5
In lijn met wetenschapsfilosoof Popper, is de empirische
cyclus van De Groot gericht op het
weerleggen van een theorie
6
Wat behoort niet per definitie tot een
‘interventieprogramma’?
In de gedragswetenschappen opgeleide, goed getrainde en vooraf
geïnstrueerde hulpverleners.
7
Welke dimensie van Dunst, Snyder & Mankinen (1989),
die besloten ligt in de definitie van effectiviteit, heeft
betrekking op de interne validiteit?
Het bestaan van alternatieve verklaringen (spuriousness): de mate
waarin andere factoren dan de interventie optreden als bronnen die
van invloed zijn op de afhankelijke variabele.
8
Wat is de essentie van de gegeven definitie van
effectiviteit?
Dat effectiviteit oftewel causale gevolgtrekking een relatief concept
is; er zijn vele niveaus van bewijskracht mogelijk.
9
Welke stelling is waar?
Bij effectonderzoek (voorheen vooral productevaluatie) dient ook de
procesevaluatie betrokken te worden. De productevaluatie toont dan
aan of de interventie werkt en de procesevaluatie waarom de
interventie (niet) werkt en hoe het misschien beter kan.
10
Interventieprogramma's zijn bij voorkeur gebaseerd op
multifactoriële systeem of ecologische theoriën omdat:
deze zijn gericht op de complexiteit en onderlinge afhankelijkheid
tussen en binnen systemen en daardoor meer recht doen aan de
werkelijkheid.
11
Een groep van jonge alleenstaande moeders krijgt
gerichte voorlichting over onder- en overvragen en
mijlpalen in de ontwikkeling van kinderen. Tot wat voor
soort preventie kan deze vorm van interventie gerekend
worden?
Welke stelling is waar ten aanzien van de beschrijving van
doelen in het effectonderzoek?
Primaire pedagogische preventie
Wat wordt bedoeld met het operationaliseren van
variabelen in criteria?
Het kiezen van variabelen die als criteriummaten voor de mogelijke
effecten van de hulpverlening gelden en de criteriummaten
omzetten in toetsbare voorspellingen.
12
13
Een eenduidige beschrijving van de doelen van een
interventieprogramma is een voorwaarde voor goed
effectonderzoek.
14
Welke stelling over onbedoelde effecten van
interventieprogramma's is niet waar?
In het effectonderzoek dienen bedoelde en onbedoelde gevolgen
van een programma tegen elkaar afgewogen te worden.
15
Welke definitie is juist?
Een operationele definitie wil zeggen dat betekenis is toegekend
door het specificeren van de activiteiten of operaties die nodig zijn
om het betreffende construct te meten en te evalueren
16
Welke stelling over de validiteit van psychometrische
tests is juist?
Criteriumvaliditeit wordt gemeten door de testscores te vergelijken
met externe variabelen of criteria, waarvan aangenomen wordt dat
ze dezelfde eigenschap meten.
17
Het Solomon Four-Group Design is een voorbeeld van
een:
Wat is sensitivering als bedreiging voor de interne
validiteit?
zuiver experimenteel design
Van welk meetniveau is de grootheid temperatuur in
celsiusaanduiding?
interval.
18
19
Het effect waarbij participanten zich anders ontwikkelen als gevolg
van de meting zelf.
20
De power van een statistische toets hangt af van:
het significantieniveau, de steekproefgrootte en de effect size.
21
Wat is een nadeel van ad hoc geconstrueerde
instrumenten?
Alle drie de genoemde antwoorden zijn juist.
22
Welke stelling over de betrouwbaarheid van een test is
waar?
Men moet bij de beoordeling van een test letten op (a) de
aanwezigheid van andere maten dan coëfficiënt alpha en (b) de
aanwezigheid van betrouwbaarheidsmaten op grond van meer dan
een afname.
23
Bij het waarborgen van welk type validiteit gaat het
vooral om representativiteit van de steekproeven en om
representatieve replicatie van het onderzoek?
Welke stelling is waar?
Externe validiteit.
Als uit de theorie en eerder onderzoek blijkt dat een
interventieprogramma minstens een positief effect zal
hebben, of helemaal géén, maar in elk geval geen
negatief effect, welk type toets heeft dan de hoogste
Een eenzijdige toets.
24
25
De behoefte aan actie in de (hulpverlenings)praktijk en de
publicatiedruk, bemoeilijken de uitvoering van longitudinale studies.
power?
26
Stel dat u een doelenhiërarchie opzet ten behoeve van de
ontwikkeling van een preventief interventieprogramma,
welk doel zou u bovenaan de doelboom plaatsen?
Het voorkomen van ontwikkelingsachterstand
27
De Index of Progress is een maat om de verandering in
ontwikkelingssnelheid van kinderen met sterke
achterstanden weer te geven. Welk fundamenteel
bezwaar kleeft aan deze maat?
De maat is gebaseerd op psychometrisch weinig houdbare maat, te
weten ontwikkelingsleeftijd
28
Carrs checklist voor de beoordeling van interventieonderzoeken is toegepast op een groot aantal
interventiestudies. Hij hanteert vier stringente eisen voor
inclusie. Een daarvan is 'aantal participanten in elke
groep' Om welk aantal gaat het dan?
Multiple imputation wordt beschreven als een
verantwoorde techniek om de proefpersoon niet verloren
te laten gaan, door drie of meer datapunten te imputeren
en per imputatie een statistische analyse te doen. Deze
techniek berust op een proces. Hoe zou u dat proces
beschrijven?
Een voorbeeld van een zuiver experimenteel design is een
ontwerp met herhaalde metingen aan een experimentele
groep (E), waarbinnen een interventie plaatsvindt en aan
een controlegroep (C) waarbinnen geen interventie
plaatsvindt, terwijl de proefpersonen at random worden
5 of meer
29
30
Imputatie, analyse, pooling
Non-equivalent Control Group Design
toegewezen aan E en C. Dit design lijk erg op een quasiexperimenteel ontwerp. Welk?
31
Wat is een nadeel van de GAS-methode om
veranderingen vast te stellen?
Alle drie genoemde argumenten
32
Lees beide uitspraken. I De Index of Progress (IP) als
veranderingsindex is een uitbreiding van Wolerys
Proportional Change Index (PCI). II De Predicted PostIntervention Developmental Age score (PPIDA) is evenals
de Residual Change Score gebaseerd op regressie-analyse
De power van een statistische toets hangt van drie
parameters af. Van welke niet?
I is juist en II is onjuist
34
Is het nodig altijd Cohens indeling in effectsizes (ES) te
hanteren bij het beoordelen van effectiviteitsonderzoek
in de gedragswetenschappen?
Cohens indeling is relevant, maar het is belangrijk op de kostenkant
te letten.
35
In een ANCOVA-analyse worden effecten gecorrigeerd
voor verschillen in pretestscores tussen verschillende
groepen. Maar Huitema (1980) heeft een duidelijke
waarschuwing. Welke?
Gebruik geen ANCOVA correcties als de groepen natuurlijkerwijze
zijn samengesteld. Deze waarschuwing is al vele malen en vele jaren
van kracht.
33
De schending van de voorwaarden
36
Een zogenaamde relatieve causale relatie tussen
interventie en resultaat, is in de eerste plaats gelegen in
het theoretisch raam