Practicum SPSS

Download Report

Transcript Practicum SPSS

Update statistiek
Practicum SPSS







Inlezen van een gegevensbestand
Codeboek
Bewerken van gegevens
Beschrijvende statistiek
Multiple lineaire regressie
Multiple logistische regressie
Multiple Cox regressie

Oefening 1: Determinanten van laag geboortegewicht
Laag geboortegewicht is een gezondheidsindicator die artsen reeds
jaren zorgen baart. Dit wordt verklaard door het feit dat kindersterfte en
geboorteafwijkingen bij kinderen met een laag geboortegewicht zeer
frequent voorkomen. Het gedrag van de vrouw tijdens de
zwangerschap (met inbegrip van voeding, roken, het krijgen van
prenatale zorg) kan in sterke mate de kansen op een voldragen
zwangerschap verhogen en bijgevolg ook de kans op het bevallen van
een kind met een normaal geboortegewicht. De kenmerken die in deze
analyse werden bestudeerd, worden in de obstetrische literatuur
vernoemd als geassocieerd met laag geboortegewicht. Het doel van de
studie was na te gaan of in het obstetrisch centrum waar de gegevens
werden verzameld deze kenmerken belangrijk waren.

Oefening 1: Determinanten van laag geboortegewicht
– Wat zou een onderzoeksobject kunnen zijn?
– Welk model ?
– Hoe operationaliseer je de variabelen op basis van de kenmerken?
– Hoe werk je de statistische analyse uit?

Oefening 1: Determinanten van laag geboortegewicht
– Geboortegewicht is een functie van….
– Wat is de uitkomst (afhankelijke variabele)?
» Geboortegewicht (in gram)
» Geboortegewicht (laag versus normaal)
– Lineaire model (voorwaarden?)
– Logistisch model

Oefening 1: Determinanten van laag geboortegewicht
Kenmerk
afkorting
Codes, ‘long label’, info…
Identificatiecode
ID
Rangorde kind
BIRTH
1 = eerste; 2 = tweede
Rookgedrag tijdens zwangerschap
SMOKE
1 = ja; 0 = neen
Ras
Race
1 = blank; 2 = zwart, 3 = ander
Leeftijd moeder
AGE
in jaren
Lichaamsgewicht bij laatste menses
LWT
in pond
Geboortegewicht
BWT
in gram
Laag geboortegwicht
LOW
0= gebgew >= 2500 gr; 1= gebgew < 2500 gr
Voorgesch. premature arbeid
PTL
0 = neen; 1 = één; enz.
Voorgesch. Hoge bloeddruk
HT
1 = ja; 0 = neen
Aantal doktersbezoeken tijdens 1ste tremester
FTV
0 = geen; 1 = één; enz.

Inlezen van een gegevensbestand
» Open het bestand ‘laaggebgewicht.xls’ (Blackboard) in SPSS
 File -> open -> data
 Vergeet niet: ‘read variable names from the first row of data’
» Maak een codeboek aan

Bewerken van gegevens
» Hercodeer de variabele ‘BWT’ in een nieuwe variabele voor het
laag geboortegewicht, maar nu zo, dat de grenswaarde ligt op
2300 gram

Transform -> Recode -> Into different variables ->

Kies input variabele en benoem een output variabele

Klik op old and new values en maak die aan

Change

OK
» Hercodeer ‘RACE’ zo, dat je terug ‘blank’, ‘zwart’ en ‘ander’ als
labels voor de verschillende categorieën krijgt.

Beschrijvende statistiek
» Bekijk de verdeling van geboortegewicht

Analyse -> descriptive statistics -> explore…
» Kan je normaliteit weerhouden

In de totale groep kinderen

In homogene subgroepen
» Veronderstel dat geboortegewicht scheef verdeeld is…

Transformeer geboortegewicht naar ln(geboortegewicht)
– Transform -> compute…

Beschrijvende statistiek
» Bekijk een eventuele associatie tussen:

Roken en ras

Roken en rangnummer kind

…

Analyse -> descriptive statistics -> crosstabs -> …
Correlaties


Correlaties
Figuren

Correlaties
Correlaties kwantificeren de mate waarin twee kwantitatieve variabelen X1 en X2
met mekaar overeenkomen. Als hoge waarden voor X1 gepaard gaan met hoge
waarden voor X2 is er een positieve correlatie. Als hoge waarden voor X1
daarentegen gepaard gaan met lage waarden voor X2 is er een negatieve
correlatie.
Voorbeeld (bicycle.sav):
In een dwarsdoorsnede onderzoek in twaalf buurten in California wordt een
onderzoek uitgevoerd waarbij het percentage fietshelm gebruikers bij kinderen
vergeleken wordt met het percentage kinderen dat geniet van een prijsreductie
op de schoolmaaltijden.

Correlaties
BUURT
Fair Oaks
Strandwood
Walnut Acres
Discov. Bay
Belshaw
Kennedy
Cassel
Miner
Sedgewick
Sakamoto
Toyon
Lietz
% reduced-fee lunch
% wearing bicycle helmets
50,00
11,00
2,00
19,00
26,00
73,00
81,00
51,00
11,00
2,00
19,00
25,00
22,10
35,90
57,90
22,20
42,40
5,80
3,60
21,40
55,20
33,30
32,40
38,40

Correlaties
Zou je hier kiezen voor een analyse die het percentage ‘dragen van een
fietshelm’ voorspelt aan de hand van het percentage ‘prijsvermindering op de
schoolmaaltijd’?
Wat zou de onderzoeksvraag kunnen zijn?
De meest eenvoudige manier om de resultaten van dit onderzoek voor te stellen
zodat het verband tussen beide duidelijk wordt is het uitzetten van de resultaten
op een assenkruis.

Correlaties
Stap 1.
Open het bestand in SPSS en maak via ‘graphs’ een spreidingsdiagram
(‘Scatterplot’).
Voorzie de figuur van een titel en zorg er voor dat de buurten identificeerbaar
zijn. Zorg er ook voor dat de aanduidingen in X- en Y-as duidelijk zijn en probeer
hiervoor één en ander uit (grootte en type letter,…)
Hoe is de socio-economische status gecorreleerd met het dragen van een
fietshelm?

Correlaties

Correlaties
De onderzoekers wilden te weten komen of al dan niet het dragen van een
fietshelm gerelateerd is aan socio-economische status.
Socio-economische status wordt indirect gemeten aan de hand van het
percentage kinderen dat maaltijden op school krijgt aan verminderde prijs
(proxy).
Dit soort onderzoek wordt beschreven als ‘ecologisch onderzoek’ en lijdt aan
wat men noemt de ‘ecologische valkuil’ ‘ecological fallacy’.
Wat zou dit betekenen (zoek op via internet)?

Correlaties
Bij het statistisch verwerken van gegevens is reductie een belangrijke activiteit.
De correlatiecoëfficiënt (r) kwantificeert de relatie tussen X1 en X2 op een
dimensieloze wijze. Als alle punten op een stijgende rechte vallen is r = 1; als
alle punten op een dalende lijn vallen is r = -1. Er zijn géén vaste afspraken
omtrent wat nu een sterke correlatie is en wat een zwakke (geen correlatie
betekent dat r = 0).
Stap 2.
Bereken de correlatiecoëfficiënt via SPSS
Analyze > Correlate > Bivariate
Cave: welke te gebruiken?

Correlaties
De correlatiecoëfficiënt r = -0.849.
We zullen later zien dat r² het percentage is waarin de variantie van de ene
variabele verklaard wordt door de andere. Hier is r² = 0,72 wat suggereert dat
72% van de variabiliteit van het dragen van de helm verklaard zou worden door
socio-economische status.
Statistische software pakketten zijn in staat de correlaties te berekenen voor
meerder variabele paren en rapporteren hun bevindingen vaak onder de
vorm van een correlatie matrix. Correlatie matrices geven de correlatie
coëfficiënten voor alle gepaarde (kwantitatieve) variabelen.
In een studie uitgevoerd door Fraumeni et al (1968) werd in 43 staten en in
het district Columbia het aantal verkochte sigaretten per capita berekend.
Deze werden uitgezet tegen de sterftecijfers voor verschillende vormen van
kanker (fraumeni1968.sav).
Gebruik SPSS om de correlatie coëfficiënten voor elk paar variabelen te
berekenen. Presenteer de resultaten in een matrix. Interpreteer de bekomen
correlatie coëfficiënten en de bijhorende p-waarden. In welke mate zijn de
verschillende kankers geassocieerd met roken?
Variabele
CIG
BLAD
LUNG
KID
LEUK
Beschrijving
aantal verkochte sigaretten per capita
blaaskanker sterfte per 100,000
longkanker sterfte per 100,000
nierkanker sterfte per 100,000
leukemie sterfte per 100,000
Geef de verschillende correlaties ook grafisch (in een matrix) weer…
Kies één correlatie uit en geef die grafisch weer, waarbij je een ‘best
passende rechte’ door de punten tekent (via SPSS).
Inferentiële statistiek

Inferentiële statistiek (ruwe tabelanalyse, ruwe vergelijking van
gemiddelden)
» Bekijk een eventuele associatie tussen:

Roken en laag geboortegewicht

Roken en geboortegewicht

…

Analyse -> descriptive statistics -> crosstabs -> …

Analyse -> compare means -> independent samples t-test

Verschil met vorige analyse?
Tabel analyse

Oefening: De ‘Evans’ studie (facultatief)
The Evans County Heart Study was initiated to compare the epidemiology of
coronary heart disease (CHD) of black and white residents of a southeastern
United States community. The study was prompted by a clinical observation that
CHD appeared to be less frequent in black than white patients, despite a much
higher prevalence and greater severity of hypertension in blacks. A total
community-based, closed cohort study was initiated with a prevalence survey in
1960-1962. The 20-year follow-up experience of the Evans County cohort
confirmed the importance of the major risk factors of serum cholesterol, smoking
and blood pressure for middle age and older, black and white men and women for
CHD, cardiovascular disease (CVD) and all-cause mortality. Black men were less
likely to die of CHD than white men, and this relative protectiveness increased
upon adjusting for risk factors and also increased with age. The relative
protectiveness of black men for CHD mortality was also reflected in lower black
than white CVD and all-cause mortality in men 65 years of age and older.
Tabelanalyse

Oefening: De ‘Evans’ studie (facultatief)
– Cfr. Zelfstudieopdracht tabelanalyse, Medische Statistiek I
– Is het catecholamineniveau een prognostische indicator voor het
krijgen van een coronaire hartziekte?
– Bestand:
» CAT, EKG, LFTDSGRP (dichotoom), CHD

Model analyse
» Geef aan wat het lineair verband is tussen het geboortegewicht
en:

Leeftijd en gewicht bij de laatste maandstonden

De rangorde van het kind

Het al dan niet roken tijdens de zwangerschap

Het ras

Analyse -> regression -> linear ->…

Model analyse
» Geef aan wat het logistisch verband is tussen het
geboortegewicht en:

Leeftijd en gewicht bij de laatste maandstonden

De rangorde van het kind

Het al dan niet roken tijdens de zwangerschap

Het ras
» Kijk na of de effecten afhankelijk zijn van de rookgewoonten

Analyse -> regression -> binary logistic ->…
Logistische regressie

Oefening: De ‘Evans’ studie (facultatief)
– Cfr. Zelfstudieopdracht tabelanalyse, Medische Statistiek I
– Is het catecholamineniveau een prognostische indicator voor het
krijgen van een coronaire hartziekte?
– Twee bestanden:
» CAT, EKG, LFTDSGRP (dichotoom), CHD
» CAT, SMOK, AGE (‘continu’), CATxSMOK, CHD
Cox regressie

Oefening: De ‘Freireich studie’
– Cfr. Zelfstudieopdracht
– Pas het finale model opnieuw toe met een variabele voor geslacht die
als volgt werd geoperationaliseerd:

Vrouw = 1

Man = 0
» Bespreek