Statistik 1 * Lektion 1

Transcript Statistik 1 * Lektion 1

Statistik 1 – Lektion 2
By, energi & miljø, forår 2010
v. Morten Skou Nicolaisen
Sidste kursusgang
o Hvad kan vi bruge statistik til?
o Kausalitet.
o Datamatricer.
o Måleniveau.
o Centraltendens og spredning.
o Omkodning.
o Krydstabulering.
o Intro (med øvelser) til statistikprogrammet
SPSS.
Denne kursusgang
o Stikprøver.
o Vægtning.
o Konfidensintervaller.
o Spredningsdiagrammer.
o Korrelation.
o Signifikans.
o Ekstreme værdier.
Matematik vs. virkelighed
Not everything that counts can be counted, and not
everything that can be counted counts.
- Albert Einstein
Stikprøver
o Repræsentativ stikprøve?
o Udvalgsramme og analysedesign.
o Bortfald og tab.
o Sampling: tilfældig, systematisk, stratificeret,
klynge, etc.
Vægtning.
o Kan bruges til at udføre analyser på ikkerepræsentative stikprøver.
o Vægtning løser et problem men skaber nye.
o En simpel vægtning:
• Vægt = populationsandel / stikprøveandel.
o Kan også bruges hvis man ikke har adgang til
selve data, men kun deskriptiv statistik af data.
Eksempel 1
o Datafilerne vi arbejder med er af ret høj kvalitet, og vi
vil derfor bruge et tænkt eksempel i stedet, da der ikke
er nogen umiddelbare kandidater til vægtning i vores
data.
o Vi antager at 60% af respondenterne i en undersøgelse
er mænd (mod ca. 49,6% mænd i hele DK).
• Vægtmænd = 49,6/60 = 0,83
• Vægtkvinder = 51,4/40 = 1,29
o En ny variabel kan så beregnes med disse vægte og
bruges i data>weight.
o Vægtningen bruges i al dataanalyse i SPSS indtil den
bliver slået fra igen (ligesom select cases funktionen).
Konfidensintervaller
o Et interval der med en bestemt sandsynlighed
(oftest 95%) indeholder en given parameters
sande værdi.
o Intervallet ligger ±1,96 gange standardfejlen
fra middelværdien (ved 95%).
o Den empiriske regel: 68% - 95% - 99,7%.
Eksempel 2
Eksempel 2 (fortsat)
p(1  p) N  n
p(1  p)
SE 

n
N 1
n
o Stikprøvestørrelse (n) er 1149 personer.
58(100 58)
58%  1,96
 58%  2,86%  [55,14;60,86]
1149
o 2,86% = fejlmargen (margin of error).
o Der er med 95% sandsynlighed flest folk, der er parat
til at betale mere.
o Bruges f.eks. ved meningsmålinger til valg, hvor det
ofte fejlagtigt rapporteres, at kandidat A har indhentet
kandidat B med 3 procentpoint, men hvor det lige så
godt kan skyldes statistisk unøjagtighed.
Krydstabeller
3fmilj .holdninger: Jeg er villig til at betale høj ere miljøavgifter og skatter * 7uddannelsesslængde:
Crosstabulation
3fmilj.holdninger: Jeg
er villig til at betale
højere miljøavgifter og
skatter
helt uenig
noe uenig
noe enig
helt enig
Total
Count
Expected Count
Count
Expected Count
Count
Expected Count
Count
Expected Count
Count
Expected Count
7uddannelsesslængde:
folkesk/un
videreg.ende
gdomssk/r
skole
12
28
13,2
18,8
17
12
11,0
15,6
27
28
23,7
33,7
5
19
13,2
18,8
61
87
61,0
87,0
udddannelsens længde
udddannelsens længde
universitet/h.
universitet/h.
yskol
yskol
10
3
14,3
6,7
11
4
11,9
5,6
27
13
25,6
12,0
18
11
14,3
6,7
66
31
66,0
31,0
Total
53
53,0
44
44,0
95
95,0
53
53,0
245
245,0
Krydstabeller
NB: Additive index
Opgave 1
o Datafilen ”Hovedstadsomraadet …” benyttes.
o Brug et spredningsdiagram i stedet for en
krydstabel til at undersøge sammenhængen
mellem de to variable fra forrige slide (bilorien
& miljhold).
o Funktionen findes under graph>scatter.
Spredningsdiagram
Korrelation
Gsn. af y
Gsn. af x
Korrelation
o Pearsons produkt-moment-test (r):
• Formel:
• Simplificeret fortolkning: Kombinerede afstande
fra gennemsnit divideret med standardafvigelser.
Correlations
mi ljhold
mi ljhold
bil or ien
Pear son Cor r elati on
Sig . ( 2- tai led)
N
Pear son Cor r elati on
Sig . ( 2- tai led)
N
1
1832
- ,588**
,000
1707
**. Corr elation is sig nificant at the 0.01 level
( 2- tail ed) .
o Kendalls tau, Spearmans rho.
bil or ien
- ,588**
,000
1707
1
1769
Korrelation
o r-værdien er et udtryk for hvor godt observationerne
stemmer overens med en lineær sammenhæng, men ikke
for hvor meget den ene variabel varierer i forhold til den
anden (skelner dog mellem positiv/negativ korrelation).
Korrelation
o Gamma.
• Er modsat Pearsons r retningsbestemt.
• Sammenligner antallet af samstemmende par i en
ordnet krydstabel for to variable med antallet af
ikke-samstemmende.
• Kan derfor kun bruges når variable er ordinale (el.
binære/dikotome).
Korrelation
o Formlen for Gamma er (P – Q)/(P + Q)
o P beregnes ved at multiplicere frekvensen i hver rude i tabellen med
summen af frekvenserne i de ruder, der ligger til højre og lavere i tabellen, og
summere. For en tabel med 3 rækker og 3 kolonner sker multiplikationen sådan:
o Q beregnes ved at multiplicere frekvensen i hver rude i tabellen med
summen af frekvenserne i de ruder, der ligger til venstre og lavere i tabellen, og
summere. For en tabel med 3 rækker og 3 kolonner sker multiplikationen sådan:
Eksempel 3
3amilj .holdninger: Vi behøver fortsat økonomisk vækst i Norge, også selv om milj øet rammes * 3fmilj .
holdninger: Jeg er villig til at betale høj ere milj øavgifter og skatter Crosstabulation
Count
3amilj.holdninger:
Vi behøver fortsat
økonomisk vækst i
Norge, også selv
om miljøet rammes
helt uenig
delvist uenig
3fmilj.holdninger: Jeg er villig til at betale højere
miljøavgifter og skatter
helt uenig
delvist uenig
delvist enig
helt enig
7
9
10
19
Total
45
5
9
35
16
65
delvist enig
24
20
37
14
95
helt enig
19
7
13
4
43
55
45
95
53
248
Total
Gamma
Sammenhæng
±0,1 - ±0,2
Svag
±0,2 - ±0,3
Moderat
±0,3 el. mere
Stærk
Korrelation
Afhængig variabel
Med flere end 2 værdier
Dikotom (med Nominalniveau Ordinalniveau Interval- og
kun 2 værdier)
forholdstalsniveau
 Proportions-  Phi
 Kendall’s tau  Pearson’s r
Dikotom
difference
 Cramér’s V  Gamma
 Eta
(samt
Phi,
Cramér’s
V
(med kun 2 værdier)
 Pearson’s r  Contingency
og Conting. coeff.)
 Odds ratio
coefficient
 Risk estimate
UafNominal Phi
 Phi
 Phi
 Eta
hænniveau
 Cramér’s V  Cramér’s V  Cramér’s V
gig
 Contingency  Contingency  Contingency
variacoeff.
coeff.
coefficient
bel
Med
Ordinal Kendall’s
 Phi
 Kendall’s
 Eta
flere end niveau
tau-b
tau-b
 Cramér’s V
 Kendall’s
2
 Gamma

Gamma
tau-b
 Contingency
værdier
(samt Phi, Cramér’s V
coeff
 Spearman’s  Gamma
og Conting. coeff.)
rho
 Spearman’s
rho
Interval- og  Kendall’s
 Phi
 Kendall’s
 Pearson’s r
forholdstalstau-b
tau-b
 Cramér’s V
niveau
 R i logistisk  Contingency  Gamma
regression
 Spearman’s
coeff
rho
Oversigt over hvilke mål for statistisk samvariation, der er aktuelle at bruge ved
forskellige måleniveauer for den uafhængige og den afhængige variabel.
Korrelation
50
Spania
40
30
Romania
20
Holland
Grekenland
10
Danmark
Albania
0
0
1
2
3
4
5
Landets plass i alfabetisk rangering
6
7
Korrelation
o Partiel korrelation.
• Angiver sammenhængen mellem to variable, når
der kontrolleres for indvirken fra en el. flere andre
variable.
• Kræver interval variable.
Rejselængde med bil
Indtægt
?
Tæthed i lokalområdet
Eksempel 4
o Datafilen ”Hovedstadsomraadet …” benyttes.
o Vi undersøger om inddragelsen af indtægt
ændrer på sammenhængen mellem bilkørsel
og tæthed i lokalområdet.
o correlate>partial benyttes.
Opgave 2
o Datafilen ”Hovedstadsomraadet …” benyttes.
o Undersøg om sammenhængen mellem
respondenternes holdninger til bil (bilorien)
og til miljø (miljhold) skyldes forskelle i
indkomst (persind2).
o correlate>partial benyttes.
Signifikans
o Betegnes som regel med værdien p (probability),
og angiver sandsynlighed for at nul-hypotesen er
sand.
o Nul-hypotesen antager, at der ikke er nogen
sammenhæng mellem de undersøgte variable.
o Er der dermed en lav sandsynlighed for at den er
sand (som regel p<0,05) forkaster vi derfor nulhypotesen, og der må altså gælde, at der er en
sammenhæng.
o Beregnes ofte med Chi2 (ikke-parametrisk) eller Ttest (parametrisk).
Signifikans
o Chi2:
milj o2 * transp7 Crosstabulation
1
miljo2
1
2
3
4
5
Total
Count
Expected Count
Count
Expected Count
Count
Expected Count
Count
Expected Count
Count
Expected Count
Count
Expected Count
196
87,4
130
159,4
37
69,2
28
50,9
11
35,0
402
402,0
2
94
96,8
211
176,5
69
76,6
47
56,4
24
38,8
445
445,0
Eks: 407*402/1871=87,4
transp7
3
38
47,9
98
87,2
49
37,9
26
27,9
9
19,2
220
220,0
4
29
64,0
131
116,6
62
50,6
50
37,2
22
25,6
294
294,0
5
50
110,9
172
202,3
105
87,8
86
64,6
97
44,4
510
510,0
Total
407
407,0
742
742,0
322
322,0
237
237,0
163
163,0
1871
1871,0
Opgave 3
o Datafilen ”Hovedstadsomraadet …” benyttes.
o Vi vil undersøge om der er en statistisk
signifikant samvariation mellem yngre og
ældre personers (alder2) tendens til at have et
kørekort (bilkkort).
o Hvilke korrelationskoefficienter bør vi
anvende?
Outliers
o Outliers er observationer, der skiller sig ud fra
resten af datasættet ved at have ekstreme
værdier.
o Skyldes enten fejl i data (disse bør rettes) eller
at population har en tung hale (forsigtig mht.
antagelser om normalfordeling).
o SPSS skelner mellem outliers og extremes.
o Boxplots giver et hurtigt grafisk overblik.
Outliers
o Boxplots:
• Boksen angiver altid 25%, 50% og 75% kvartiler.
• De nedre og øvre linjer kan angive forskellige ting i
forskellig statistik-software.
• I SPSS angiver de grænserne for outliers (prikker),
der defineres som halvanden kvartilafstand fra
øverste og nederste kvartil i hver retning.
• Ekstreme værdier (stjerner) defineres som tre
kvartilafstande fra øverste og nederste kvartil i
hver retning.
Outliers
Opgave 4
o Datafilen ”Hovedstadsomraadet …” benyttes.
o Hvad sker med sammenhængen mellem
tætheden i lokalområdet (loktaet) og
rejselængden med bil på hverdage (bilhverd),
kontrolleret for personlig indtægt (persind2),
hvis vi udelader respondenter med ekstreme
rejselængder med bil på hverdage?
Opgave 5
o Datafilen ”Hovedstadsomraadet …” benyttes.
o Beregn den partielle korrelation mellem
boligens afstand fra Københavns centrum
(centafs) og andelen af ikke-motoriseret
transport på hverdage (fcandhv), kontrolleret
for alder, personlig indtægt (persind2) og
indeks for miljøholdninger (miljhold).
o Hvordan skal resultatet tolkes?