Statistik 1 – Lektion 1

Download Report

Transcript Statistik 1 – Lektion 1

Statistik 1 – Lektion 1
By, energi & miljø, forår 2010
v. Morten Skou Nicolaisen
Mål og indhold
o Mål:
Efter kurset skal de studerende forstå de mest brugte
statistiske metoder, og selv kunne benytte disse metoder
på planlægningsrelaterede problemstillinger.
o Indhold:
• Fokus på metodernes egnethed til forskellige
analyseopgaver og på forudsætninger, der skal være
opfyldt.
• Øvelser i praktisk brug af de forskellige
analyseteknikker ved hjælp af et EDB-program (SPSS).
• Ikke fokus på metodernes matematiske grundlag.
Kursets temaer
o Generelt om kvantitative analyser/anvendt
statistik. Hvilke typer problemstillinger egner
statiske analyser sig til?
o Datamatricer og intro til SPSS.
o Beregning af statistiske mål for middelværdi og
spredning.
o Krydstabulering.
o Forskellige teknikker for beregning af korrelation.
o Lineær regression.
o Logistisk regression.
Denne kursusgang
o
o
o
o
o
o
o
o
Hvad kan vi bruge statistik til?
Kausalitet.
Datamatricer.
Måleniveau.
Centraltendens og spredning.
Omkodning.
Krydstabulering.
Intro (med øvelser) til statistikprogrammet SPSS,
herunder kodning og omkodning, beregning af
statistiske mål, konstruktion af krydstabeller,
sammenligning af gennemsnitsværdier samt analyser
på udvalgte dele af datamaterialet.
Hvornår anvendes statistik
o Bør ikke bruges til:
• Studier af plan- og beslutningsprocesser.
• Studier af landskabsmæssige konsekvenser af nye veje eller
kraftledninger.
• Indgående psykologisk forståelse af menneskers handlemønstre.
o Kan bruges til:
• Undersøgelse af hvorvidt der er et flertal blandt en bys
indbyggere for at implementere et givet anlægsprojekt.
• Sammenligning af forskellige befolkningsgruppers vægtning af
egenskaber ved boligmiljøet.
• Studier af hvordan lokaliseringen af boliger i en by påvirker
transportomfanget.
To hovedtyper
o Deskriptiv
• Hvordan ser vores data ud?
• Den ”nemme” del af statistik.
o Analytisk (inferential)
• Hvad kan vi sige ud fra de sammenhænge, som kan
observeres i vores data?
• Den ”svære” del af statistik.
Kausalitet
o Statistisk angiver tendenser, ikke naturlove (specielt
indenfor samfundsvidenskaberne).
o En af de mest almindelige fejl ved brugen af statistik er at
konkludere en kausal sammenhæng hvor dette ikke er
tilfældet.
o Eks: mængden af overtøj henover året er måske
korreleret med mængden af blade på træerne, men det
ville være uklogt at konkludere, at det ene fænomen
forårsager det andet. Tænk jer om og brug jeres sunde
fornuft, når i tolker statistisk data. Teori og praksis skal
stemme overens.
o Statistik kan forklare hvordan tingene hænger sammen,
men ikke hvorfor de hænger sådan sammen.
Datamatricen
ENHEDER
Person
Person
Person
Person
Person
Person
nr.
nr.
nr.
nr.
nr.
nr.
1
2
3
4
5
6
Køn
mand
kvinde
kvinde
mand
kvinde
mand
VARIABLER
Uddannelse
lav
høj
høj
høj
lav
lav
Indtægt
210 000
180 000
260 000
440 000
130 000
150 000
Hvad er en variabel?
o En variabel er en egenskab, der kan variere mellem
forskellige enheder i vores data (en enhed/case vil typisk
repræsentere en person).
o Eksempler på variable:
•
•
•
•
•
•
•
Køn
Alder
Holdning til økologi
Indkomst
Børn
Etnicitet
Afstand til arbejde
Variablernes måleniveau
o Forskellige variable kan have forskellige måleniveauer.
Dette betyder, at forskellige deskriptive mål og analytiske
teknikker egner sig til forskellige data.
o Man opdeler traditionelt i fire forskellige måleniveauer:
•
•
•
•
Nominal: kategorier (eks: stilling)
Ordinal: rangordnede kategorier (eks: holdning)
Interval: rangordnet skala (eks: temperatur mål i celsius)
Ratio: rangordnet skala med absolut nulpunkt (eks: højde)
o Nominal og ordinal er typisk diskret og kvalitativ.
o Interval og ratio er typisk kontinuert og kvantitativ.
o SPSS betragter interval og ratio som ét måleniveau.
Centraltendens og spredning
o Centraltendens
• Modus (mode)
• Median
• Gennemsnit (mean)
o Spredning
• Variationsbredde
• Kvartilafvigelse
• Standardafvigelse (std. deviation)
Modus
o Modus (typetallet) er blot den hyppigst
forekommende værdi i en fordeling.
o Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6
o Modus vil her være 4.
Median
o Medianen er den midterste værdi i en ordnet liste af
observationer.
o Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6
o Medianen vil her være 3,5.
Gennemsnit
o Det (aritmetiske) gennemsnit er det mest benyttede
mål for centraltendens.
o Y 
Y1  Y 2      Y n
n
o Eks: 1 – 1 – 3 – 3 – 4 – 4 – 4 – 6
o Gennemsnittet vil her være 3,25.
En tommelfingerregel
M odus
M edian
G ennem snit
N om inal
O rdinal
Interval
eller ratio






Som alle regler kan denne bøjes lidt efter behov, men pas på
med det og tænk over om det giver mening før i kaster jer ud i
det. Lemfældig omgang med statistiske mål fører ofte til grov
manipulation af resultater, om det så er intentionelt eller ej.
Variationsbredde og kvartilafstand
e
m
u
r
P
r
u
c
c
e
V
1
3
1
1
1
2
6
8
3
3
3
2
5
4
8
4
2
9
9
6
5
2
8
4
0
T
5
1
0
M
8
3
6
9
5
4
T
8
9
T
3
0
Variationsbredden: 5 - 1 = 4
Kvartilafstand: 5 - 2 = 3
Standardafvigelse
o Standardafvigelsen er det mest benyttede mål for en
fordelings spredning.
o s 
2

(Y i  Y )
2
n 1
o 95% af observationerne ligger mellem ± 1,96 std.afv. fra
gennemsnittet/middelværdien.
o Standardafvigelsen må ikke forveksles med standard fejl
(S.E. mean). Matematisk er de beslægtede, men de
udtaler sig om helt forskellige egenskaber ved en
fordeling.
Omkodning
o Omkodning benyttes til at omskrive en variabel til
en anden variabel, muligvis med et nyt
måleniveau.
o Det kan f.eks. bruges til at reducere et stort antal
kategorier til et mere overskueligt sæt eller til at
inddele intervalvariable i kategorier.
o Eks: man skelner ofte mellem børn, unge, voksne
og ældre i stedet for at bruge deres specifikke
alder som variabel.
Krydstabulering
o Bruges til at danne sig et overblik over evt.
sammenhæng mellem to variable.
o Hurtigt at udføre og nemt at forstå.
o Kan bruges på alle måleniveauer, da alle variable
betragtes som nominale.
Eksempel 1
o Datafilen ”Hovedstadsområdet med udvalgte
variabler 2” benyttes.
o SPSS bruges til at finde minimum, maksimum,
median, gennemsnit og standardafvigelse for
variablerne alder og bilhverd.
o Hvad kan vi se ud fra disse tal?
Opgave 1
o Datafilen ”Hovedstadsområdet …” benyttes.
o Undersøg om der er fejlindtastninger for følgende
variable: koen, alder, bilkort, bilant1.
o Korriger evt. fejl i data.
Eksempel 2
o Datafilen ”Hovedstadsområdet …” benyttes.
o SPSS bruges til at undersøge en evt.
sammenhæng mellem respondenternes køn
(koen) og hvorvidt de har kørekort (bilkkort) vha.
krydstabulering.
o Hvad kan vi se ud fra disse tal?
Eksempel 3
o Datafilen ”Hovedstadsområdet …” benyttes.
o Variablen bilafh udtrykker hvor afhængige
respondenterne føler sig af at have en bil til
rådighed, for at få deres hverdagsaktiviteter til at
hænge sammen. Den har tre værdier: 1 (i høj grad), 2
(i nogen grad) og 3 (slet ikke).
o Omkod denne variabel til en ny variabel, bilafh2, der
ikke skelner mellem folk med lav bilafhængighed og
slet ingen bilafhænghed.
o Funktionen transform>recode benyttes.
Opgave 2
o Datafilen ”Hovedstadsområdet …” benyttes.
o Brug transform>recode til at omkode respondenternes alder til
en ny variabel (alder2) med to værdier: høj alder (1) og lav alder
(0). Lad skellet mellem høj og lav alder gå ved medianværdien,
sådan at respondenter med alder lig med medianværdien
kommer i den højeste alderskategori.
o Lav en tilsvarende omkodning af respondenternes rejselængde
med bil på hverdage (bilhverd) til en ny variabel (bilhver2), hvor
medianværdien og højere værdier kodes 1, og værdier under
medianen kodes 0.
o Udfør en enkel krydstabulering mellem alder2 og bilhver2. Er
der nogen sammenhæng mellem alder og bilkørsel?
Eksempel 4
o Datafilen ”Hovedstadsområdet …” benyttes.
o Omkod indtægtsvariablen persindt til en ny variabel,
persindt2, hvor indtægten skal angives i kroneværdier (i
tusinder). Brug hver gruppes gennemsnitlige indkomst
(værdierne findes i spørgeskemaet).
o Hvordan varierer det gennemsnitlige indtægtsniveau
(persindt2) blandt erhvervsaktive personer (jf. variablen
erhvakt) mellem:
• yngre og ældre (alder2)
• mænd og kvinder (koen)
Opgave 3
o Datafilen ”Hovedstadsområdet …” benyttes.
o Gennemsnitlig personlig indtægt (persindt2)
blandt erhvervsaktive (erhvakt) respondenter i
alderen 20-66 år (alder) skal beregnes for hvert af
de 29 undersøgte boligområder (omraad).
o Ser der ud til at være en sammenhæng mellem
boligområder og indkomst? Hvis ja, hvordan
tolker i så denne sammenhæng rent intuitivt?
Eksempel 5
o Datafilen ”Hovedstadsområdet …” benyttes.
o Der skal laves en grafisk fremstilling af, hvordan
andelen med kørekort for bil (bilkkort) varierer mellem
respondenter tilhørende den høje og den lave
aldersgruppe (alder2). Der skal alene ses på
respondenter på 18 år og derover.
o Derefter skal der laves en grafisk fremstilling af,
hvordan andelen med kørekort til bil (bilkkort) varierer
mellem kvindelige og mandlige respondenter (koen)
inden for hver af de to aldersgrupper. Igen ses der
alene på respondenter på 18 år og derover.
Opgave 4
o Datafilen ”Hovedstadsomraadet …” benyttes. Igen
kun respondenter på 18+ år.
o Lav en grafisk fremstilling af, hvordan andelen med
lang rejselængde med bil på hverdage (bilhverd2)
varierer mellem respondenter bosat i forskellige
afstandsbælter fra Københavns centrum (afskat4).
o Lav dernæst en grafisk fremstilling af, hvordan
andelen med lang rejselængde med bil på hverdage
(bilhverd2) varierer mellem erhvervsaktive og ikkeerhvervsaktive respondenter (erhvakt) indenfor
hvert af disse afstandsbælter.
Opgave 5
o Datafilen ”NAMIT” benyttes.
o Er kvinder mere villige end mænd til at prioritere
økonomisk vækst foran miljøhensyn? Benyt
variablerne v47 (køn) og v35 (vækst versus miljø).