Statistik 1 * Lektion 1

Transcript Statistik 1 * Lektion 1

Statistik 1 – Lektion 4
By, energi & miljø, forår 2010
v. Morten Skou Nicolaisen
Sidste kursusgang
o Mindste kvadraters metode.
o Spredningsdiagrammer.
o Lineær regression.
o Outliers.
o Regressionskoefficienter.
o Signifikans.
o Transformation for at opnå linearitet.
Denne kursusgang
o Tilpasset determinationskoefficient.
o Estimering af værdier for den afhængige variabel
kontrolleret for uafhængige variable.
o Grafisk fremstilling af kontrolleret sammenhæng
mellem afhængig og uafhængig variabel.
o Dummy variable.
o Kontrol af linearitetsforudsætninger.
o Multikollinearitet.
o Interaktionsled.
o Additive indeks.
Tilpasset determinationskoefficient
o R2 vil altid vokse når vi smider flere variable ind i
modellen. Ved n-1 uafhængige variable har vi
eksempelvis altid R2 = 1, men dette resultat er
fuldstændig meningsløst.
o Tilpasset R2 tager højde for antallet af uafhængige
variable, og er altid mindre end R2. Brug derfor altid
tilpasset R2 ved modeller med mange uafhængige
variable, og når modeller med forskelligt antal
uafhængige variable skal sammenlignes.
o Man kan generelt bare bruge tilpasset R2 for at undgå
at holde styr på begge værdier.
o R2adj = 1 - ( (1-R2)(N-1 / N - k - 1) )
Eksempel 1
o Udelad respondenter med ekstrem rejselængde på hverdage (select
cases, if condition…, hverdtot<897).
o Udfør en multipel regressionsanalyse af følgende uafhængige
variablers effekter på den samlede rejselængde i løbet af ugens
hverdage (hverdtot):
o
o
o
o
o
Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun).
Personlig årsindtægt (persind2).
Hvorvidt respondenten er erhvervsaktiv (erhvakt).
Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs).
Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år
respondenten er (alder3) .
o Vi kan se at R2adj er mindre end R2, men at forskellen ikke er stor.
Det skyldes at antallet af uafhængige variable (k=5) i forhold til
antallet af observationer (n=1635) ikke er særlig stort.
o R2adj = 1 - ( (1-R2)(N-1 / N - k - 1) )
Estimering af værdier (prædiktion)
o Som regel et af de primære formål med at foretage statistisk analyse.
o Vi ønsker måske at kunne udtale os om transportforbruget på baggrund af
afstanden til centrum.
o Vi har en ide om indflydelsen ud fra regressionsanalysen, men vi kan ikke
umiddelbart forudsige noget ud fra bare at se på disse tabelværdier.
o Derfor beregner vi en ny variabel ud fra den model vi har opstillet for
transportforbruget, hvor vi bruger regressionskoefficienterne fra analysen
sammen med gennemsnittet for de uafhængige variable, med undtagelse
af den variabel som vi ønsker at forudsige fra (afsfun) .
o Det svarer til at vi ser på sammenhængen mellem transportforbrug
(hverdtot) og centrumsafstand (centafs) i vores model, hvis alle andre
variable fastholdes.
Eksempel 2
o Vi bruger regressionskoefficienterne fra forrige opgave til at udregne en forventet
værdi for transportforbruget, der afhænger af boligens afstand til Københavns
centrum.
o Model: y=a1x1+a2x2+…+anxn+b
• y: den forventede værdi for transportomfanget (den nye variabel)
• xi: gennemsnittet for variabel i
• ai: regressionskoefficienten for variabel i
• b: regressionskonstanten
o Først finder vi gennemsnittet for persind2, alder3, erhvakt og erhvrejs
(analyze>descriptive statistics>descriptives).
o Så beregner vi den nye variabel hverdforv (brug tranform>compute).
o Vi bruger formlen ovenfor, og indsætter værdierne fra regressionsanalysen og de
respektive gennemsnit.
o NB: For variablen afsfun bruger vi ikke gennemsnittet, men indsætter selve
variablen. Ellers ville vi bare få en ret linje, mens vi ved at afstanden til centrum
ikke har en lineær sammenhæng med transportforbruget, og det er denne
sammenhæng vi gerne vil kunne udtale os om.
Eksempel 2 (fortsat)
Eksempel 2 (fortsat)
o For at lave en grafisk fremstilling af sammenhængen mellem vores nye
variabel for forventet transportforbrug (hverdforv) anvender vi bare et
spredningsdiagram (graphs>legecy dialogs>scatter).
o Vi kan bruge centafs på horisontalaksen selvom vi har brugt den
transformerede variabel afsfun i regressionsanalysen, da afsfun blot er en
funktion på centafs. Dermed får vi plottet sammenhængen mellem
forventet transportmængde (hverdforv) og afstand fra centrum mål i
kilometer (centafs), i stedet for en eller anden obskur måleenhed, som
afsfun er opgivet i.
o Vi har nu en graf, der fint illustrerer den forventede sammenhæng mellem
de to variable, beregnet ud fra vores observationer og model. Den passer
fint overens med de analyser vi har lavet i tidligere kursusgange, hvor vi
bl.a. fik en indikation af at effekten af afstand til Københavns centrum ikke
er særlig stor, når folk bor mere end 30 kilometer væk fra København
Eksempel 2 (fortsat)
Dummy variable
Dikotom (med kun
2 værdier)
 Binær logistisk
regression
Uafhængig
variabel
Afhængig variabel
Med flere end 2 værdier
NominalOrdinalInterval- og
niveau
niveau
forholdstalsniveau
 Multinominal logistisk
 Lineær
regression
regression
Dikotom
(med kun 2 værdier)
Nominalnive  Binær logistisk  Multinominal logistisk
au
regression med
regression
dummy-variabler
 Lineær
regression med
dummyvariabler
 Lineær
regression med
dummyvariabler
 Lineær
regression
Med
Ordinalnivea  Binær logistisk  Multinominal logistisk
flere end u
regression med
regression
2
dummy-variabler
værdier
Interval- og  Binær logistisk  Multinominal logistisk
forholdstalsregression
regression
niveau
Oversigt over muligheder til at benytte regressionsanalyse ved forskellige måleniveauer
på den uafhængige og den afhængige variabel.
Dummy variable
o Dummy variable bruges i tilfælde, hvor man har uafhængige variable på nominal
eller ordinal måleniveau. Det er blot en række dikotome (binære) variable, der
bruges i stedet for den oprindelige variabel, da dikotome variable kan anvendes til
lineær regression.
o Dermed omgår man problemet med, at nominale og ordinale variable ikke har
noget skalaforhold. Har vi f.eks. en variabel, der angiver hvilket amt folk bor i med
et tal (0-4), så giver det ikke mening at regne med, at amt 2 har dobbelt så stor
indflydelse på den afhængige variabel som amt 1, og at amt 0 slet ikke har nogen
indflydelse. Tallene angiver jo kun kategorier, det er ikke en skala.
o Hvis vi i stedet laver en variabel for hvert amt undtagen ét (forklaring følger), så
kan vi f.eks. lade en ny variabel kaldet amt4 have værdien 1 for alle folk i amt 4,
mens folk i amt 0, 1, 2 og 3 har værdien 0. Ligeledes for variablene amt1, amt2 og
amt3. Vi behøver ikke en amt0 variabel, da vi ved at folk i amt 0 bare er dem, der
har værdien nul på alle de andre dummy variable.
o Vi skal altså bruge n-1 dummy variable til en variabel med n kategorier. Fordelen
ved dette frem for kategori variablen er, at vi nu får en regressionskoefficient for
alle amterne (undtagen amt 0), så vi kan måle forskelle i deres indflydelse på den
afhængige variabel. Amt 0s indflydelse er givet i resten af modellen.
Dummy variable
Eksempel på transformation af en ordinal- eller nominalvariabel
med N værdier til N-1 dikotome ”dummyvariabler”
Oprindelig Hustype (Parcelhus = 1, tæt-lav
= 2, etagebyggeri under 7 etg. =
variabel
1
2
3
4
Nye
dummyvariabler
0
0
0
1
0
0
0
1
0
0
0
1
3, højhus (over 7 etg.) = 4)
Tæt-lav
Etagebyggeri under 7 etg.
Højhus (over 7 etg.)
Enhederne med parcelhus vil have 0 som værdi på alle de 3
dummyvariabler. Disse enheder udgør sammenligningsgrundlaget
for de tre dummyvariablers regressionskoefficienter, som angiver
forskellene i forhold til en parcelhus-situation
Opgave 1
o Variablen boligtyp har oprindeligt disse værdier:
1: Parcelhus
2: Række-, kæde- eller gårdhus
3: Tofamiliehus
4: Etagehus
5: Højhus
6: Anden boligtype
o Vi laver en ny variabel boligtyp2 ud fra variablen boligtyp, hvor værdien 6
(anden boligtype) skal omkodes til ”missing value”. De respondenter, der
ikke bor i nogen af de øvrige boligtyper vil dermed automatisk blive
udelukket fra analysen. Denne nye variabel (boligtyp2) skal derefter
omkodes til de tre dummy variabler bolig_taet, bolig_etage og
bolig_hoej, hvor bolig_taet skal inkludere både dem, der bor i række-,
kæde- eller gårdhus og dem, der bor i tofamiliehus (dvs. både værdi 2 og 3
fra boligtyp2).
Opgave 1 (fortsat)
Opgave 2
o Vi vil nu bruge de nye dummy variable til
regressionsanalyse.
o Vi vil undersøge hvordan de forskellige boligtyper
påvirker tætheden af indbyggere og arbejdspladser
indenfor det boligområde, hvor boligen ligger
(omrtaet). Lav en regressionsanalyse, som viser
dette.
o Hvor høj er befolkningstætheden gennemsnitligt i de
boligområder, hvor respondenterne bosat i
henholdsvis enfamiliehuse, tæt-lav bebyggelse,
etagehuse og højhuse hører hjemme?
Kontrol af linearitetsforudsætninger
o Spredningsdiagrammer.
o Partiel korrelation.
o Casewise diagnostics.
o Durbin-Watson (bør ligge mellem 1,5-2,5).
o Residualplots.
Multikollinearitet
o Multikollinearitet i regressionsmodellen opstår, hvis
to eller flere uafhængige variable har høj indbyrdes
korrelation.
o Dette svækker ikke som sådan modellens
prædiktionsevne ellers reliabilitet, men det gør det
svært at estimere individuelle variables indflydelse.
o Tolerance under 0,2 og/el. VIF over 5 (variance
inflation factor) er en stærk indikation af
multikollinearitet.
Eksempel 3
o Vi laver en regressionsanalyse med biltransport på hverdage som
den afhænge variabel. Fravælg først respondenter med ekstreme
rejselænger (dvs. bilhverd<820).
o De uafhængige variable skal være:
• Tæthed i lokalområdet (loktaet).
• Uddannelseslængde (skoleaar).
• Personlig årsindkomst (persindt2).
• Erhvervsaktivitet (erhvakt).
• Erhvervsrejse (erhvrejs).
• Alder i forhold til 50 år (alder3).
• Bilejerskab (bilejer).
o Undersøg Durbin-Watson koefficienten, gennemsnittet for
residualerne og evt. multikollinearitet.
Opgave 3
o Udfør nu samme regressionsanalyse som i eksempel 3, men tilføj
følgende uafhængige variable:
• Antal indbyggere per hektar (inbhlok).
• Antal arbejdsplads i lokalområdet (arbhalok).
o Undersøg også her Durbin-Watson koefficienten, gennemsnittet for
residualerne og evt. multikollinearitet.
• Virker regressionskoefficienterne troværdige?
 Hvis ja, hvorfor virker de troværdige?
÷ Hvis nej, giver nogle af vores tests en ide om hvor problemet ligger?
Interaktionsled
o Interaktionsled kan bruges når styrken af sammenhængen mellem
to variable er afhængig af en tredje variabel.
o Det kan betragtes lidt som en situation, hvor den samlede effekt af
to variable er større end summen af deres individuelle effekt.
o Et eksempel på dette kunne være tæthed i lokalområdet og
bilejerskab, og deres indflydelse på samlet transport. Vi forventer at
begge variable har en indflydelse på transportforbruget, men vi
forventer måske også at bilejerskab har meget mindre indflydelse i
tæt bebyggede områder, hvor man har mange andre
transportmuligheder, uanset om man har en bil eller ej.
o Man beregner blot den nye variabel med transform>compute, og
indsætter derefter den nye variabel som uafhængig variabel.
o Der kan opstå høj kollinearitet ved brugen af interaktionsled!
Opgave 4
o Lav en ny variabel lokbil, der er en interaktionsvariabel
mellem tætheden i lokalområdet (loktaet) og
bilejerskabet (bilejer).
o Lav samme regressionsanalyse som i opgave 3, men fjern
de to uafhængige variable, der skabte problemer
(inbhlok og arbhlok), og tilføj den nye variabel lokbil
samt variablen.
o Vi kan se at forklaringsgraden stiger en smule, men der
bliver problemer med kollinearitet.
Opgave 5
o Udfør samme regressionsanalyse som i
eksempel 4, men vælg denne gang backward i
stedet for enter som modelsøgnings metode
(under method).
o Hvilke ændringer sker der i modellen?
Hvorfor?
Additive indeks
o
o
o
o
o
Additive indeks er blot en sammenlægning af flere forskellige nominelle eller ordinale
variables værdier.
Det kan f.eks. være at man har haft mange forskellige spørgsmål omkring folks holdning til
specifikke spørgsmål om deres holdning til forskellige udsagn, der alle er samlet under et
hovedemne. Man kan så efterfølgende lave et additivt indeks for respondenternes samlede
holdning til dette emne.
Man skal være opmærksom på, at spørgsmålene kan være stillet på en måde, så en høj score
i et spørgsmål kan være udtryk for en positiv holdning overfor emnet, mens en høj score i det
næste spørgsmål er udtryk for en negativ holdning. Det kan derfor være nødvendigt at
omkode variablene eller tage højde i formlen for den nye variabel.
Et eksempel kunne være holdning til reduktion CO2 udledning, hvor meget enig = 1 og meget
uenig = 10:
• Udsagn 1: Jeg arbejder aktivt for at reducere mit CO2 udslip.
• Udsagn 2: Jeg rejser med tog i stedet for fly når det er muligt.
• Udsagn 3: Jeg foretrækker at køre i min egen bil.
Det burde være klart, at hvis man er meget enig i de to første udsagn, og meget uenig i det
tredje, så er man positivt indstillet overfor reduktion af CO2 udledning. Men man kan ikke
bare lægge alle tallene sammen, da enig alle steder er kodet som værdien 1, uanset om
udsagnet er for eller imod CO2 udledning.
Opgave 6
o
o
o
o
Nedenfor ses et uddrag af spørgeskemaet til undersøgelsen i Hovedstadsområdet. Svarene er
kodet med værdien 1 for ”helt enig” op til værdien 5 for ”helt uenig”.
Lav et additivt indeks kaldet transphold for respondenters holdning til kollektiv transport ud
fra deres svar på de to nedenstående udsagn (svarene ligger hhv. i variablene transp4 og
transp6).
Indekset skal være en sum, hvor en positiv værdi angiver en positiv holdning til kollektiv
transport, mens en negativ værdi angiver en negativ holdning til kollektiv transport.
Foretag til slut en lineær regressionsanalyse med det nye indeks som afhængig variabel, og
koen, skoleaar og alder2 som uafhængige variable. Tolk resultatet.
Opgave 7 (repetition)
o En undersøgelse blandt 879 tilfældigt udvalgte
respondenter i Aalborg har vist, at 77% af borgerne
ønsker en 3. Limfjordsforbindelse. Beregn et 95%
konfidensinterval for dette resultat.
o I en tidligere undersøgelse blandt 916 respondenter var
det kun 72% af borgerne, der ønskede forbindelsen.
Politikerne har derfor udtalt, at den nye undersøgelse er
et udtryk for, at de voksende trængselsproblemer har
øget efterspørgslen på en 3. Limfjordsforbindelse blandt
byens borgere. Er denne tolkning korrekt?
Opgave 8 (repetition)
o Udfør en multipel regressionsanalyse af følgende uafhængige variablers
effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot):
o
o
o
o
o
o
Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun2).
Uddannelseslængde (skoleaar).
Personlig årsindtægt (persind2).
Hvorvidt respondenten er erhvervsaktiv (erhvakt).
Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs).
Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år
respondenten er (alder3) .
o Respondenter med ekstreme rejselængder skal udelades fra analysen.
o Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet
af ugens hverdage?
o Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder.
o Hvilke kønsspecifikke forskelle kan vi se ud fra resultaterne?
Næste gang
o Logistisk regression.
• Bruges når den afhængige variabel er dikotom.
• Kort gennemgang da det ikke er centralt for pensum.
o Forberedelse til eksamen.
• Vi gennemgår nogle typeopgaver fra kurset.
• Hvis i har spørgsmål enten til teori, opgaver eller
eksamensformen er der rigeligt med tid til dem.
o Miniprojekt.
• I får opgaverne til miniprojektet udleveret til frokost.
• Der er ingen der forhindrer jer i at arbejde sammen om
opgaverne, men husk nu at eksaminationen er individuel.

Statistik 1 * Lektion 1

Transcript Statistik 1 * Lektion 1

Directory