Statistik 1 * Lektion 1

Download Report

Transcript Statistik 1 * Lektion 1

Statistik 1 – Lektion 5

By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen

Sidste kursusgang

o Tilpasset determinationskoefficient.

o Estimering af værdier for den afhængige variabel kontrolleret for uafhængige variable.

o Grafisk fremstilling af kontrolleret sammenhæng mellem afhængig og uafhængig variabel.

o Dummy variable.

o Kontrol af linearitetsforudsætninger.

o Multikollinearitet.

o Interaktionsled.

o Additive indeks.

Denne kursusgang

o Logistisk regression.

o Opgaver.

o Miniprojekt.

Logistisk (binær) regression

Uaf hæn- gig varia bel Dikotom (med kun 2 værdier) Med flere end 2 værdier Nominalnive au Ordinalnivea u Interval- og forholdstals niveau Dikotom (med kun 2 værdier)     Binær logistisk regression Binær logistisk regression med dummy-variabler Binær logistisk regression med dummy-variabler Binær logistisk regression Nominal regression Ordinal niveau  niveau Multinominal logistisk  Afhængig variabel Med flere end 2 værdier Multinominal logistisk regression Interval- og forholdstalsniveau  Lineær regression  Lineær regression med dummy variabler  Multinominal logistisk regression  Lineær regression med dummy variabler  Multinominal logistisk regression  Oversigt over muligheder til at benytte regressionsanalyse ved forskellige måleniveauer på den uafhængige og den afhængige variabel. Lineær regression

Logistisk regression

Bruges til dikotome variable, hvor OLS ikke giver mening.

Logistisk regression

Dikotome variable kan kun antage værdierne 0 og 1. Vi kan dog betragte værdier mellem 0 og 1 som et udtryk for, hvor sandsynligt det er, at den afhængige variabel antager værdien 1, ud fra værdien af den uafhængige variabel. Denne sammenhæng er dog sjældent lineær, og vores alm. lineære regression giver også værdier udenfor dette interval, der ikke kan tolkes på denne måde. Det giver f.eks. ikke mening, at der er 112% sandsynlighed for, at man har foretaget en erhvervsrejse.

Logistisk regression

Logistisk regression

o Odds: • Angiver hvor stor sandsynligheden er for at et fænomen finder sted, i forhold til sandsynligheden for at det ikke finder sted.

• Odds = p/(1-p), hvor p=sandsynlighed.

• Fjerner den øvre grænse for variablen.

o Logit (log-odds): • Angiver logaritmen til odds.

• • Logit = ln(odds) = a 1 x 1 +a 2 x 2 +…+a n x n +b Fjerner den nedre grænse for variablen.

Logistisk regression

o Den logistiske regressionsmodel giver altså ikke sandsynlighederne for, om den afhængige variabel antager værdien 1. Den angiver logiten for disse sandsynligheder.

o Vi skal derfor omregne regressionskoefficienterne til sandsynligheder, ved at bruge de inverse formler for logit og odds (SPSS kan også udregne disse direkte i regressionsanalysen).

• • • Logit: ln(p/(1-p)) = a 1 x 1 +a 2 x 2 +…+a n x n +b Odds: p/(1-p) = Exp(a 1 x 1 +a 2 x 2 +…+a n x n +b) Sandsynlighed: p = 1/(1+Exp(-(a 1 x 1 +a 2 x 2 +…+a n x n +b)))

Eksempel 1

o Vi vil se på sammenhængen mellem erhvervsrejser (erhvrejs) og årlig personlig indkomst (persind2), med erhvervsrejser som den afhængige variabel.

o Vi laver en (binær) logistisk regression, og vælger at gemme de estimerede sandsynligheder (vælg save>probabilities i menuen til binær logistisk regression).

o Vi plotter nu den nye variabel (PRE_1 el. Predicted Probability) mod indkomst (persind2) i et spredningsdiagram.

Eksempel 1

o Vi vil se på sammenhængen mellem erhvervsrejser (erhvrejs) og årlig personlig indkomst (persind2), med erhvervsrejser som den afhængige variabel.

o Vi laver en (binær) logistisk regression, og vælger at gemme de estimerede sandsynligheder (vælg save>probabilities i menuen til binær logistisk regression).

o Vi plotter nu den nye variabel (PRE_1 el. Predicted Probability) mod indkomst (persind2) i et spredningsdiagram.

Opsummering af kursets indhold

o o o o o o o o o o Statistik som redskab.

Centraltendens.

Spredning.

Omkodning.

Stikprøve vs. population.

Korrelation.

Konfidensinterval.

Signifikans.

Lineær regression.

Logistisk regression.

Opgave 1

o En undersøgelse blandt 879 tilfældigt udvalgte respondenter i Aalborg har vist, at 77% af borgerne ønsker en 3. Limfjordsforbindelse. Beregn et 95% konfidensinterval for dette resultat.

o I en tidligere undersøgelse blandt 916 respondenter var det kun 72% af borgerne, der ønskede forbindelsen. Politikerne har derfor udtalt, at den nye undersøgelse er et udtryk for, at de voksende trængselsproblemer har øget efterspørgslen på en 3. Limfjordsforbindelse blandt byens borgere. Er denne tolkning korrekt?

Opgave 2

o Foretag en krydstabulering af respondenternes køn (koen) og deres bilafhængighed (bilafh). Er der nogen sammenhæng at spore?

o Udvid tabellen med en kontrolvariabel for yngre og ældre respondenter (alder2). Ser respondenternes bilafhængighed ud til at være influeret af alder? Er der forskelle mellem alderens indflydelse for mænd og kvinder?

Opgave 3

o o o o o Udfør en multipel regressionsanalyse af følgende uafhængige variablers effekter på den samlede rejselængde med bil i løbet af ugens hverdage (bilhverd): o Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun).

o Uddannelseslængde (skoleaar).

o Personlig årsindtægt (persind2).

o Hvorvidt respondenten er erhvervsaktiv (erhvakt).

o Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs).

o Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år respondenten er (alder3) .

Respondenter med ekstreme rejselængder skal udelades fra analysen.

Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet af ugens hverdage?

Udfør en ny regression, hvor statistisk insignifikante variable sorteres fra med backward metoden. Hvad sorteres fra?

Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder. Hvilke kønsspecifikke forskelle kan vi se ud fra disse resultater?

Opgave 4

o o o o Undersøg om der er problemer med multikollinearitet, fejlledenens gennemsnit, fordeling og evt. autokorrelation i regressionsanalysen fra opgave 3. Der skal ikke opdeles efter køn længere, men ekstreme rejselængder med bil skal stadig undlades fra analysen.

Find gennemsnittene for de uafhængige variable i regressionsanalyse.

Brug disse gennemsnit til at beregne de forventede rejselængder med bil ud fra boligens afstand til Københavns centrum (afsfun), hvor der kontrolleres for de andre uafhængige variable. Brug et spredningsdiagram til at illustrere sammenhængen mellem forventet rejselængde og boligens afstand til centrum (målt i km)