Transcript coLektion1
Statistik
Lektion 1
Introduktion
Grundlæggende statistiske begreber
Deskriptiv statistik
Sandsynlighedsregning
Introduktion
Kasper K. Berthelsen, Inst f. Matematiske Fag
Omfang: 8 Kursusgang
I fremtiden Start 8:15??
Kursusgang: 2 x 45 min forelæsning + opgaveregning
Indhold: Groft sagt kapitel 1 til 11 i Newbold
Eksamen: Individuel mundtlig efter 7-trins skala
Eksamen tager udgangspunkt i et antal opgaver.
Software: R
Nogle definitioner
Population: Mængden af alle ”individer” vi er
interesserede i.
fx alle virksomheder i DK
Parameter: Et deskriptivt mål for populationen (for
eksempel middelværdi og varians).
fx gennemsnits antal ansatte
Stikprøve (sample):
Mængde af data taget fra en
delmængde af populationen
fx 10 tilfældigt udvalgte virksomheder
Statistik: Et deskriptivt mål for stikprøven.
fx gennemsnits antal ansatte blandt de 10.
Variabel: En karakteristik af populationen eller
stikprøven
fx antal ansatte, omsætning, region, type
Typisk statistisk problemstilling
Vi ønsker at udtale os om en population (alle flyrejsende)
ud fra en stikprøve (et udsnit af de flyrejsende).
Vi vil udtale os om en parameter for populationen (andelen
af trygge flyrejsende) ud fra en stikprøve statistik
(andelen af trygge flyrejsende i stikprøven).
Parameteren for population er aldrig kendt! (i praksis)
Vigtigt:
Vi er ”ligeglade” med medlemmerne af stikprøven! Det er
populationen vi vil udtale os om!
Lidt om stikprøver
Simpel tilfældig stikprøve:
Alle medlemmer i populationen har lige stor
sandsynlighed for at blive udvalgt til stikprøven
Notation:
N : Størrelsen af populationen (alle vælgere)
n : Størrelsen af stikprøven (antal adspurgte vælgere)
∙
Population
∗
∗
∙
∙
∙
∙
∙
∗
∙
∗ ∙
Stikprøve:
∙
∙ ∙
∗
∙
∗
Deskriptiv versus inferential statistik
Deskriptiv statistik:
Metoder til at organisere og
præsentere data på en
informativ måde.
Inferential statistik
Omhandler: Estimation, test
af hypoteser, analyse af
sammenhæng og
forudsigelse.
Eksempel:
Hvad er middel-indkomsten i
region nord?
Er den større en 300.000?
Deskriptiv Statistik
Data består af en eller flere variable, fx højde, køn, alder,
favoritfarve for hvert medlem i stikprøven.
Hvordan data (de enkelte variable) opsummeres / beskrives
afhænger bl.a. datas ”natur”.
Hovedopdeling: Kategorisk eller numerisk variabel
Kvalitativ variabel: Variablens værdier er beskrivende,
kategorisk variabel, forskelle giver ikke mening.
Kvantitative variable: Variablens værdier er målinger, numerisk
variabel, forskelle giver mening.
Kategoriske variable
Variable hvis værdi er en kategori, fx.
Ryger:
Ja , Nej
Godt vejr:
Meget enig, devis enig, … , meget uenig
Favoritfarve:
Rød, grøn, anden
Ordinal kategorisk variabel
(ordinal = ordnet)
Kategorierne har en rækkefølge (Godt vejr)
Nominal kategorisk variabel
(nominal = navngiven)
Kategorierne har ikke en rækkefølge (Favoritfarve)
Deskriptiv statistik: Kategoriske variable
25
20
15
10
5
Kategorisk variable opsummeres typisk i et bar plot
Højden af baren svarer til frekvensen (dvs. antallet) af
medlemmer af hver kategori.
0
-3
0
2
4
7
10
12
Numerisk Variabel
Variabel der tager en talværdi.
Diskret numerisk variabel
Variabel kan tage et tælleligt antal værdier
Typisk udtryk for et antal
Fx. antal forsikring-anmeldelser på en uge
Kontinuert numerisk variabel
Variabel kan tage alle værdier i et interval
Typisk udtryk for noget man kan måle.
Fx. Højde, vægt, tid, afstand.
Indkomst?
Histogram
700
500
300
100
Histogram of mitdata$vaegt
0
Numeriske data
præsenteres typisk med et
histogram
Histogrammet inddeler et
interval i et passende
antal delintervaller
For hvert del interval er en
kasse, hvis areal er
proportional med
frekvensen (dvs. antallet)
af data i det interval.
Frequency
40
60
80
100
mitdata$vaegt
120
140
Percentiler
Det P’te percentil er den værdi, hvor P% af data ligger
under.
Antag vi har en stikprøve med n observationer.
Antag observationerne er sorterede.
Den P’te percentil er (ca) givet ved den (n+1)P/100’te
observation.
Eksempel: Antag n = 75 og P = 25.
Find en værdi, så 25% af data ligger under denne værdi.
Løsning: Vælg data punkt nr. 76*25/100 = 19
Kvartiler
700
500
Histogram for vægt
300
25% af data ligger under 1. kvartil (Q1)
50% af data ligger under 2. kvartil (Q2)
75% af data ligger under 3. kvartil (Q3)
100
0
Kvartiler inddeler data i kvarte.
1. , 2. og 3. kvartil svarer til 25. , 50., og 75. percentiler.
Frequency
40
60
80
100
mitdata$vaegt
120
140
Boxplot
140
Et boxplot er en grafisk repræsentation af bl.a. kvartiler.
Kassen angiver, hvor de midterste 50% af data ligger.
Højden på kassen er forskellen
mellem 3. kvartil og 1. kvartil,
den såkaldte Inter Quartile
Range (IQR).
Outlier
Knurhårene strækker sig ud til
observationer, der ligger maks
1.5*IQR væk fra kassen.
3. kvartil
max 1,5*IQR
Observationer, der ligger mere
Medianen
end 1.5*IQR borte kaldes
IQR
outliers.
60
1. kvartil
40
80
100
120
Centralitet og Variation
χ
0
χ χ χχ
χ
χ
χ
χ χ χχχ χ χ χ
0
Centralitet: Mål for ”hvor” data ligger
Fx: Median, middelværdi, toppunkt (mode)
Variation: Mål for hvor meget data er spredt ud
Fx spænd (range), varians, standard afvigelse
Centralitet: Median
Medianen er værdien af den ”midterste” observation.
Medianen er 50% percentilen og 2. kvartil.
n = antal observationer
n ulige :
n lige :
Medianen = midterste observation
Medianen = gennemsnit af to midterste obs.
medianen ?
medianen
χ χ χχχ χ χ
0
Data: 7, 9, 11, 12, 13, 15, 17 n = 7
χ
0
χ χχχ χ χ
Gennemsnit / Middelværdi
Populationsgennemsnit (ukendt)
N
i 1
xi
(mean)
x1 x 2 x N
N
N
xi er værdien for i ’te medlem i populationen. μ = ”my”
Stikprøve-gennemsnit
x
n
i 1
n
xi
(sample mean)
x1 x 2 x n
n
x = ”x streg”.
Bemærk: Græske bogstaver betegner det ukendte.
Gennemsnit: Eksempel
Stikprøve-gennemsnittet
x
n
i 1
xi
x1 x 2 x n
n
n
Stikprøve-gennemsnittet
x
7 9 11 12 13 15 17
12
x ?
7
χ χ χχχ χ χ
0
χ
0
χ χχχ χ χ
Eksempel: Vægt
Bemærk at vægt-fordelingen er
lidt højre-skæv, dvs. fordelingen
”hælder” til højre.
500
300
0
100
Frequency
▪ Minimum
▪ 1. kvartil
▪ Median
▪ Gennemsnit
▪ 3. kvartil
▪ Maksimum
▪ Antal manglende svar
700
Histogram for vægt
40
60
80
100
mitdata$vaegt
120
140
Variansen
Variansen er et mål for variationen.
Populationsvariansen (ukendt)
2
x
i 1 i
N
2
N
σ = ”sigma”
Stikprøve-variansen
x
n
s
2
i 1
i
x
2
n 1
De n-1 sikrer at s2 i gennemsnit er lig σ2.
Varians: Eksempel
2
x
x
i 1 i
n
Stikprøve-gennemsnit
Stikprøve-gennemsnit
s
2
n 1
( 7 12 ) ( 9 12 ) (11 12 ) (12 12 ) (13 12 ) (15 12 ) (17 12 )
2
2
s
2
2
2
2
2
7 1
11 , 67
?
χ χ χχχ χ χ
χ
0
0
?
χ χ χχχ χ χ
0
χ χχχ χ χ
2
Standardafvigelsen
Standardafvigelsen er kvadratroden af variansen
Populationens standard afvigelsen (ukendt)
2
x
i 1 i
N
2
N
Stikprøve-standard afvigelsen
2
x
x
i 1 i
n
s
s
2
n 1
R
Intro til R
R
Ifølge wikipedia:
R er et open source statstikprogram og programmeringssprog introduceret i 1993.
Seneste version er 2.12.1
R kan downloades på www.r-project.org
R er i udgangspunktet uden peg-og-klik
Mere end 2000 pakker (udvidelser a la et plugin)
Senere skal vi bruge en pakke specielt til økonometri
I det følgende tager vi udgangspunkt i Windows versionen.
Der eksisterer versioner til Mac og Linux.
Start R
Inden man starter R er det en
god ide at lave en arbejdsmappe, hvor man samler datafiler og .R-filer (kommer vi til
senere).
Når R så er startet, så brug
File → Change dir… til at
vælge arbejdsmappen.
Nu er vi klar!
Ændre default arbejdsmappe
Se data
I min arbejdsmappe har jeg en data-fil der hedder
Sundby95.dat liggende.
Hvis jeg åbner data-filen i Notepad ser den sådan ud:
Data består af 6 kolonner, der hver svarer til en variabel.
Bemærk: Variabelnavnet står øverst i kolonnen!
Luk Notepad igen – ellers går det bare galt ;-)
Hent data ind i R
Vi er nu klar til vores første kommando!
På kommandolinjen skriv:
mitdata = read.table(”Sundby95.dat”, header=TRUE)
Dette læser data-filen ind i en tabel med navnet mitdata.
Med tilføjelsen header=TRUE har vi angivet at variabel navnet er
angivet i øverste række i data-filen.
Man kan se indholdet af tabellen mitdata, med flg. kommando:
fix(mitdata)
Man kan få hjælp ved at skrive ?read.table
Sådan ser data ud
Tænk på tabellen som en matrix med navngivne søjler.
Luk ’Data Editor’ vinduet for at komme videre
Et hurtigt overblik
Man kan få en opsummering af tabellen vha.
summary(mitdata)
Resultat:
For kategoriske variable: Frekvenser for hver kategori.
For kvalitative variable: Mindste værdi, 1. kvartil, median,
middelværdi, 3. kvartil, største værdi, og antal manglende
værdier.
NA = ”Not Available” – manglende observationer.
Den enkelte variabel.
Man kan se hvilke variable tabellen indeholder vha:
Vi vil se nærmere på vægt. Vi kan se indholdet af søjlen med
navnet vaegt frem vha. mitdata$vaegt. Gør man det får
man listet BMI for alle 2742 deltagere… lidt uoverskueligt!
Vi kan få et overblik over vægt vha.
Et par plot
300
Histogram
0
100
Frequency
500
700
Histogram of mitdata$vaegt
40
60
80
100
120
100
80
60
Boxplot
40
140
mitdata$vaegt
120
140
Numeriske opsummeringer
Middelværdi
Percentiler (0%, 25%, 50%, 75%, 100%)
Andre percentiler, fx. 5% og 95%
Standardafvigelsen
R vil ikke udregne gennemsnittet,
når der mangler observationer.
Sandsynligheder
Hændelser
Sandsynligheder
Regler
for sandsynligheder
Udgangspunktet
Eksperiment:
Handling, der leder frem til et af flere mulige udfald
Fx.
Kast med en terning
Vælg 10 tilfældige virksomheder.
Udfald:
Observation eller måling
Fx:
Antal øjne på en terning
10 navngivne virksomheder.
Udfaldsrum
Udfaldsrummet er mængden af mulige udfald af
eksperimentet, S = {O1,O2,…,Ok}
Oi er i’te udfald af
k mulige.
Udfaldene skal være ”udtømmende”
(exhaustive)
Eksempler:
Terningkast: S={1,2,3,4,5,6}
Møntkast: S={plat, krone}
S={1,2,3,4,5} dur ikke!
S={plat} dur ikke
Udfaldene må ikke ”overlappe”
Terningkast: S={1,2,3,4,5,6} –
S={1-2,2-3,3-4,4-5,5-6} dur ikke!
Hændelser
En simpel hændelse er ett udfald i udfaldsrummet
Eksempel: Terningkast – en 6’er er en simpel
hændelse
En hændelse er en delmængde af udfaldsrummet. En
hændelse består typisk af mange udfald.
Eksempel: Terningkast : A={1,4,6} er en hændelse
Hændelser kan indtegnes i et Venn diagram
S
A
Venn Diagram
1, 4, 6
2,3,5
Sandsynlighed
En sandsynlighed er et kvantitativt mål for usikkerhed – et mål
der udtrykker styrken af vores tro på forekomsten af en usikker
begivenhed.
Sandsynligheden for en hændelse, A, betegnes P(A)
En sandsynlighed er et reelt tal mellem 0 og 1.
P(A) = 0 : Hændelsen A sker aldrig
P(A) = 1 : Hændelsen A sker altid
Ex: Sandsynligheden for regn i morgen er 0,5
Ex: Sandsynligheden for at få 7 rigtige i lotto er 0,000000001
Klassisk Sandsynlighed
Antag at alle udfald forekommer med lige stor sandsynlighed. Da er sandsynligheden for en hændelse A givet
ved:
NA
PA
N
hvor
NA er antal udfald i hændelsen A.
N er antal udfald i udfaldsrummet S.
Eksempel: Terningkast – lige sandsynlighed for alle udfald.
Lad A={1,2,4}
NA = 3
N=6
P(A) = 3/6 = 0.5
Regler for sandsynlighed
Givet et udfaldsrum S={O1, O2,…, Ok} da skal
sandsynlighederne opfylde:
1) For enhver hændelse A i udfaldsrummet S
0 P ( A) 1
Dvs. sandsynligheden for en hændelse er et tal mellem 0 og 1.
2) For enhver hændelse A i udfaldsrummet S
P ( A ) P (O i )
Oi A
Dvs. sandsynligheden for en hændelse er summen af
sandsynlighederne for de simple hændelser indeholdt i A.
3) P(S) = 1
Dvs summen af sandsynlighederne for alle simple hændelser i
ufaldsrummet er 1.
Komplimentærmængden
Komplementet af en mængde A, er mængden Ā, der
indeholder alle elementer i S, der ikke er i A.
Eksempel: S={1,2,3,4,5,6} og A={1,4,6}. Så er
Ā={2,3,5}
S
A
Ā
1, 4, 6
2,3,5
Spørgsmål: Antag vi kender P(A) . Find P(Ā) =
Fællesmængden
Fællesmængden af A og B, A ∩ B, er mængden, der
indeholder de elementer, der er i både A og B
S
A
1, 2
A∩B
3
B
4, 5
6
Eksempel:
A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne.
B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne.
A ⋂ B , hændelsen at både A og B indtræffer.
A ⋂ B = {3}
Foreningsmængden
Foreningsmængden af A og B, A U B, er mængden, der
indeholder de elementer, der er i A eller B eller begge
S
A
1, 2
B
3
AUB
4, 5
6
Eksempel:
A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne.
B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne.
A ⋃ B , hændelsen at A og/eller B indtræffer.
A ⋃ B = {1,2,3,4,5}
Spørgsmål
Antag vi kender følgende sandsynlighed
P(A)
A
P(B)
A∩B
1, 2
3
4, 5
P(A ⋂ B)
Hvad er sandynligheden for A ⋃ B
P(A ⋃ B ) =
S
B
6
Den tomme mængde
Den tomme mængde betegnes Ø
P(Ø) =
To mængder er disjunkte, hvis fællesmængden A ∩ B=Ø
S
A={1,2,3}
B={4,5}
A ∩ B={Ø}
A
B
1, 2, 3
4, 5
6
Dvs to disjunkte hændelser ikke kan indtræffe på samme
tid (mutually exclusive).
Antag A ∩ B=Ø. Hvad er da P(A ⋃ B) = ?