Transcript coLektion1

Statistik
Lektion 1
Introduktion
Grundlæggende statistiske begreber
Deskriptiv statistik
Sandsynlighedsregning
Introduktion

Kasper K. Berthelsen, Inst f. Matematiske Fag

Omfang: 8 Kursusgang
I fremtiden Start 8:15??
Kursusgang: 2 x 45 min forelæsning + opgaveregning
Indhold: Groft sagt kapitel 1 til 11 i Newbold



Eksamen: Individuel mundtlig efter 7-trins skala
Eksamen tager udgangspunkt i et antal opgaver.

Software: R

Nogle definitioner

Population: Mængden af alle ”individer” vi er
interesserede i.

fx alle virksomheder i DK
Parameter: Et deskriptivt mål for populationen (for
eksempel middelværdi og varians).
fx gennemsnits antal ansatte

Stikprøve (sample):
Mængde af data taget fra en
delmængde af populationen
fx 10 tilfældigt udvalgte virksomheder

Statistik: Et deskriptivt mål for stikprøven.
fx gennemsnits antal ansatte blandt de 10.

Variabel: En karakteristik af populationen eller
stikprøven
fx antal ansatte, omsætning, region, type
Typisk statistisk problemstilling

Vi ønsker at udtale os om en population (alle flyrejsende)
ud fra en stikprøve (et udsnit af de flyrejsende).

Vi vil udtale os om en parameter for populationen (andelen
af trygge flyrejsende) ud fra en stikprøve statistik
(andelen af trygge flyrejsende i stikprøven).

Parameteren for population er aldrig kendt! (i praksis)

Vigtigt:
 Vi er ”ligeglade” med medlemmerne af stikprøven! Det er
populationen vi vil udtale os om!
Lidt om stikprøver


Simpel tilfældig stikprøve:
 Alle medlemmer i populationen har lige stor
sandsynlighed for at blive udvalgt til stikprøven
Notation:
 N : Størrelsen af populationen (alle vælgere)
 n : Størrelsen af stikprøven (antal adspurgte vælgere)
∙
Population
∗
∗
∙
∙
∙
∙
∙
∗
∙
∗ ∙
Stikprøve:
∙
∙ ∙
∗
∙
∗
Deskriptiv versus inferential statistik

Deskriptiv statistik:

Metoder til at organisere og
præsentere data på en
informativ måde.
Inferential statistik
Omhandler: Estimation, test
af hypoteser, analyse af
sammenhæng og
forudsigelse.

Eksempel:

Hvad er middel-indkomsten i
region nord?
Er den større en 300.000?

Deskriptiv Statistik

Data består af en eller flere variable, fx højde, køn, alder,
favoritfarve for hvert medlem i stikprøven.

Hvordan data (de enkelte variable) opsummeres / beskrives
afhænger bl.a. datas ”natur”.

Hovedopdeling: Kategorisk eller numerisk variabel

Kvalitativ variabel: Variablens værdier er beskrivende,
kategorisk variabel, forskelle giver ikke mening.
Kvantitative variable: Variablens værdier er målinger, numerisk
variabel, forskelle giver mening.

Kategoriske variable

Variable hvis værdi er en kategori, fx.
 Ryger:
Ja , Nej
 Godt vejr:
Meget enig, devis enig, … , meget uenig
 Favoritfarve:
Rød, grøn, anden

Ordinal kategorisk variabel
(ordinal = ordnet)
 Kategorierne har en rækkefølge (Godt vejr)
Nominal kategorisk variabel
(nominal = navngiven)
 Kategorierne har ikke en rækkefølge (Favoritfarve)

Deskriptiv statistik: Kategoriske variable
25
20
15
10
5

Kategorisk variable opsummeres typisk i et bar plot
Højden af baren svarer til frekvensen (dvs. antallet) af
medlemmer af hver kategori.
0

-3
0
2
4
7
10
12
Numerisk Variabel

Variabel der tager en talværdi.

Diskret numerisk variabel
 Variabel kan tage et tælleligt antal værdier
 Typisk udtryk for et antal
 Fx. antal forsikring-anmeldelser på en uge

Kontinuert numerisk variabel
 Variabel kan tage alle værdier i et interval
 Typisk udtryk for noget man kan måle.
 Fx. Højde, vægt, tid, afstand.
Indkomst?
Histogram
700
500
300
100

Histogram of mitdata$vaegt
0

Numeriske data
præsenteres typisk med et
histogram
Histogrammet inddeler et
interval i et passende
antal delintervaller
For hvert del interval er en
kasse, hvis areal er
proportional med
frekvensen (dvs. antallet)
af data i det interval.
Frequency

40
60
80
100
mitdata$vaegt
120
140
Percentiler



Det P’te percentil er den værdi, hvor P% af data ligger
under.
Antag vi har en stikprøve med n observationer.
Antag observationerne er sorterede.

Den P’te percentil er (ca) givet ved den (n+1)P/100’te
observation.

Eksempel: Antag n = 75 og P = 25.
Find en værdi, så 25% af data ligger under denne værdi.
Løsning: Vælg data punkt nr. 76*25/100 = 19


Kvartiler
700
500

Histogram for vægt
300

25% af data ligger under 1. kvartil (Q1)
50% af data ligger under 2. kvartil (Q2)
75% af data ligger under 3. kvartil (Q3)
100

0

Kvartiler inddeler data i kvarte.
1. , 2. og 3. kvartil svarer til 25. , 50., og 75. percentiler.
Frequency

40
60
80
100
mitdata$vaegt
120
140
Boxplot


140

Et boxplot er en grafisk repræsentation af bl.a. kvartiler.
Kassen angiver, hvor de midterste 50% af data ligger.
Højden på kassen er forskellen
mellem 3. kvartil og 1. kvartil,
den såkaldte Inter Quartile
Range (IQR).
Outlier
Knurhårene strækker sig ud til
observationer, der ligger maks
1.5*IQR væk fra kassen.
3. kvartil
max 1,5*IQR
Observationer, der ligger mere
Medianen
end 1.5*IQR borte kaldes
IQR
outliers.
60
1. kvartil
40

80
100
120

Centralitet og Variation
χ
0
χ χ χχ
χ
χ
χ
χ χ χχχ χ χ χ
0

Centralitet: Mål for ”hvor” data ligger
 Fx: Median, middelværdi, toppunkt (mode)

Variation: Mål for hvor meget data er spredt ud
 Fx spænd (range), varians, standard afvigelse
Centralitet: Median


Medianen er værdien af den ”midterste” observation.
Medianen er 50% percentilen og 2. kvartil.
n = antal observationer


n ulige :
n lige :
Medianen = midterste observation
Medianen = gennemsnit af to midterste obs.
medianen ?
medianen
χ χ χχχ χ χ
0
Data: 7, 9, 11, 12, 13, 15, 17 n = 7
χ
0
χ χχχ χ χ
Gennemsnit / Middelværdi

Populationsgennemsnit (ukendt)
 

N
i 1
xi
(mean)
x1  x 2    x N

N
N

xi er værdien for i ’te medlem i populationen. μ = ”my”

Stikprøve-gennemsnit
x 

n
i 1
n


xi

(sample mean)
x1  x 2    x n
n
x = ”x streg”.
Bemærk: Græske bogstaver betegner det ukendte.
Gennemsnit: Eksempel

Stikprøve-gennemsnittet
x 

n
i 1
xi

x1  x 2    x n
n

n
Stikprøve-gennemsnittet
x 
7  9  11  12  13  15  17
 12
x ?
7
χ χ χχχ χ χ
0
χ
0
χ χχχ χ χ
Eksempel: Vægt
Bemærk at vægt-fordelingen er
lidt højre-skæv, dvs. fordelingen
”hælder” til højre.
500
300
0
100
Frequency
▪ Minimum
▪ 1. kvartil
▪ Median
▪ Gennemsnit
▪ 3. kvartil
▪ Maksimum
▪ Antal manglende svar
700
Histogram for vægt
40
60
80
100
mitdata$vaegt
120
140
Variansen


Variansen er et mål for variationen.
Populationsvariansen (ukendt)
2


x


 i 1 i
N

2

N


σ = ”sigma”
Stikprøve-variansen
 x
n
s 
2

i 1
i
 x
2
n 1
De n-1 sikrer at s2 i gennemsnit er lig σ2.
Varians: Eksempel
2


x

x
 i 1 i
n

Stikprøve-gennemsnit

Stikprøve-gennemsnit
s 
2
n 1
( 7  12 )  ( 9  12 )  (11  12 )  (12  12 )  (13  12 )  (15  12 )  (17  12 )
2
2
s 
2
2
2
2
2
7 1
 11 , 67
?
χ χ χχχ χ χ
χ
0
0
?
χ χ χχχ χ χ
0
χ χχχ χ χ
2
Standardafvigelsen


Standardafvigelsen er kvadratroden af variansen
Populationens standard afvigelsen (ukendt)
2


x


 i 1 i
N
 

2

N

Stikprøve-standard afvigelsen
2


x

x
 i 1 i
n
s
s
2

n 1
R
Intro til R
R

Ifølge wikipedia:
 R er et open source statstikprogram og programmeringssprog introduceret i 1993.
 Seneste version er 2.12.1
 R kan downloades på www.r-project.org
 R er i udgangspunktet uden peg-og-klik
 Mere end 2000 pakker (udvidelser a la et plugin)
 Senere skal vi bruge en pakke specielt til økonometri
 I det følgende tager vi udgangspunkt i Windows versionen.
Der eksisterer versioner til Mac og Linux.
Start R



Inden man starter R er det en
god ide at lave en arbejdsmappe, hvor man samler datafiler og .R-filer (kommer vi til
senere).
Når R så er startet, så brug
File → Change dir… til at
vælge arbejdsmappen.
Nu er vi klar!
Ændre default arbejdsmappe
Se data





I min arbejdsmappe har jeg en data-fil der hedder
Sundby95.dat liggende.
Hvis jeg åbner data-filen i Notepad ser den sådan ud:
Data består af 6 kolonner, der hver svarer til en variabel.
Bemærk: Variabelnavnet står øverst i kolonnen!
Luk Notepad igen – ellers går det bare galt ;-)
Hent data ind i R






Vi er nu klar til vores første kommando!
På kommandolinjen skriv:
mitdata = read.table(”Sundby95.dat”, header=TRUE)
Dette læser data-filen ind i en tabel med navnet mitdata.
Med tilføjelsen header=TRUE har vi angivet at variabel navnet er
angivet i øverste række i data-filen.
Man kan se indholdet af tabellen mitdata, med flg. kommando:
fix(mitdata)
Man kan få hjælp ved at skrive ?read.table
Sådan ser data ud


Tænk på tabellen som en matrix med navngivne søjler.
Luk ’Data Editor’ vinduet for at komme videre
Et hurtigt overblik





Man kan få en opsummering af tabellen vha.
summary(mitdata)
Resultat:
For kategoriske variable: Frekvenser for hver kategori.
For kvalitative variable: Mindste værdi, 1. kvartil, median,
middelværdi, 3. kvartil, største værdi, og antal manglende
værdier.
NA = ”Not Available” – manglende observationer.
Den enkelte variabel.

Man kan se hvilke variable tabellen indeholder vha:

Vi vil se nærmere på vægt. Vi kan se indholdet af søjlen med
navnet vaegt frem vha. mitdata$vaegt. Gør man det får
man listet BMI for alle 2742 deltagere… lidt uoverskueligt!
Vi kan få et overblik over vægt vha.

Et par plot
300
Histogram
0
100

Frequency
500
700
Histogram of mitdata$vaegt
40
60
80
100
120
100
80
60
Boxplot
40

140
mitdata$vaegt
120
140
Numeriske opsummeringer

Middelværdi

Percentiler (0%, 25%, 50%, 75%, 100%)

Andre percentiler, fx. 5% og 95%

Standardafvigelsen
R vil ikke udregne gennemsnittet,
når der mangler observationer.
Sandsynligheder
Hændelser
Sandsynligheder
Regler
for sandsynligheder
Udgangspunktet


Eksperiment:
 Handling, der leder frem til et af flere mulige udfald
 Fx.
 Kast med en terning
 Vælg 10 tilfældige virksomheder.
Udfald:
 Observation eller måling
 Fx:
 Antal øjne på en terning
 10 navngivne virksomheder.
Udfaldsrum


Udfaldsrummet er mængden af mulige udfald af
eksperimentet, S = {O1,O2,…,Ok}
Oi er i’te udfald af
k mulige.
Udfaldene skal være ”udtømmende”
(exhaustive)

Eksempler:



Terningkast: S={1,2,3,4,5,6}
Møntkast: S={plat, krone}
S={1,2,3,4,5} dur ikke!
S={plat} dur ikke
Udfaldene må ikke ”overlappe”

Terningkast: S={1,2,3,4,5,6} –
S={1-2,2-3,3-4,4-5,5-6} dur ikke!
Hændelser



En simpel hændelse er ett udfald i udfaldsrummet
 Eksempel: Terningkast – en 6’er er en simpel
hændelse
En hændelse er en delmængde af udfaldsrummet. En
hændelse består typisk af mange udfald.
 Eksempel: Terningkast : A={1,4,6} er en hændelse
Hændelser kan indtegnes i et Venn diagram
S
A
Venn Diagram
1, 4, 6
2,3,5
Sandsynlighed

En sandsynlighed er et kvantitativt mål for usikkerhed – et mål
der udtrykker styrken af vores tro på forekomsten af en usikker
begivenhed.

Sandsynligheden for en hændelse, A, betegnes P(A)

En sandsynlighed er et reelt tal mellem 0 og 1.
 P(A) = 0 : Hændelsen A sker aldrig
 P(A) = 1 : Hændelsen A sker altid


Ex: Sandsynligheden for regn i morgen er 0,5
Ex: Sandsynligheden for at få 7 rigtige i lotto er 0,000000001
Klassisk Sandsynlighed

Antag at alle udfald forekommer med lige stor sandsynlighed. Da er sandsynligheden for en hændelse A givet
ved:
NA
PA 
N
hvor
 NA er antal udfald i hændelsen A.
 N er antal udfald i udfaldsrummet S.

Eksempel: Terningkast – lige sandsynlighed for alle udfald.
Lad A={1,2,4}
 NA = 3
N=6
 P(A) = 3/6 = 0.5
Regler for sandsynlighed

Givet et udfaldsrum S={O1, O2,…, Ok} da skal
sandsynlighederne opfylde:
1) For enhver hændelse A i udfaldsrummet S
0  P ( A)  1

Dvs. sandsynligheden for en hændelse er et tal mellem 0 og 1.
2) For enhver hændelse A i udfaldsrummet S
P ( A )   P (O i )
Oi A

Dvs. sandsynligheden for en hændelse er summen af
sandsynlighederne for de simple hændelser indeholdt i A.
3) P(S) = 1

Dvs summen af sandsynlighederne for alle simple hændelser i
ufaldsrummet er 1.
Komplimentærmængden

Komplementet af en mængde A, er mængden Ā, der
indeholder alle elementer i S, der ikke er i A.
 Eksempel: S={1,2,3,4,5,6} og A={1,4,6}. Så er
Ā={2,3,5}
S

A
Ā
1, 4, 6
2,3,5
Spørgsmål: Antag vi kender P(A) . Find P(Ā) =
Fællesmængden

Fællesmængden af A og B, A ∩ B, er mængden, der
indeholder de elementer, der er i både A og B
S
A
1, 2
A∩B
3
B
4, 5
6

Eksempel:
 A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne.
 B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne.
 A ⋂ B , hændelsen at både A og B indtræffer.
 A ⋂ B = {3}
Foreningsmængden

Foreningsmængden af A og B, A U B, er mængden, der
indeholder de elementer, der er i A eller B eller begge
S
A
1, 2
B
3
AUB
4, 5
6

Eksempel:
 A = {1,2,3} , hændelsen at vi slår 1,2 eller 3 øjne.
 B = {3,4,5} , hændelsen at vi slår 3,4 eller 5 øjne.
 A ⋃ B , hændelsen at A og/eller B indtræffer.
 A ⋃ B = {1,2,3,4,5}
Spørgsmål


Antag vi kender følgende sandsynlighed
 P(A)
A
 P(B)
A∩B
1, 2
3
4, 5
 P(A ⋂ B)
Hvad er sandynligheden for A ⋃ B
 P(A ⋃ B ) =
S
B
6
Den tomme mængde



Den tomme mængde betegnes Ø
P(Ø) =
To mængder er disjunkte, hvis fællesmængden A ∩ B=Ø
S
A={1,2,3}
B={4,5}
A ∩ B={Ø}


A
B
1, 2, 3
4, 5
6
Dvs to disjunkte hændelser ikke kan indtræffe på samme
tid (mutually exclusive).
Antag A ∩ B=Ø. Hvad er da P(A ⋃ B) = ?