2. Seminář

Download Report

Transcript 2. Seminář

Aplikovaná statistika
2. seminář
Popisná statistika
Jeden mrtvý je tragédie.
Desítka mrtvých je masakr.
Tisíce mrtvých je statistika.
Základní pojmy:
• Statistický soubor - je množina všech prvků, které jsou
předmětem daného statistického zkoumání.
Podle druhu hodnot dělíme sledované (statistické)
znaky na:
Kvantitativní
diskrétní
spojité
a
kvalitativní
ordinální
nominální
Jednoduché třídění četností
Tarifní
třída (xi)
3
Počet
pracovníků
(ni)
2
Relativní Kumulativní Kumulativní
četnosti
absolutní
relativní
(pi)
četnosti
četnosti
0,027
2
0,027
4
11
0,147
13
0,174
5
19
0,253
32
0,427
6
27
0,360
59
0,787
7
16
0,213
75
1
Celkem
75
1
x
x
Intervalové třídění četností
Intervaly počtu
odpracovaných hodin
Počet pracovníků (ni)
Střed intervalu (xi)
100 – 120
1
110
120 – 140
3
130
140 – 160
2
150
160 – 180
19
170
180 – 200
22
190
200 – 220
22
210
220 – 240
4
230
240 – 260
2
250
Celkem
75
x
Na počet intervalů (tříd) a jejich délku neexistuje jednotný názor, ani obecný
předpis. Používá se řada pravidel pro stanovení počtu tříd, z nichž
uvedeme tzv. Yulesovo pravidlo k  2 ,5 ( n ) 1 / 4
Pro stanovení délky intervalu d se používá tzv. Sturgesovo pravidlo
d 
x max  x min
1  3 ,322 log n
Statistické grafy
Histogram a polygon
• Výsečový graf
pomer = [1, 3, 7, 0.9, 0.5];
pie(pomer);
• Krabičkový graf (vousatá krabička)
X1 = normrnd(5, 1, 100,1);
X2 = normrnd(6, 1, 100,1);
Boxplot([x1,x2],‘notch‘,‘on‘)
• Paretův graf
Situace, kdy 80% následků způsobuje 20 % příčin. Zdůraňuje fakt, že není nutné zabývat se všemi
příčinami, nýbrž že pro dostatečný efekt stačí postihnout pouze nejdůležitější z nich. Např.
seřadíme-li ve výrobě všechny příčiny zmetkovosti dle počtu jimi způsobených zmetků, zjistíme, že
zhruba prvních 20 % příčin nám způsobuje zhruba 80 % všech zmetků, stačí se tedy obvykle
zabývat jimi.
Příčina závady
Počet [Ks]
Chyba navažování
211
Špatné vstupní suroviny
124
Míchání
42
Špatný filtr
20
Nedodržení teplotního režimu
35
Špatné pracovní prostředí
15
Tvary rozdělení
Základní statistické charakteristiky
úroveň
x
Střední hodnoty
variabilita
variační rozpětí
rozptyl
průměry
aritmetický
geometrický
kvadratický
harmonický
chronologický
ostatní střední hodnoty
směrodatná odchylka
variační koeficient
modus
medián
průměrná odchylka
míra variability hodnot kardinální
proměnné
variabilita hodnot kategoriální
proměnné
Kvantily
Kvantil je hodnota, která rozděluje soubor hodnot
určitého statistického znaku na dvě části, jedna
obsahuje ty hodnoty, které jsou menší (nebo
stejné) než tento kvantil, druhá část naopak
obsahuje hodnoty, které jsou větší (nebo stejné)
než kvantil.
Výpočet kvantilu z intervalového rozdělení:
zp je pořadové číslo jednotky, jejíž hodnota
bude hledaný kvantil,
n je počet pozorování,
z p  n1
~
xp 
h p  a p , kde
n2
z p  np  0 ,5
p udává relativní četnosti nižších hodnot,
jejíž horní mez je hledaný kvantil,
n1 je kumulativní četnost jednotek ležících
před kvantilovým intervalem,
n2 je četnost intervalu, v němž leží hledaný
kvantil,
h je délka kvantilového intervalu,
ap je hodnota, která tvoří dolní hranici
kvantilového intervalu.
Medián, modus
•
Medián (padesátiprocentní kvantil), x̃50
- extrémní hodnoty, robustnost
•
Soubor:
20 20 20 20 20 20 30 30 35 35 70 84 95
Počet dat v souboru je 13, tedy liché číslo: medián je tudíž roven (13+1)/2=7 (sedmá hodnota
uspořádané posloupnosti, tedy číslo 30)
Soubor:
20 20 20 20 20 30 30 35 84 95
Počet dat v datovém souboru je 10, tedy sudé číslo: medián je tudíž roven (20+30)/2=25
•
Modus (hodnota s nejvyšší četností)
Soubor: 10 15 20 20 25 38 40
Nejvyšší četnost v tomto datovém souboru zastává hodnota 20.
Př.:
Výpočet mediánu z intervalového rozdělení
četností
Interval
měsíčních
příjmů
- 7 000
7 001 – 7 400
7 401 – 7 800
Počet
pracovníků (ni)
Kumulativní
součty
8
25
32
8
33
65
7 801 – 8 200
8 201 – 8 600
8 601 – 9 000
26
15
6
91
106
112
9 001 – 9 400
9 401 a více
Celkem
3
1
116
115
116
x
1.
Zjistíme pořadové číslo jednotek, z jejichž hodnot medián vypočteme
z p  np  0 ,5  116  0 ,5  0 ,5  58 ,5
Medián tedy leží v intervalu, který obsahuje prvek s pořadovým číslem
58,5. Z posledního sloupce tabulky, jenž obsahuje kumulativní součty,
zjistíme, že nejbližší vyšší číslo, obsahující v sobě hodnotu z0,50 je 65.
Hledaný medián bude tedy ležet v intervalu 7 401 – 7 800. Chceme-li
znát konkrétní hodnotu mediánu, dosadíme do
z p  n1
58 ,5  33
~
xp 
hp  a p 
 400  7401  7719 , 75
n2
32
Odpověď: Střední mzda tedy činí 7 719,75.
Míry polohy
Vahou např. četnost (ni) z
rozdělení četností pro nespojitou
proměnnou s k variantami hodnot
Vážený aritmetický průměr
n
x 
x 1 w 1  x 2 w 2  ...  x n w n
w 1  w 2  ...  w n
xw
i

i
k

i 1
n
w
xi ni
i 1
x 
k

i
i 1
ni
i 1
Př.: Z následující tabulky vypočteme průměrnou tarifní třídu v souboru 75 provozních pracovníků.
(Vážený aritmetický průměr)
k
Tarifní třída (xi)
Počet pracovníků
(ni)
xini
3
2
6
4
11
44
5
19
95
6
27
162
7
16
112
Celkem
75
419
xn
i
x 
i 1

k
n
i
419
 5,6
75
i
i 1
Průměrné tarifní zařazení provozních
pracovníků je tedy 5,6.
Geometrický průměr:
_
uplatnění v případech, kdy hodnoty
tvoří alespoň přibližně geometrickou
řadu
xg 
n
x 1  x 2  ...  x n
analýza časových řad, výpočty tempa růstu atd.
Příklad: Meziroční indexy cen jistého zboží jsou uvedeny v tabulce.
Vypočítejte průměrný cenový index. (je tedy nutné vypočítat geometrický
průměr)
Rok
Cena
Index
88
100
-
89
105
1,050
90
110
1,048
91
116
1,054
92
130
1,121
_
xg 
4
1, 050  1, 048  1, 054  1,121  1, 0678
Harmonický průměr
xh 
n
n

i 1
1
xi
Harmonický průměr z nenulových hodnot statistického souboru je definován
jako podíl rozsahu souboru (počtu členů) a součtu převrácených hodnot znaků.
Jinými slovy je to převrácená hodnota aritmetického průměru převrácených
hodnot zadaných členů.
Používá se, jsou-li hodnoty znaku nerovnoměrně rozloženy kolem
aritmetického průměru, nebo když jsou hodnoty extrémně nízké či vysoké.
Př.: Z údajů v následující tabulce vypočítáme vážený harmonický průměr.
xi
4
ni
5
ni/xi
1,25
6
8
11
12
10
12
15
8
1,67
1,50
1,36
0,67
Součet
50
6,45
k
n
xH 
i
i 1
k

i 1
ni

50
 7 , 75
6 , 45
xi
Harmonický průměr se převážně používá v teorii indexů (výpočet
průměrových tvarů souhrnných indexů)
Kvadratický průměr:
n
xk 
x  x  ...  x
2
1
2
2
n
2
n

x
2
i
i 1
n
Diskrétní verze kvadratického průměru je použita například při výpočtu
směrodatné odchylky.
Spojitý kvadratický průměr je použit při výpočtu efektivní hodnoty
střídavého napětí nebo střídavého proudu.
Chronologický průměr
Druh váženého průměru, užívaný ve statistice k výpočtu průměru
z časových řad.
1
y  2
y 1  y 2  ...  y n 1 
n 1
1
2
yn
Prostý chronologický průměr: prostý chronologický průměr při konstantní
vzdálenosti mezi okamžiky měření
Vážený chronologický průměr: nestejné vzdálenosti mezi okamžiky o velikosti tw
(pro vzdálenost mezi t–tým a (t–1) okamžikem).
Pořadí jednotlivých typů průměrů vypočtených ze
stejného souboru: xh xg x xk
Pro harmonický a geometrický průměr musí být všechny
počítané hodnoty kladné.
Vlastnosti aritmetického průměru:
• Součet jednotlivých odchylek od průměru je nulový.
• Aritmetický průměr konstanty je opět roven konstantě.
• Přičteme-li k jednotlivým hodnotám znaku konstantu, zvýší se o tuto
konstantu i aritmetický průměr.
• Násobíme-li jednotlivé hodnoty znaku konstantou, je touto konstantou
násoben i průměr.
• Násobíme-li váhy aritmetického průměru konstantou, průměr se nezmění.
Další odhady polohy rozdělení
• Useknutý (uřezaný) průměr
- desetiprocentní uřezaný průměr
- vynechá se 10% nejnižších výsledků
- 10% nejvyšších výsledků
- ze zbytku se počítá průměr.
- volí se 5%, 10% nebo 25%
- robustní
• Polosuma - citlivá na odlehlé hodnoty
x
x max  x min
2
Vzájemná poloha průměru a mediánu
Míry variability
Dva různé soubory
R o z d ě le n í s rů z n ý m i p o lo h a m i
500
č e tn o s t
400
300
200
100
0
0
5
10
h o d n o ta z n a k u
15
20
Míry absolutní variability
R  x max  x min
Variační rozpětí
n
Rozptyl

 (x
2

i
 x)
i 1

nebo s
2


Sx 
Interkvartilové rozpětí
Q 
( xi  x )
i 1
n 1
n
Směrodatná odchylka
Kvartilová odchylka
n
2
2
(výběrový)
2
R F  ~x 75  ~x 25
(~
x 75  ~
x )  (~
x ~
x 25 )
2

~
x 75  ~
x 25
2
• Kvartilová odchylka je tedy průměrem kladných sousedních kvartilů.
Viz příklad ve cvičebnici
• Výpočet rozptylu ve váženém tvaru:
Počet
pracovníků
Počet
prodejen (ni)
xi
xini
xi2ni
1–5
9
3
27
81
6 – 10
8
8
64
512
11 – 15
8
13
104
1352
16 – 20
5
18
90
1620
21 – 25
2
23
46
1058
26 – 30
1
28
28
784
Celkem
33
X
359
5407

2
x
n
 i i 
 i 1k


 ni 
i 1

k
2
Sx
2

x
n
 i i  5407  359  2
i 1
 

  45 ,5
k

33
33


 ni 
i 1

k
Vlastnosti rozptylu:
•
•
•
•
Rozptyl konstanty je roven nule.
Přičteme-li ke všem hodnotám znaku konstantu, rozptyl se
nezmění.
Násobíme-li všechny hodnoty znaku konstantou, rozptyl je
násoben čtvercem této konstanty.
Rozptyl součtu (rozdílu) dvou proměnných, kde z i  x i  y i
je roven součtu rozptylů obou proměnných zvětšenému (+) nebo
zmenšenému (-) o dvojnásobek tzv. kovariance, tj.
s z  s x  y  s x  s y  2 s xy
2
•
2
2
2
Předpokládejme, že statistický soubor o rozsahu n statistických jednotek
je rozdělen do k dílčích podsouborů, kde známe dílčí rozptyly, dílčí
průměry a četnosti i-tého podsouboru ni. Potom rozptyl celého souboru
je dán součtem rozptylu dílčích (skupinových) průměrů a průměru z
dílčích (skupinových) rozptylů.
2
2
2
sx  sx  s
Míry relativní variability
• Variační koeficient
Vx 
Sx
x
• Relativní kvartilové odchylky
• Relativní decilové odchylky
• Relativní percentilové odchylky
Q rel
~
x 75  ~
x 25
 ~
x 75  ~
x 25
Viz příklad ve cvičebnici
Charakteristiky šikmosti a špičatosti
Šikmost
• jak jsou hodnoty symetricky či asymetricky rozloženy kolem středu
n
naměřených hodnot
3
 xi  x 
  i 1
koeficient šikmosti
3
ns
• Symetrické - koeficient nula
• sešikmení k vyšším hodnotám - koeficient kladný
• sešikmení k nižším hodnotám - koeficient záporný
• Asymetrických rozdělení - pořadí průměru, mediánu a modu
• sešikmení k vyšším hodnotám
xˆ < x̃50 < x
• sešikmení k nižším hodnotám
xˆ > x̃50 > x
Špičatost
• jak je rozdělení špičaté (strmé) nebo naopak ploché
• koeficient špičatosti:
n
 x
4
normální (Gausovo) rozdělení vychází β=3
i 1
ns
4
R o zd ě le n í s rů zný m i š p ič a to s tm i
250
200
č e tn o s t
 
 xi
150
100
50
0
2
7
12
h o d n o ta z n a k u
17
22
Praktický příklad
Úvod do teorie pravděpodobnosti
•
Házení hrací kostkou,
•
statistické průzkumy,
•
otázky spojené s řízením jakosti,
•
čekání na obsluhu.
statistická
klasická
Definice pravděpodobnosti náhodného jevu
geometrická
axiomatická
Základní pojmy
Náhodný jev
• jev, který za daných podmínek nastat může a nemusí; jeho nastání
je věc náhody
• výsledek náhodného pokusu
• je to výchozí pojem počtu pravděpodobnosti a označujeme ho A,
B, C, …
Jev jistý
• jev, který za daných podmínek nastane vždy
Jev nemožný
• jev, který za daných podmínek nastat nemůže
Elementární náhodný jev
• jev, který se nedá dále rozdělit na podrobnější jevy
• konečný jev
Operace s náhodnými jevy
• Jestliže při každé realizaci jevu A nastává i jev B, pak říkáme, že jev A má
za následek jev B neboli jev A je částí jevu B.
AB
• Jevy A a B jsou rovnocenné, jestliže pokaždé, kdy nastal jev A, nastal
také jev B a naopak.
A=B
• Jev spočívající v nastoupení jak jevu A, tak jevu B nazýváme průnikem
jevů A a B.
A  B (A * B)
• Jev spočívající v nastoupení alespoň jednoho z jevů A a B nazýváme
sjednocení jevů A a B.
A  B (A + B)
• Rozdílem jevů A a B nazýváme jev spočívající v nastoupení jevu A a
současném nenastoupení jevu B.
A-B
• Jev, který spočívá v nenastoupení jevu A, je jevem opačným k jevu A.

• Jevy A a B se nazývají neslučitelné, jestliže výskyt jednoho z nich bude
vylučovat možnost výskytu druhého jevu, tj. jejich průnik je jev nemožný.
AB=
Definice pravděpodobnosti
Klasická definice pravděpodobnosti
• Podle klasické definice pravděpodobnosti nastání jevu A
je dáno poměrem m ku n, kde m je počet všech situací
příznivých jevu A a n je počet všech možných situací,
přičemž n musí být konečné číslo a předpokládá se, že
každá z celkového počtu situací má stejnou šanci
nastat.
Uvažujme tabulku četností a relativních četností stáří 40 studentů v jednom ročníku na nějaké univerzitě. Předpokládejme,
že jsme vybrali jednoho studenta náhodně, míněno tím, že každý student měl stejnou možnost, že bude vybrán.
a) Určete pravděpodobnost, že náhodně vybranému studentovi je 20 let.
Stáří
18
19
20
21
22
23
24
26
35
36
Četnost
2
9
7
7
5
3
4
1
1
1
Relativní
č.
0,050
0,225
0,175
0,175
0,125
0,075
0,100
0,025
0,025
0,025
Řešení:
Z druhého řádku tabulky je vidět, že 7 ze 40 studentů je ve věku 20 let. Tudíž je šance 7 ku 40, že náhodně vybranému
studentovi bude 20 let. Pravděpodobnost je tudíž
počet 20 let starých studentů/celkový počet studentů = 7/40
Všimněme si, že pravděpodobnost, že náhodně vybranému studentovi je 20 let, je stejná jako relativní četnost studentů,
kterým je 20 let (7/40 = 0,175).
b) Určete pravděpodobnost, že náhodně vybraný student bude mladší než 21 let.
Řešení: Z tabulky je vidět, že 18 (2+9+7) studentům je méně než 21 let. Takže f = 18 a pravděpodobnost je rovna
f
N

18
40
 0 , 450
Statistická definice pravděpodobnosti
• V některých případech není splněn základní požadavek
klasické definice pravděpodobnosti, tj. předpoklad
stejné možnosti všech jevů.
• U statistické definice je pravděpodobnost nastání jevu
A přibližně rovna poměru m / n, přičemž m je počet
situací, v nichž reálně nastal jev A a n je počet všech
uskutečněných pokusů.
Př.: pravděpodobnost narození syna
• dle klasické definice:
50 %
• dle statistické definice: 52 % (rodí se více mužů)
Pravidla pro počítání s pravděpodobností
Náhodné jevy
neslučitelné (nemohou nastat současně)
P(A  B) = 0
… průnik
P(A  B) = P(A) + P(B) … sjednocení
slučitelné
• nezávislé … s opakováním
– P(A  B) = P(A) * P(B)
– P(A  B) = P(A) + P(B) - P(A  B)
• závislé
… bez opakování
P(A  B) = P(A) * P(B/A)
nebo
= P(B) * P(A/B)
P(A  B) = P(A) + P(B) - P(A  B)
… průnik
… sjednocení
… průnik
… sjednocení
Jevy nezávislé
• jevy A a B jsou nezávislé, jestliže
pravděpodobnosti nastoupení nebo
nenastoupení jednoho z jevů neovlivňuje
pravděpodobnost nastoupení nebo nenastoupení
jevu druhého
Jevy závislé
• nastoupení jevu A ovlivňuje jevy další
Průzkum sledovanosti televizního pořadu Aréna manželskými páry ukázal, že pravidelně tento pořad
sleduje 30% všech manželek a 50% všech manželů. Zároveň se ukázalo, že tento pořad sleduje 18%
manželských párů. Náhodně vybereme manželský pár. Jaká je pravděpodobnost, že pořad bude
sledovat alespoň jeden z manželů.
Řešení: Označme A = [pořad sleduje manželka] a B = [pořad sleduje manžel]. Ze zadání příkladu
plyne, že P(A) = 0,30 a P(B) = 0,50 a P(A ∩ B) = 0,18. Je zřejmé, že jev [pořad sleduje alespoň jeden
z manželů] je roven sjednocení jevů A a B. Podle vzorce pro výpočet pravděpodobnosti sjednocení
dvou jevů dostaneme
P ( A  B )  P ( A )  P ( B )  P ( A  B )  0 ,30  0 ,50  0 ,18  0 , 62
Tudíž pravděpodobnost, že náhodně vybraný manželský pár sleduje TV pořad Aréna, je
rovna 0,62.
Podmíněná pravděpodobnost
Náhodný jev určujeme vždy k určitým podmínkám. Nejsou-li na výskyt daného jevu A
kladeny žádné další podmínky, potom pravděpodobnost P(A) jevu A označujeme jako
nepodmíněnou pravděpodobnost. Pokud se jev A může vyskytnout pouze tehdy, vyskytl-li se
jev B, jehož pravděpodobnost je P(B) > 0, pak hovoříme o podmíněné pravděpodobnosti
jevu A a označujeme ji P(A | B). Při P(B) > 0 lze pravděpodobnost jevu A, která je
podmíněna výskytem jevu B vyjádřit jako
Máme-li náhodné jevy A1,A2,...,An, pak pravděpodobnost jejich průniku je
Speciálním případem tohoto vztahu je pravděpodobnost průniku dvou jevů A,B, tedy
pravděpodobnost, že jevy A,B nastanou současně. Podle tohoto vztahu je tato
pravděpodobnost rovna součinu pravděpodobnosti jednoho jevu a podmíněné
pravděpodobnosti jevu druhého, tzn.
Hodíme-li jedenkrát pravidelnou hrací kostkou, pak může nastat 6 stejně možných výsledků, tj.
  1, 2 , 3 , 4 , 5 , 6 
Nechť A = [padne číslo 5] a L = [padne liché číslo]. Určete následující pravděpodobnosti: a)
Pravděpodobnost, že padlo číslo 5. b) Podmíněnou pravděpodobnost, že padne číslo 5, za podmínky, že
padlo liché číslo.
Řešení:
a)Vzhledem k tomu, že je šest možných výsledků při hodu jednou kostkou a jev A nastane jen pokud padne
číslo 5, je
1
P ( A) 
 0 ,167
6
b) V tomto případě nastal jev L, že padlo liché číslo, tudíž už není šest možných výsledků, ale pouze 3
možné výsledky. Prostor elementárních jevů je nyní
Tudíž podmíněná pravděpodobnost je P ( A | L ) 
1
 1  1, 3 , 5 
 0 ,333
3
Porovnáme-li tuto pravděpodobnost s pravděpodobností vypočtenou v a) vidíme, že P ( A | L )  P ( A )
to znamená, víme-li, že padlo liché číslo, pak to má vliv na pravděpodobnost, že padne číslo 5.
Formule úplné pravděpodobnosti a Bayesův
vzorec
n
P ( A) 
 P(B
i
)P ( A / Bi )
formule úplné pravděpodobnosti
i 1
V případě, že jsou známy nejen nepodmíněné pravděpodobnosti P(Bi) a
podmíněné pravděpodobnosti P(A/Bi), ale je také známo, že výsledkem
pokusu je nastoupení jevu A, lze podmíněné pravděpodobnosti P(Bi/A)
vypočítat pomocí Bayesova vzorce, který vyplývá z věty o násobění
pravděpodobností a z formule úplné pravděpodoobnosti
P ( Bi / A) 
P (Bi )P ( A / Bi )
n
 P(B
i 1
i
)P ( A / Bi )
pro i = 1, 2, …, n.
Příklad:
Je známo, že 90% výrobků odpovídá standardu. Byla
vypracována zjednodušená kontrolní zkouška, která u
standardního výrobku dá kladný výsledek s
pravděpodobností 0,95, zatímco u výrobku
nestandardního s pravděpodobností 0,20. Jaká je
pravděpodobnost, že výrobek, u něhož zkouška dopadla
kladně je standardní?
Označme:
• Jev A – zkouška u výrobku dopadla kladně,
• Jev B1 – výrobek je standardní,
• Jev B2 – výrobek je nestandardní.
• Pravděpodobnost obou hypotéz B1 a B2 je
P(B1) = 0,9 a P(B2) = 0,1.
Podmíněné pravděpodobnosti jevu A vzhledem k hypotézám B1 a B2
nabývají hodnot P(A/B1) = 0,95 a P(A/B2) = 0,2.
Pak pravděpodobnost, že výrobek, u něhož zkouška dala kladný
výsledek, je standardní, dostaneme
P ( Bi / A) 
P (Bi )P ( A / Bi )
n
 P(B
i 1
i
)P ( A / Bi )

0 , 90  0 ,95
0 ,90  0 ,95  0 ,10  0 , 20
 0 , 98