Statistika2012_2

Download Report

Transcript Statistika2012_2

STATISTIKA
Ing. Jan Popelka, Ph.D.
odborný asistent
Katedra informatiky a geoinformatiky
Univerzita Jana Evangelisty Purkyně v Ústí nad Labem
email: [email protected]
WWW: http://most.ujep.cz/~popelka
n
b
x  x 
i 1
i
ns
4
4
3
POPISNÁ STATISTIKA
STATISTIKA – 2. PŘEDNÁŠKA
Charakteristiky úrovně
 Charakteristiky variability
 Charakteristiky tvaru rozdělení

3
HODNOTA
(VALUE)
xi
Každá hodnota v souboru má svoji značku.
Index i se nahrazuje číslem a označuje, o kolikátou hodnotu v souboru se
jedná.
Příklad:
Počet kotlů na pevná paliva
v domácnosti:
1202151000100101010
124321100000000
x1 = 1 znamená, že 1. hodnota
souboru je číslo 1.
x20 = 1 znamená, že 20.
hodnota souboru je číslo 1.
4
USPOŘÁDANÁ HODNOTA
(ORDERED VALUE)
x(i )
Hodnoty uspořádané podle velikosti od nejmenší po nejvyšší.
Index v kulaté závorce (i) se nahrazuje číslem a označuje, o kolikátou
hodnotu v uspořádaném souboru se jedná.
Příklad:
Počet kotlů na pevná paliva
v domácnosti:
Seřazený soubor:
0000000000000000011
111111112222345
x(1) = 0 znamená, že 1.
hodnota v uspořádaném
souboru je 1.
x(20) = 1 znamená, že 20.
hodnota v uspořádaném
souboru je 1.
5
POČET HODNOT
(COUNT)
n, N
Udává počet hodnot v souboru
n … počet hodnot ve výběrovém souboru
N … počet hodnot v základním souboru (populaci)
6
MINIMUM
(MINIMUN)
xmin
Nejmenší hodnota souboru.
7
MAXIMUM
(MAXIMUM)
xmax
Největší hodnota souboru.
8
ÚHRN, SUMA
(SUM)

n
x
i 1
i
úhrn
Součet všech hodnot souboru (od první do n-té hodnoty).
9
CHARAKTERISTIKY ÚROVNĚ (POLOHY)
Statistický soubor je nahrazen jen jediným číslem, která v jistém
smyslu vyjadřuje typickou hodnotu popisující celý soubor.



průměry – počítané ze všech hodnot souboru
ostatní střední hodnoty (robustní charakteristiky polohy) – jsou-li
v souboru extrémní (odlehlá) pozorování
useknuté průměry, kvantily – nepočítají se ze všech hodnot souboru
(část hodnot se úmyslně vynechává)
10
ARITMETICKÝ PRŮMĚR
(AVERAGE, MEAN)
x
x1  x2  ... xn 1 n
x
  xi
n
n i 1
Představuje, jaká část součtu hodnot připadá na jednu jednotku souboru.
Poznámka: Citlivý na extrémní hodnoty! Pokud jsou krajní hodnoty souboru příliš vysoké nebo
nízké v porovnání s ostatními, vychýlí to hodnotu průměru. Není příliš objektivním statistickým
ukazatelem.
11
ARITMETICKÝ PRŮMĚR
x
(AVERAGE, MEAN)
Příklad: Průměrný počet obyvatel v krajských městech ČR
je 222 008.
Praha
Brno
Ostrava
Plzeň
Liberec
Olomouc
Ústí nad Labem
Hradec Králové
České Budějovice
Pardubice
Zlín
Karlovy Vary
Jihlava
Průměr
1 272 690
384 277
302 456
169 688
102 247
100 043
950 03
94 242
93 883
91 073
76 010
53 737
50 760
222 008
Brno
Ostrava
Plzeň
Liberec
Olomouc
Ústí nad Labem
Hradec Králové
České Budějovice
Pardubice
Zlín
Karlovy Vary
Jihlava
Průměr
Zdroj: Sčítání lidu, domů a bytů 2011, Český statistický úřad
384 277
302 456
169 688
102 247
100 043
950 03
94 242
93 883
91 073
76 010
53 737
50 760
134 452
12
ARITMETICKÝ PRŮMĚR
x
(AVERAGE, MEAN)
Příklad: Obydlené byty vytápěné plynem podle okresů - Plzeňský
kraj.
Domažlice
Klatovy
Plzeň-jih
Plzeň-město
Plzeň-sever
Rokycany
Tachov
Průměr
6 534
8 397
9 786
26 645
11 834
7 375
6 045
10 945
Domažlice
Klatovy
Plzeň-jih
6 534
8 397
9 786
Plzeň-sever
Rokycany
Tachov
Průměr
11 834
7 375
6 045
8 329
13
Zdroj: Sčítání lidu, domů a bytů 2011, Český statistický úřad
VÁŽENÝ ARITMETICKÝ PRŮMĚR
x
(WEIGHTED MEAN)
n
x  x1w1  x2 w2  ...  xn wn   xi wi
i 1
Vážený průměr se nejvíce využije pro výpočet průměru hodnot
uspořádaných do tabulky četností, a dále pokud nejsou hodnoty v souboru
stejně důležité. Jeho význam je stejný jako u prostého průměru. Hodnoty
musejí mít své váhy wi.
Pro tabulku četností je vahou relativní četnost wi = pi = ni/n.
Pro součet vah platí, že jejich součet je vždy 1 (Σwi = 1).
14
VÁŽENÝ ARITMETICKÝ PRŮMĚR
x
(WEIGHTED MEAN)
Příklad: Průměrná známka z předmětu.
Známka
(xi)
Podíl na konečné
známce
Váha
(wi)
Výpočet
(xi · wi )
4
60 %
0,6
2,4
1
20 %
0,2
0,2
2
20 %
0,2
0,4
100 %
1,0
3
Součet
Průměrná známka
n
x   xi wi
i 1
3
Průměrná známka vypočtená váženým průměrem
je 3.
Průměrná známka vypočtená prostým
průměrem je 2,33 – nevhodný způsob
výpočtu.
15
VÁŽENÝ ARITMETICKÝ PRŮMĚR
x
(WEIGHTED MEAN)
Příklad: Počet kotlů na pevná paliva v domácnosti:
Počet kotlů (xi)
Četnost (ni)
Výpočet (xi·ni)
0
17
0
1
10
10
2
4
8
3
1
3
4
1
4
5
1
5
34
30
Součet
Průměr
30/34 = 0,88
n
n
i 1
i 1
x   xi wi   xi pi 
n
xn
i 1
n
i i
n
i 1
i
16
USEKNUTÝ PRŮMĚR
(TRIMMED MEAN )
xu
x1l  x2l  ...  xnl
1 n l
xu 

xi

n  2l
n  2l i 1l
Stejně velká část největších a nejmenších hodnot (l hodnot) se do výpočtu
průměru nezahrne. Např. desetiprocentní uřezaný průměr znamená, že se
vynechá 10 % nejnižších hodnot a 10 % nejvyšších hodnot a ze zbytku se
počítá průměr. Obvykle se volí 5%, 10% nebo 25% useknutý průměr.
Poznámka: Snaha nezahrnout do výpočtu extrémní hodnoty! Odstraňuje nedostatky prostého
průměru
17
GEOMETRICKÝ PRŮMĚR
xg
(GEOMETRIC MEAN)
xg  n x1  x2  ... xn  n
n
x
i
i 1
Použití pro analýzu vývoje ukazatele v čase. Např. k výpočtu průměrné
procentuální změny sledovaného ukazatele v čase.
Poznámka: Výpočet může být početně velmi náročný a ani MS Excel jej nemusí vždy spočítat.
18
HARMONICKÝ PRŮMĚR
(HARMONIC MEAN)
xh 
xh
n
n
1

i 1 xi
Používán v indexní teorii. Např. průměrný čas pro určení průměrného
výkonu, známe-li doby na stejnou jednotkovou práci nebo průměrná
rychlost.
19
xk
KVADRATICKÝ PRŮMĚR
(QUADRATIC MEAN)
n
xk 
x  x  ...  x

n
2
1
2
2
2
n
x
i 1
2
i
n
20
MODUS
(MODE)
xˆ
Nejčastěji se vyskytující hodnota znaku v souboru.
U diskrétních znaků je modem znak s nejvyšší četností.
U spojitých proměnných se v histogramu projeví tzv. modální interval
(interval s nejvyšší absolutní četností) vrcholem v podobě nejvyššího
sloupce. Z dat uspořádaných v tabulce četností lze modus odhadnout jako
střed třídy s nejvyšší absolutní četností.
Poznámka: Modů může být v souboru více, nebo nemusí být žádný. Jsou-li dva, jde o tzv.
bimodální soubor, je-li jeden, je soubor unimodální.
21
~x
MEDIÁN
(MEDIAN)
Hodnota, dělící seřazený soubor hodnot na dvě poloviny. Polovina hodnot
souboru je stejná nebo menší než je medián a polovina je větší.
~
Lichý počet hodnot souboru - x je prostřední prvek seřazeného souboru.
Sudý počet hodnot - ~
x je průměr dvou prostředních prvků seřazeného souboru.
Z dat uspořádaných v tabulce četností lze medián odhadnout jako střed první
třídy s kumulativní relativní četností vyšší než 50 %.
Poznámka: Není citlivý na extrémní hodnoty! U souborů s extrémy se upřednostňuje před
aritmetickým průměrem.
MS
Excel
fx
Statistické –
MEDIAN
nebo
nebo
= MEDIAN (oblast)
22
Data – Analýza – Analýza
dat – Popisná statistika
CHARAKTERISTIKY ÚROVNĚ
Příklad: Obydlené byty vytápěné plynem podle okresů - Plzeňský
kraj.
Domažlice
Klatovy
Plzeň-jih
Plzeň-město
Plzeň-sever
Rokycany
Tachov
Průměr
Modus
Medián
Useknutý
průměr
6 534
8 397
9 786
26 645
11 834
7 375
6 045
10 945
není
8 397
8 785,2
Domažlice
Klatovy
Plzeň-jih
6 534
8 397
9 786
Plzeň-sever
Rokycany
Tachov
Průměr
11 834
7 375
6 045
8 329
Modus
není
Medián
7 866
Useknutý
průměr
8 328,5
23
CHARAKTERISTIKY ÚROVNĚ
MZDY V ČR
Průměrná hrubá měsíční mzda v ČR v roce 2011 (rok 2010):
celkem - 25 645 Kč(26 881 Kč)
muži - 28 234 Kč (30 192 Kč)
ženy
- 22 389 Kč (22 666 Kč)
Medián hrubá měsíční mzda v ČR v roce 2011 (rok 2010):
celkem - 21 826 Kč (22 608 Kč)
muži - 23 460 Kč (24 693 Kč)
ženy
- 19 808 Kč (20 070 Kč)
Zdroj: Struktura mezd zaměstnanců 2011, Český statistický úřad
24
CHARAKTERISTIKY ÚROVNĚ
MZDY V ČR
Graf vývoje průměrné hrubé mzdy a mediánu hrubých mezd v ČR.
Zdroj: Struktura mezd zaměstnanců 2011, Český statistický úřad
25
CHARAKTERISTIKY ÚROVNĚ
MZDY V ČR
Graf rozdělení hrubé mzdy v ČR v roce 2010.
26
x0,25
x0,75
KVARTILY
(QUARTILE)
25 % resp. 75 % hodnot souboru nabývá hodnoty stejné nebo menší než je
hodnota kvartilu.
x0,25 je dolní kvartil – čtvrtina hodnot je menší nebo rovna tomuto číslu
x0,75 je horní kvartil – tři čtvrtiny hodnot jsou menší nebo rovna než toto
číslo
Poznámka: Medián je 50% kvartil (x0,5)!
MS
Excel
fx
Statistické –
QUARTIL
nebo
= QUARTIL
(oblast;kvartil1)
Pozn.
1zadává
se: 0-minimum, 1dolní kvartil, 2-medián, 3horní kvartil, 4-maximum
xp
KVANTIL
(QUANTILE)
Kvantil je nejobecnější kvantilovou mírou. Zastřešuje předešlé ukazatele.
Hodnota kvantilu říká, že 100p % hodnot souboru nabývá hodnoty stejné
nebo menší než je hodnota kvantilu xp.
Poznámka:
Medián je 50%-ní kvantil.
Kvartily jsou 25%-ní, 50%-ní a 75%-ní kvantily!
Decily jsou 10%-ní, 20%-ní, … , 80%-ní, 90%-ní kvantily!
Percentily jsou 1%-ní, 2%-ní, … , 99%-ní, 100%-ní kvantily!
lze se setkat i se značením x25 .
Poznámka:
MS
Excel
fx
Statistické –
PERCENTIL
nebo
= PERCENTIL
(oblast;kvantil1)
Pozn.
1zadává
se v procentech
nebo v desetinném tvaru
(5% nebo 0,05)
28
xp
KVANTIL
ODHADY KVANTILŮ Z DAT USPOŘÁDANÝCH DO TABULKY ČETNOSTÍ
Třída
Koncentrace
(µg/m3)
Střed
intervalu
x*
Absolutní
četnost ni
Relativní
četnost pi
Kumulativní
absolutní četnost
kni
Kumulativní
relativní četnost
kpi
1
(1,9 – 5,3>
3,6
25
0,24
25
0,24
2
(5,3 – 8,7>
7,0
26
0,25
51
0,49
3
(8,7 – 12,1>
10,4
31
0,29
82
0,78
4
(12,1 – 15,5>
13,8
9
0,09
91
0,87
5
(15,5 – 18,9>
17,2
6
0,06
97
0,93
6
(18,9 – 22,3>
20,6
3
0,03
100
0,96
7
(22,3 – 25,7>
24,0
2
0,02
102
0,98
8
(25,7 – 29,1>
27,4
2
0,02
104
1,00
104
1,00
-
-
Celkem
Příklad: Kolik je podle tabulky četností medián souboru?
10,4 µg/m3.
Medián je střed první třídy, která v kumulativní
relativní četnosti přesáhne hodnotu 0,5.
29
xp
KVANTIL
ODHADY KVANTILŮ Z DAT USPOŘÁDANÝCH DO TABULKY ČETNOSTÍ
Třída
Koncentrace
(µg/m3)
Střed
intervalu
x*
Absolutní
četnost ni
Relativní
četnost pi
Kumulativní
absolutní četnost
kni
Kumulativní
relativní četnost
kpi
1
(1,9 – 5,3>
3,6
25
0,24
25
0,24
2
(5,3 – 8,7>
7,0
26
0,25
51
0,49
3
(8,7 – 12,1>
10,4
31
0,29
82
0,78
4
(12,1 – 15,5>
13,8
9
0,09
91
0,87
5
(15,5 – 18,9>
17,2
6
0,06
97
0,93
6
(18,9 – 22,3>
20,6
3
0,03
100
0,96
7
(22,3 – 25,7>
24,0
2
0,02
102
0,98
8
(25,7 – 29,1>
27,4
2
0,02
104
1,00
104
1,00
-
-
Celkem
Příklad: Kolik je podle tabulky četností dolní kvartil souboru?
7,0 µg/m3.
Dolní kvartil je 25% kvantil, je to první střed první
třídy, která v kumulativní relativní četnosti přesáhne hodnotu 0,25.
30
xp
KVANTIL
ODHADY KVANTILŮ Z DAT USPOŘÁDANÝCH DO TABULKY ČETNOSTÍ
Třída
Koncentrace xi
(µg/m3)
Střed
intervalu
xi*
Absolutní
četnost ni
Relativní
četnost pi
Kumulativní
absolutní četnost
kni
Kumulativní
relativní četnost
kpi
1
(1,9 – 5,3>
3,6
25
0,24
25
0,24
2
(5,3 – 8,7>
7,0
26
0,25
51
0,49
3
(8,7 – 12,1>
10,4
31
0,29
82
0,78
4
(12,1 – 15,5>
13,8
9
0,09
91
0,87
5
(15,5 – 18,9>
17,2
6
0,06
97
0,93
6
(18,9 – 22,3>
20,6
3
0,03
100
0,96
7
(22,3 – 25,7>
24,0
2
0,02
102
0,98
8
(25,7 – 29,1>
27,4
2
0,02
104
1,00
104
1,00
-
-
Celkem
Příklad: Kolik je podle tabulky četností 95% kvantil souboru?
20,6 µg/m3.
Je to první střed první třídy, která v kumulativní
relativní četnosti přesáhne hodnotu 0,95.
31
xˆ
MODUS
ODHAD MODU Z DAT USPOŘÁDANÝCH DO TABULKY ČETNOSTÍ
Třída
Koncentrace
(µg/m3)
Střed
intervalu
x*
Absolutní
četnost ni
Relativní
četnost pi
Kumulativní
absolutní četnost
kni
Kumulativní
relativní četnost
kpi
1
(1,9 – 5,3>
3,6
25
0,24
25
0,24
2
(5,3 – 8,7>
7,0
26
0,25
51
0,49
3
(8,7 – 12,1>
10,4
31
0,29
82
0,78
4
(12,1 – 15,5>
13,8
9
0,09
91
0,87
5
(15,5 – 18,9>
17,2
6
0,06
97
0,93
6
(18,9 – 22,3>
20,6
3
0,03
100
0,96
7
(22,3 – 25,7>
24,0
2
0,02
102
0,98
8
(25,7 – 29,1>
27,4
2
0,02
104
1,00
104
1,00
-
-
Celkem
Příklad: Kolik je podle tabulky četností modus souboru?
10,4 µg/m3.
Modus je nejčastější hodnota souboru. Je to střed
třídy, s nejvyšší absolutní četností.
32
KRABICOVÝ DIAGRAM
(BOX-AND-WHISKER PLOT)
Krabicový diagram je často používaný nástroj pro grafické zobrazení
ukazatelů polohy, především pro porovnání více souborů mezi sebou.
Slouží také odhalení hodnot v souboru, které lze považovat za odlehlé
(extrémní hodnoty). Může se jednat o chybná měření, chyby v přepisu
dat (např. špatně zapsaná desetinná čárka), neobvyklé extrémy atd.
Odlehlé hodnoty jsou takové, které v krabicovém diagramu leží mimo tzv.
vnitřní hradby.
Pokud se takové hodnoty vyskytují, je to signál, že není vhodné používat
např. prostý aritmetický průměr, protože bude vychýlen.
33
KRABICOVÝ DIAGRAM
(BOX-AND-WHISKER PLOT)
Aritmetický průměr
K ra b ic o v ý g ra f
x
Horní kvartil x0,75
Horní vnitřní hradba
hH = x0,75 + 1,5(x0,75 - x0,25)
+
Pokud je hH > maximum, pak je v
grafu zakresleno maximum!
0
20
40
60
80
100
Medián ~x
Dolní kvartil x0,25
Dolní vnitřní hradba hD = x0,25 - 1,5(x0,75 - x0,25)
Pokud je hD < minimum, pak je v grafu zakresleno minimum!
Extrémní (odlehlé) hodnoty
– takových hodnot může být
v souboru i více!
34
KRABICOVÝ DIAGRAM
(BOX-AND-WHISKER PLOT)
Porovnání více souborů mezi sebou pomocí krabicového diagramu.
Krabickovy diagram - koncentrace kovu v ovzdusi (Litomerice 2007 - 2010)
Cd
Pb
As
0
5
10
15
20
koncentrace (µg/m3)
25
30
35
ODLEHLÁ POZOROVÁNÍ
I pohled na tabulku četností nebo histogram může vést k závěru o
existenci odlehlých pozorování v souboru.
Nejedná se o exaktní metodu, je však vhodným a jednoduchým začátkem
před použitím přesnějších ale složitějších metod.
Odlehlé pozorování se projeví osamělou třídou (v grafu jde o osamělý
sloupec) extrémně nízkých, nebo naopak extrémně vysokých hodnot.
Při konstrukci histogramu je vhodné řídit se pravidly o jejich konstrukci
(dodržet odmocninové nebo Sturgesovo pravidlo o vhodném počtu tříd) a
zahrnout všechna pozorování.
36
ODLEHLÁ POZOROVÁNÍ
(HISTOGRAM)
49 hodnot se
pohybuje v
rozmezí 0 – 8 ,
jedna jediná
hodnota je 36.
Ta je odlehlým
pozorováním.
45
40
35
30
25
Osamocená třída s
odlehlým
pozorováním.
20
15
Je jediná ve své
třídě, a tato třída
je osamocena.
10
5
0
0-6
7 - 12
13 - 18
19 - 24
25 - 30
31 - 36
37
ODLEHLÁ POZOROVÁNÍ
(HISTOGRAM)
50 hodnot se
pohybuje v
rozmezí 0 – 8.
25
Žádná třída není
osamocena.
20
Podle
histogramu se v
souboru odlehlá
pozorování
nevyskytují.
15
10
5
0
(0 - 3>
(3 - 4>
(4 - 5>
(5 - 6>
(6 - 7>
(7 - 8>
38
ODLEHLÁ POZOROVÁNÍ
(HISTOGRAM)
Histogramy koncentrací kovů v ovzduší (Litoměřice 2007 – 2010)
pocet dnu s namerenou koncentraci
Histogram - koncentrace Cd (Litomerice 2007 - 2010)
60
50
40
30
20
10
0
0
0,4
0,8
1,2
koncentrace (ug/m3)
1,6
2
39
CHARAKTERISTIKY VARIABILITY
Vyjadřují proměnlivost hodnot, zda jsou si hodně podobné, nebo
zda se od sebe odlišují.
Některé míry umožňují srovnání více souborů, jiné ne!
ukazatele rozpětí – počítají se z vybraných charakteristik
souboru
 rozptyly a směrodatné odchylky – počítané ze všech hodnot
souboru
 další ukazatele (variační koeficient) – nástroje pro srovnávání
různých souborů počítané z dalších charakteristik souboru

40
CHARAKTERISTIKY VARIABILITY
Příklad: Doba strávená cestou autem do zaměstnání
Trasa
Doba strávená na cestě (minuty)
Průměr
1
22
25
27
25
23
22
24
2
15
25
35
30
27
12
24
Doba strávená na cestě (Trasa 1)
Doba strávená na cestě (Trasa 2)
35
30
40
25
35
20
15
10
0
2
4
Pozorování
6
Čas (minuty)
Čas (minuty)
40
30
25
20
15
10
0
2
4
Pozorování
6
41
VARIAČNÍ ROZPĚTÍ
R
(RANGE)
R  xmax  xmin
Rozdíl mezi nejmenší a největší hodnotou souboru.
Poznámka: Stejně jako průměry je citlivý na extrémní hodnoty!
MS
Excel
fx
nebo
Nemá funkci
nebo
Nemá nabídku
42
Data – Analýza – Analýza
dat – Popisná statistika
MEZIKVARTILOVÉ ROZPĚTÍ
Rq
(INTERQUARTILE RANGE)
K ra b ic o v ý g ra f
Rq  x0,75  x0,25
Rq
Rozdíl mezi horním a dolním kvartilem.
0
20
40
Je zobrazen v krabičkovém diagramu jako vzdálenost mezi stěnami
krabičky.
60
80
Poznámka: Je založen na kvantilech, takže není citlivý na extrémní hodnoty!
MS
Excel
fx
43
nebo
Nemá funkci
Nemá nabídku

ROZPTYL (POPULAČNÍ)
(POPULATION VARIANCE)
2
N
 
2
2
(
x


)
 i
i 1
N
Nejpoužívanější míra variability.
Vystihuje rozptýlení (disperzi) jednotlivých hodnot souboru kolem
aritmetického průměru. Počítá se pro základní soubor.
„Aritmetický průměr čtverců (druhých mocnin) odchylek od aritmetického
průměru.“
MS
Excel
fx
Statistické –
VAR
nebo
= VAR(oblast)
44
ROZPTYL (VÝBĚROVÝ)
s
(SAMPLE VARIANCE)
2
n
s 
2
 (x  x)
2
i
i 1
n 1
Počítá se při práci s výběrovým souborem.
Vztah mezi populačním a výběrovým rozptylem:
n 1 2
 
s
n
2
MS
Excel
fx
Statistické –
VAR.VÝBĚR
nebo
= VAR.VÝBĚR
(oblast)
nebo
Data – Analýza – Analýza
dat – Popisná statistika
45
ROZPTYL (VÝBĚROVÝ)
s
(SAMPLE VARIANCE)
Doba strávená na cestě (Trasa 2)
Průměr = 24
Čas (minuty)
40
i
35
x3  x
30
x
25
x6  x
20
15
10
0
2
4
6
Pozorování
n
s2 
 (x  x)
i 1
i
n 1
2
2
xi xi  x ( xi  x )2
1
15
-9
81
2
25
1
1
3
35
11
121
4
30
6
36
5
27
3
9
6
12
-12
144
Celkem
0
Rozptyl výběru
392
78,4
46
VÁŽENÝ ROZPTYL (VÝBĚROVÝ)
s
(SAMPLE WEIGHTED VARIANCE)
2
n
s   ( xi  x ) wi
2
2
i 1
Vážený rozptyl se nejvíce využije, pokud mají data nestejnou váhu nebo jsou
uspořádána v tabulce četností. Vzorec je uveden pro váhy wi.
Pro tabulku četností je vahou relativní četnost wi = pi = ni/n.
Pro součet vah platí, že jejich součet je vždy 1 (Σwi = 1).
MS
Excel
fx
nebo
Nemá funkci
47
nebo
Nemá nabídku
Nutno počítat dle vzorce
VÁŽENÝ ROZPTYL (VÝBĚROVÝ)
s
(SAMPLE WEIGHTED VARIANCE)
n
s 
2
2
2
(
x

x
)
ni
 i
i 1


  ni   1
 i 1 
n
Vážený rozptyl se nejvíce využije, pokud mají data nestejnou váhu nebo
jsou uspořádána v tabulce četností. Vzorec je uveden pro absolutní četnosti
ni z tabulky četností.
MS
Excel
fx
nebo
Nemá funkci
48
nebo
Nemá nabídku
Nutno počítat dle vzorce
VÁŽENÝ ROZPTYL (POPULAČNÍ)
s
(POPULATION WEIGHTED VARIANCE)
2
n
 (x  ) N
2
 
2
i
i 1
i
 n

  Ni 
 i 1 
Vážený populační rozptyl se používá, pokud jsou k dispozici veškerá data o
základním souboru. Vzorec je uveden pro absolutní četnosti Ni v tabulce
četností
MS
Excel
fx
nebo
Nemá funkci
49
nebo
Nemá nabídku
Nutno počítat dle vzorce
SMĚRODATNÁ ODCHYLKA
(POPULAČNÍ)
(POPULATION STANDARD DEVIATION)

N

2
 (x  )
i 1
2
i
N
Na rozdíl od rozptylu je odchylka uvedena ve stejných jednotkách jako
aritmetický průměr.
Poznámka: populační směrodatná odchylka není nic jiného než odmocnina z populačního
rozptylu.
MS
Excel
fx
Statistické –
SMODCH
50
nebo
= SMODCH (oblast)
SMĚRODATNÁ ODCHYLKA
(VÝBĚROVÁ)
s
(SAMPLE STANDARD DEVIATION)
n
s
2
 (x  x )
i 1
2
i
n 1
Stejně jako výběrový rozptyl vychází pouze z výběru.
Poznámka: směrodatná odchylka výběrová není nic jiného něž odmocnina z výběrového rozptylu.
MS
Excel
fx
Statistické –
SMODCH.
VÝBĚR
nebo
= SMODCH.
VÝBĚR(oblast)
nebo
51
Data – Analýza – Analýza
dat – Popisná statistika
v
VARIAČNÍ KOEFICIENT
(COEFFICIENT OF VARIATION)
s
v
x
Slouží k porovnání variability znaků majících odlišné jednotky nebo lišících
se mírou polohy. Uvádí se v procentech.
Udává relativní variabilitu vztaženou k průměru.
Pomáhá také odhalit odlehlé hodnoty. Je-li v > 50% znamená to, že soubor
je nesourodý (obsahuje odlehlá pozorování) a není např. vhodné používat
aritmetický průměr jako charakteristiku polohy.
MS
Excel
fx
nebo
Nemá funkci
52
nebo
Nemá nabídku
Nutno počítat dle vzorce
VARIAČNÍ KOEFICIENT
(COEFFICIENT OF VARIATION)
v
Příklad: Zjišťováním hmotnosti mužů a žen ve věku 50 let, byly
zjištěny následující údaje:
průměrná hmotnost mužů
průměrná hmotnost žen
95 kg
65 kg
sm. odchylka u mužů
sm. odchylka u žen
4 kg
3,32 kg
?? Muži jsou v průměru těžší a mají větší výkyvy hmotnosti.
variační koef. u mužů
variační koef. u žen
4/95 = 0,0421 (4,21%)
3,32/65 = 0,0511 (5,11%)
Muži jsou v průměru skutečně těžší, ale relativně větší výkyvy hmotnosti
mají ženy.
53
CHARAKTERISTIKY TVARU ROZDĚLENÍ
Charakterizují tvar rozdělení, jaké je rozložení hodnot v souboru,
jaké hodnoty převládají.
To, co je někdy patrné z grafického znázornění rozdělení hodnot
(např. sloupcový graf, histogram nebo polygon), vyjadřují pomocí
číselných hodnot.


šikmost – jedním číslem vyjadřuje, zda převládají spíše nízké
hodnoty (podprůměrné) nebo vysoké hodnoty (nadprůměrné).
špičatost – jedním číslem vyjadřuje, zda jsou hodnoty blízko
střední hodnotě (průměru) nebo naopak jsou rozptýlen
Poznámka: Problém těchto ukazatelů je, že různé statistické programy počítají
tyto charakteristiky různě (podle různých vzorců).
54
CHARAKTERISTIKY TVARU ROZDĚLENÍ
Příklad: Rozdělení věku respondentů (fikce)
1000
900
800
700
600
500
400
300
200
100
0
Rozložení hodnot v souboru
je podle histogramů
rozdílné!
Rozdělení
věku
15-20 21-25 26-30 31-35 36-40
41-45 46-50
51-55 56-61
věk
(roky)
1000
četnost
četnost
Rozdělení věku
900
800
700
600
500
400
300
200
100
0
55
15-20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-61
věk (roky)
ŠIKMOST
a
(SKEWNESS)
n
a
x  x 
3
i
i 1
ns
3
Vyjadřuje, jak jsou hodnoty symetricky či asymetricky rozloženy kolem
střední hodnoty. Zda v souboru převládají spíše nízké hodnoty
(podprůměrné) nebo vysoké hodnoty (nadprůměrné).
MS
Excel
fx
Statistické –
SKEW
56
nebo
= SKEW(oblast)
Data – Analýza dat –
Popisná statistika
ŠIKMOST
a
(SKEWNESS)
a>0
symetrické (hodnoty rovnoměrně
rozloženy)
a<0
kladné zešikmení
(převládají nízké hodnoty)
a=0
záporné zešikmení
(převládají vysoké
hodnoty)
57
ŠPIČATOST
b
(KURTOSIS)
n
b
x  x 
4
i
i 1
ns
4
3
Vyjadřuje, jak jsou hodnoty koncentrovány kolem střední hodnoty. Zda
převládají spíše hodnoty blízké střední hodnotě nebo hodnoty odlišné od
střední hodnoty.
MS
Excel
fx
Statistické –
KURT
58
nebo
= KURT(oblast)
Data – Analýza dat –
Popisná statistika
ŠPIČATOST
b
(KURTOSIS)
b<0
normální (hodnoty
rovnoměrně rozloženy)
ploché
(hodnoty nejsou
koncentrovány kolem středu)
b=0
b>0
špičaté (hodnoty
koncentrovány kolem středu –
průměru nebo mediánu)
59
CHARAKTERISTIKY TVARU ROZDĚLENÍ
Příklad: Šikmost a špičatost dat znečištění vzduchu
(Litoměřice, 2007-2010, Pb)
a = 5,1977
kladné zešikmení
(v souboru
převládají nižší,
podprůměrné
hodnoty)
b = 3,6256
špičaté rozdělení
(hodnoty jsou více
koncentrovány
kolem středu)
60
CHARAKTERISTIKY TVARU ROZDĚLENÍ
Příklad: Šikmost a špičatost dat znečištění vzduchu
(Litoměřice, 2007-2010, Cd)
a = 16,83
kladné zešikmení
(v souboru
převládají nižší,
podprůměrné
hodnoty)
b = 48,316
špičaté rozdělení
(hodnoty jsou více
koncentrovány
kolem středu)
61
CHARAKTERISTIKY
DŮLEŽITÉ POJMY – 2. PŘEDNÁŠKA
• Charakteristiky úrovně, variability a tvaru
rozdělení
• Odlehlé hodnoty a robustní charakteristiky
• Krabicový diagram
62