Základy popisné statistiky

Download Report

Transcript Základy popisné statistiky

Základy popisné statistiky
aneb známe tři druhy lži:
– úmyslná
– neúmyslná
– statistika
popisná statistika
• cílem je zjednodušit nějaká data tak,
abychom se v nich lépe vyznali
• důsledkem je ztráta informací!
• charakteristiky polohy a variability
Statistika je jako bikini. Co odhaluje je zajímavé, co skrývá je podstatné.
Aaron Levenstein
den
teplota
1.4.2008
11
2.4.2008
10
3.4.2008
10
4.4.2008
9
5.4.2008
8
6.4.2008
7
7.4.2008
8
8.4.2008
9
9.4.2008
4
10.4.2008
9
11.4.2008
8
12.4.2008
7
13.4.2008
8
14.4.2008
9
15.4.2008
12
16.4.2008
13
17.4.2008
15
18.4.2008
11
19.4.2008
12
20.4.2008
10
21.4.2008
9
22.4.2008
8
23.4.2008
9
24.4.2008
11
25.4.2008
10
26.4.2008
9
27.4.2008
6
28.4.2008
6
29.4.2008
7
30.4.2008
12
průměrná teplota: 9.2°C
minimum: 4°C
maximum: 15°C
rozsah: 11°C
modus: 9°C
medián: 9°C
rozptyl: 5.1°C
směrodatná odchylka: 2.3°C
samotná data (11; 10; 10; 9; 8;……) = základní soubor
N = počet prvků základního souboru = 30
(prvek = pozorování)
Xi = hodnota i-tého prvku (X1=11; X16=13;…)
Histogram
histogram četností
12
četnost
10
8
četnost
6
zajímá nás rozložení
dané proměnné v celém
souboru
4
2
al
ší
D
16
14
12
10
8
6
4
0
Třídy
teplota
16.0
14.0
teplota
29
.4
.2
00
8
22
.4
.2
00
8
15
.4
.2
00
8
4.0
2.0
0.0
8.
4.
20
08
zajímá nás vývojový
trend proměnné
12.0
10.0
8.0
6.0
1.
4.
20
08
vývoj proměnné
Různé typy dat
• data na stupnici
– nominální (kategoriální, klasifikační)
• dané třídy (kategorie)
• barva očí, typ podloží,….
– ordinální (pořadová)
• mohu seřadit
• známky ve škole, stupnice tvrdosti,…
– intervalové
•
•
•
•
dané intervaly mezi jednotkami
nemají podíly (nemají jednoznačně danou nulu)
teplota
čas
Když má hlavu v
– cirkulární (pozor na průměry!)
– podílové (poměrné)
• jednoznačně daná nula
• měření,…..
sauně a nohy v
ledničce, hovoří
statistik o příjemné
průměrné teplotě.
Franz Josef Strauß
základní popisné statistiky
základní soubor:
4,5,6,8,12
• průměr
– aritmetický
N
 

Xi
i 1

N
– geometrický
N

5
N
i 1
Xi

1
– harmonický
1
N
N

i 1
4  5  6  8  12
1
Xi

5

35
7
5
4  5  6  8  12  6 , 49
1
11 1 1 1
1 
    

5  4 5 6 8 12 
 6 , 06
vážený průměr
• zobecnění
aritmetického
• zohledňuje důležitost
některých pozorování X 
• potřebuji hodnoty (x1,
x2, x3,…) a jejich váhy
(w1, w2, w3,….)
30 samic má průměr hmotnosti 60
kg, 20 samců má průměr 80 kg.
Celkový průměr není 70 kg, ale
60  30  80  20
30  20
 68
n
xw
i
i 1
n
w
i 1
i
i
normální rozdělení
základní popisné statistiky
• modus
–
–
–
–
nejčastěji se vyskytující hodnota
min. modus = 1, max. modus = N
může jich být víc
odpovídá vrcholu histogramu četností
• medián
– polovina pozorování menší než medián, polovina větší
– střed uspořádaného základního souboru
– další kvantily – kvartily, percentily apod. (86% percentil říká, že 86%
prvků leží pod touto hodnotou a 14% nad ní)
– i pro pouze „seřazená“ data (na ordinální stupnici) – např. jídlo je
vynikající (1), dobré (2), ucházející (3), bez chuti (4), nic moc (5),
hnusné (6), vyvolávající zvracení (7)
– Beaufortova stupnice síly větru, Mohsova stupnice tvrdosti apod.
– v případě „ulítlé“ hodnoty lepší vypovídající hodnota než průměr
základní popisné statistiky
10
8
6
4
2
0
Četnost
11
00
0
15
00
0
19
00
0
24
00
0
28
00
0
32
00
0
D
al
ší
Četnost
• pokud mám platy v podniku:
• 14 520; 11 350; 12 645; 14 520; 13 562; 14 520;
32 458; 38 452; 10 235; 11 548;
• „průměrný plat“ = 16 824
• medián = 13 562
Histogram
Třídy
základní popisné statistiky
základní soubor:
• rozptyl (variance)
– průměrná hodnota
druhé mocniny
odchylky od průměru
N

2

 X
i
 
2
4,5,6,8,12
průměr = 7
( 4  7 )  ( 5  7 )  ( 6  7 )  ( 8  7 )  (12  7 )
2

2

2
5

9  4  1  1  25
8
5
i 1
N
• směrodatná odchylka
– odmocnina z rozptylu
– čím menší, tím nižší
variabilita dat
 

2
2
 
8  2 ,83
2
2

náhodný výběr
• většinou nemáme k dispozici celý základní
soubor (všechny mihule, klešťanky, brambory,
deváťáky apod.)
• provedeme tedy náhodný výběr, ten
zkoumáme a na základě výběrového šetření se
snažíme hypotetický základní soubor popsat
• charakteristiky tedy (sofistikovaně)
odhadujeme!!!
• není snadné provést náhodný výběr
charakteristiky výběru
n
• počet prvků n
• průměr se počítá stejně
X 
s 
• rozptyl (variance) výběru jinak!
• směrodatná odchylka výběru
s
• variační koeficient – porovnává
variabilitu nestejně velkých objektů
(myš a slon) – bezrozměrné číslo
CV 
s
X
s
 (X
i
 X)
í 1
n 1
2
Xi
í 1
n
n
2

2
• směrodatná odchylka výběru
– empirické pravidlo: většina hodnot se neodlišuje od
průměru o více než jednu směrodatnou odchylku a
skoro všechny hodnoty jsou v pásmu do dvou
směrodatných odchylek od průměru.
normální rozdělení:
přesnost odhadu průměru
• výběrový průměr = náhodná veličina! (náhodné
výběry z jednoho základního souboru se liší) 
má také svůj rozptyl
2
s
2
X

s
x
n
• z rozptylu průměru lze spočítat směrodatnou
odchylku průměru = střední chyba průměru
sX 
sx
n
• nepopisuje variabilitu dat, ale přesnost odhadu
Četnost
Histogram
8
4
8
7
2
7
8
2
8
8
4
8
7
2
8
4
8
4
9
3
8
4
6
6
9
15
8
14
7
16
8
12
6
16
9
16
průměr
7.75
7.75
7.75
sm. odchylka
0.90
5.64
0.43
modus
8
4
8
medián
8
4
8
sm. odchylka výběru
0.93
5.83
0.50
střední chyba
průměru
0.23
1.45
0.25
16
16
4
15
10
Četnost
5
0
4
8
12
16
Další
Třídy
Četnost
Histogram
10
5
0
Četnost
4
8
12
16
Další
Třídy
Četnost
Histogram
5
0
4
8
12
Třídy
16
Další
Četnost
n
náhodné výběry:
vždy musím uvádět n,
průměr, sm. odchylku
ostatní podle potřeby
grafy
• vynikající prostředek pro zpřehlednění dat
• také pro klamání čtenáře
Produkce škodlivin
120
Produkce / osobu
100
80
ČR
UK
60
40
20
0
1990
2000
podle Biostatistika, Lepš, PřF
Produkce škodlivin
Produkce (% roku 1990)
120
100
80
ČR
UK
60
40
20
0
1990
2000
podle Biostatistika, Lepš, PřF
Produkce škodlivin
Produkce (% roku 1990)
102
100
98
96
ČR
UK
94
92
90
88
1990
2000
podle Biostatistika, Lepš, PřF
http://alex.state.al.us/lesson_view.php?&print=friendly&id=26406
http://www.coolschool.ca/lor/AMA11/unit1/U01L02.htm
• vždy je třeba vědět z jakého základu se
počítají procenta!
• pozor na tvrzení typu: hodnota klesla o
10% (např. ze 40% na 30%  tedy ve
skutečnosti o 25%!!!, ale o 10 procentních
bodů)
jak na to v excelu?
• statistické funkce
– PRŮMĚR, SMODCH, MODE, MEDIAN, VAR,
ČETNOSTI,… (pozor – maticové vzorce – zaklínadlo
Ctrl+Shift+Enter)
– =SMODCH.VÝBĚR(F1:F16)/ODMOCNINA(POČET(F1:
F16))
• grafy – spojnicové, sloupcové, koláčové
– podle typu dat, záměru
jak na to v excelu?
• pro pokročilé funkce musíme aktivovat
doplněk „analýza dat“
histogram četnosti
• velmi užitečný, zobrazuje přibližné rozdělení
sledované proměnné
• vizualizace frekvence dat
Histogram
12
8
četnost
6
4
2
al
ší
D
16
14
12
10
8
6
0
4
četnost
10
Třídy
program Statistica
jednotlivé
případy
sledovaná proměnná
Program Statistica (data viz
cvic1.xls)
Data zadávám jinak než v excelu!
Program Statistica (data viz
cvic1.xls)
• Statistica mi deskriptivní statistiky vypíše
při provádění statistických testů
• nicméně mohu volat Statistika – Základní
statistika/tabulky – Popisná statistika
• zde mohu dát jen jednu kategorii – pokud
jich mám více, zadám „select cases“
Program Statistica (data viz
cvic1.xls)
• Statistica mi deskriptivní statistiky vypíše
při provádění statistických testů
• nicméně mohu volat Statistika – Základní
statistika/tabulky – Popisná statistika
• zde mohu dát jen jednu kategorii – pokud
jich mám více, zadám „select cases“
Program Statistica (data viz
cvic1.xls)
• v záložce rozšířené (advanced) vyberu,
které charakteristiky chci zobrazit
Program Statistica (data viz
cvic1.xls)
• Histogram – volám Grafy-histogramy
zdroje a materiály
• Lepš J.: Biostatistika
• http://botanika.bf.jcu.cz/suspa/vyuka/statistika.php
• Papáček M., Slipka J., 1997: Úvod do
odborné práce (pro posluchače studia
učitelství biologie). PF JČU, České
Budějovice, 88 s.