Základy popisné statistiky
Download
Report
Transcript Základy popisné statistiky
Základy popisné statistiky
aneb známe tři druhy lži:
– úmyslná
– neúmyslná
– statistika
popisná statistika
• cílem je zjednodušit nějaká data tak,
abychom se v nich lépe vyznali
• důsledkem je ztráta informací!
• charakteristiky polohy a variability
Statistika je jako bikini. Co odhaluje je zajímavé, co skrývá je podstatné.
Aaron Levenstein
den
teplota
1.4.2008
11
2.4.2008
10
3.4.2008
10
4.4.2008
9
5.4.2008
8
6.4.2008
7
7.4.2008
8
8.4.2008
9
9.4.2008
4
10.4.2008
9
11.4.2008
8
12.4.2008
7
13.4.2008
8
14.4.2008
9
15.4.2008
12
16.4.2008
13
17.4.2008
15
18.4.2008
11
19.4.2008
12
20.4.2008
10
21.4.2008
9
22.4.2008
8
23.4.2008
9
24.4.2008
11
25.4.2008
10
26.4.2008
9
27.4.2008
6
28.4.2008
6
29.4.2008
7
30.4.2008
12
průměrná teplota: 9.2°C
minimum: 4°C
maximum: 15°C
rozsah: 11°C
modus: 9°C
medián: 9°C
rozptyl: 5.1°C
směrodatná odchylka: 2.3°C
samotná data (11; 10; 10; 9; 8;……) = základní soubor
N = počet prvků základního souboru = 30
(prvek = pozorování)
Xi = hodnota i-tého prvku (X1=11; X16=13;…)
Histogram
histogram četností
12
četnost
10
8
četnost
6
zajímá nás rozložení
dané proměnné v celém
souboru
4
2
al
ší
D
16
14
12
10
8
6
4
0
Třídy
teplota
16.0
14.0
teplota
29
.4
.2
00
8
22
.4
.2
00
8
15
.4
.2
00
8
4.0
2.0
0.0
8.
4.
20
08
zajímá nás vývojový
trend proměnné
12.0
10.0
8.0
6.0
1.
4.
20
08
vývoj proměnné
Různé typy dat
• data na stupnici
– nominální (kategoriální, klasifikační)
• dané třídy (kategorie)
• barva očí, typ podloží,….
– ordinální (pořadová)
• mohu seřadit
• známky ve škole, stupnice tvrdosti,…
– intervalové
•
•
•
•
dané intervaly mezi jednotkami
nemají podíly (nemají jednoznačně danou nulu)
teplota
čas
Když má hlavu v
– cirkulární (pozor na průměry!)
– podílové (poměrné)
• jednoznačně daná nula
• měření,…..
sauně a nohy v
ledničce, hovoří
statistik o příjemné
průměrné teplotě.
Franz Josef Strauß
základní popisné statistiky
základní soubor:
4,5,6,8,12
• průměr
– aritmetický
N
Xi
i 1
N
– geometrický
N
5
N
i 1
Xi
1
– harmonický
1
N
N
i 1
4 5 6 8 12
1
Xi
5
35
7
5
4 5 6 8 12 6 , 49
1
11 1 1 1
1
5 4 5 6 8 12
6 , 06
vážený průměr
• zobecnění
aritmetického
• zohledňuje důležitost
některých pozorování X
• potřebuji hodnoty (x1,
x2, x3,…) a jejich váhy
(w1, w2, w3,….)
30 samic má průměr hmotnosti 60
kg, 20 samců má průměr 80 kg.
Celkový průměr není 70 kg, ale
60 30 80 20
30 20
68
n
xw
i
i 1
n
w
i 1
i
i
normální rozdělení
základní popisné statistiky
• modus
–
–
–
–
nejčastěji se vyskytující hodnota
min. modus = 1, max. modus = N
může jich být víc
odpovídá vrcholu histogramu četností
• medián
– polovina pozorování menší než medián, polovina větší
– střed uspořádaného základního souboru
– další kvantily – kvartily, percentily apod. (86% percentil říká, že 86%
prvků leží pod touto hodnotou a 14% nad ní)
– i pro pouze „seřazená“ data (na ordinální stupnici) – např. jídlo je
vynikající (1), dobré (2), ucházející (3), bez chuti (4), nic moc (5),
hnusné (6), vyvolávající zvracení (7)
– Beaufortova stupnice síly větru, Mohsova stupnice tvrdosti apod.
– v případě „ulítlé“ hodnoty lepší vypovídající hodnota než průměr
základní popisné statistiky
10
8
6
4
2
0
Četnost
11
00
0
15
00
0
19
00
0
24
00
0
28
00
0
32
00
0
D
al
ší
Četnost
• pokud mám platy v podniku:
• 14 520; 11 350; 12 645; 14 520; 13 562; 14 520;
32 458; 38 452; 10 235; 11 548;
• „průměrný plat“ = 16 824
• medián = 13 562
Histogram
Třídy
základní popisné statistiky
základní soubor:
• rozptyl (variance)
– průměrná hodnota
druhé mocniny
odchylky od průměru
N
2
X
i
2
4,5,6,8,12
průměr = 7
( 4 7 ) ( 5 7 ) ( 6 7 ) ( 8 7 ) (12 7 )
2
2
2
5
9 4 1 1 25
8
5
i 1
N
• směrodatná odchylka
– odmocnina z rozptylu
– čím menší, tím nižší
variabilita dat
2
2
8 2 ,83
2
2
náhodný výběr
• většinou nemáme k dispozici celý základní
soubor (všechny mihule, klešťanky, brambory,
deváťáky apod.)
• provedeme tedy náhodný výběr, ten
zkoumáme a na základě výběrového šetření se
snažíme hypotetický základní soubor popsat
• charakteristiky tedy (sofistikovaně)
odhadujeme!!!
• není snadné provést náhodný výběr
charakteristiky výběru
n
• počet prvků n
• průměr se počítá stejně
X
s
• rozptyl (variance) výběru jinak!
• směrodatná odchylka výběru
s
• variační koeficient – porovnává
variabilitu nestejně velkých objektů
(myš a slon) – bezrozměrné číslo
CV
s
X
s
(X
i
X)
í 1
n 1
2
Xi
í 1
n
n
2
2
• směrodatná odchylka výběru
– empirické pravidlo: většina hodnot se neodlišuje od
průměru o více než jednu směrodatnou odchylku a
skoro všechny hodnoty jsou v pásmu do dvou
směrodatných odchylek od průměru.
normální rozdělení:
přesnost odhadu průměru
• výběrový průměr = náhodná veličina! (náhodné
výběry z jednoho základního souboru se liší)
má také svůj rozptyl
2
s
2
X
s
x
n
• z rozptylu průměru lze spočítat směrodatnou
odchylku průměru = střední chyba průměru
sX
sx
n
• nepopisuje variabilitu dat, ale přesnost odhadu
Četnost
Histogram
8
4
8
7
2
7
8
2
8
8
4
8
7
2
8
4
8
4
9
3
8
4
6
6
9
15
8
14
7
16
8
12
6
16
9
16
průměr
7.75
7.75
7.75
sm. odchylka
0.90
5.64
0.43
modus
8
4
8
medián
8
4
8
sm. odchylka výběru
0.93
5.83
0.50
střední chyba
průměru
0.23
1.45
0.25
16
16
4
15
10
Četnost
5
0
4
8
12
16
Další
Třídy
Četnost
Histogram
10
5
0
Četnost
4
8
12
16
Další
Třídy
Četnost
Histogram
5
0
4
8
12
Třídy
16
Další
Četnost
n
náhodné výběry:
vždy musím uvádět n,
průměr, sm. odchylku
ostatní podle potřeby
grafy
• vynikající prostředek pro zpřehlednění dat
• také pro klamání čtenáře
Produkce škodlivin
120
Produkce / osobu
100
80
ČR
UK
60
40
20
0
1990
2000
podle Biostatistika, Lepš, PřF
Produkce škodlivin
Produkce (% roku 1990)
120
100
80
ČR
UK
60
40
20
0
1990
2000
podle Biostatistika, Lepš, PřF
Produkce škodlivin
Produkce (% roku 1990)
102
100
98
96
ČR
UK
94
92
90
88
1990
2000
podle Biostatistika, Lepš, PřF
http://alex.state.al.us/lesson_view.php?&print=friendly&id=26406
http://www.coolschool.ca/lor/AMA11/unit1/U01L02.htm
• vždy je třeba vědět z jakého základu se
počítají procenta!
• pozor na tvrzení typu: hodnota klesla o
10% (např. ze 40% na 30% tedy ve
skutečnosti o 25%!!!, ale o 10 procentních
bodů)
jak na to v excelu?
• statistické funkce
– PRŮMĚR, SMODCH, MODE, MEDIAN, VAR,
ČETNOSTI,… (pozor – maticové vzorce – zaklínadlo
Ctrl+Shift+Enter)
– =SMODCH.VÝBĚR(F1:F16)/ODMOCNINA(POČET(F1:
F16))
• grafy – spojnicové, sloupcové, koláčové
– podle typu dat, záměru
jak na to v excelu?
• pro pokročilé funkce musíme aktivovat
doplněk „analýza dat“
histogram četnosti
• velmi užitečný, zobrazuje přibližné rozdělení
sledované proměnné
• vizualizace frekvence dat
Histogram
12
8
četnost
6
4
2
al
ší
D
16
14
12
10
8
6
0
4
četnost
10
Třídy
program Statistica
jednotlivé
případy
sledovaná proměnná
Program Statistica (data viz
cvic1.xls)
Data zadávám jinak než v excelu!
Program Statistica (data viz
cvic1.xls)
• Statistica mi deskriptivní statistiky vypíše
při provádění statistických testů
• nicméně mohu volat Statistika – Základní
statistika/tabulky – Popisná statistika
• zde mohu dát jen jednu kategorii – pokud
jich mám více, zadám „select cases“
Program Statistica (data viz
cvic1.xls)
• Statistica mi deskriptivní statistiky vypíše
při provádění statistických testů
• nicméně mohu volat Statistika – Základní
statistika/tabulky – Popisná statistika
• zde mohu dát jen jednu kategorii – pokud
jich mám více, zadám „select cases“
Program Statistica (data viz
cvic1.xls)
• v záložce rozšířené (advanced) vyberu,
které charakteristiky chci zobrazit
Program Statistica (data viz
cvic1.xls)
• Histogram – volám Grafy-histogramy
zdroje a materiály
• Lepš J.: Biostatistika
• http://botanika.bf.jcu.cz/suspa/vyuka/statistika.php
• Papáček M., Slipka J., 1997: Úvod do
odborné práce (pro posluchače studia
učitelství biologie). PF JČU, České
Budějovice, 88 s.