1. Uvod do statistiky09

Download Report

Transcript 1. Uvod do statistiky09

ÚVOD DO STATISTIKY
„Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky“ (Swoboda 1977)
•
•
Význam statistiky ve vědě
Základní pojmy statistiky
•
Statistická jednotka, znak a soubor,..
•
Elementární postupy statistiky
•
Grafické zpracování dat
- variační řada
- statistické třídění
- diagramy
- histogram
- frekvenční polygony
HENDL,J. Přehled statistických metod zpracování dat. 1.vyd. Praha, Portál, 2004.ISBN80-7178-820-1.
MELOUN, M. MILITKÝ, J. Kompendium statistického zpracování dat. 1. vyd. Praha: Academia, 2002. ISBN 80-200-1008-4.
ANDĚL, J. Statistické metody. 3. vyd. Praha: matfyzpress, 2003. ISBNB80-86732-08-8.
http://ucebnice.euromise.cz/ndex.php?conn=0&section=biostat1
Význam statistiky ve vědě
Za základní cíl vědy je možné považovat “obecné porozumění” pozorovaným jevům
V současnosti se v něm objevují dvě obecné koncepce vědeckého poznávání: - kvantitativní výzkum
- kvalitativní výzkum
Kvantitativní výzkum
je důkladně rozpracován a opírá se o hypoteticko deduktivní princip ověřování teorií a
využití statistických metod
Hlavní fáze kvantitativního výzkumu
Teorie
Hypotézy
SBĚR
dat
ANALÝZA
dat
Výsledky
STATISTICKÉ METODY TVOŘÍ MOST MEZI VĚDECKOU TEORIÍ A EMPIRICKÝM VÝZKUMEM.
Význam statistických metod pro rozvoj vědy
- při zjišťování jednotlivých zákonitostí přispívajících k dílčí explanaci jednotlivých jevů
- při budování a formalizaci vědecké teorie, která má v kontextu explanační funkci
Pojetí statistiky, základní pojmy
Statistika - teoretická disciplína, zabývající se metodami
zkoumání stavu a vývoje kvantitativní stránky hromadných jevů
Statistická jednotka
je nositel hromadného jevu
- jisté
vlastnosti, která se vyskytuje u velkého počtu věcí, jedinců.
Statistický znak
je kvantitativní charakteristikou této vlastnosti
statistických jednotek
Statistický soubor je konečná neprázdná množina prvků, které
mají určité společné vlastnosti (statistických jednotek stejného druhu -populace)
Empirická data
Základní soubor je soubor všech statistických jednotek, na něž se vztahuje příslušné zkoumání
Výběrový soubor podmnožina základního souboru jež je vytvářena
podle určitých pravidel
Rozsah souboru je dán počtem statistických jednotek souboru
Typy proměnné (variable)
Nebezpečí selhání při statistickém zpracování dat
(Upraveno podle Swobody 1977)
Rozdělení statistiky
Popisná
Výběrová
(deskriptivní)
(induktivní)
Redukuje a vyjadřuje zjištěná
data jednodušeji při dostatečném zachování informace?
Zobecňuje pravidelnosti
(zákonitosti), které byly
zjištěny na výběru, pro
celý základní soubor
ELEMENTÁRNÍ STATISTICKÉ POSTUPY
Statistické třídění
statistického souboru podle znaku
Výsledky uspořádání vyjadřujeme v přehledné formě tzv. tabulce jednorozměrného rozdělení četnosti
Tabulka jednorozměrného rozdělení četností
Četnosti
Kumulativní četnosti
Hodnoty
znaku
absolutní
relativní
absolutní
relativní
xi
ni
fi (ni/n)
Ni
Fi (Ni/n)
3
8
7
8
0,12
0,13
15
10
14
11
0,23
29
0,18
40
0,12
47
20
24
28
35
7
5
4
3
1
0,08
0,07
0,05
0,02
52
56
59
60
0,12
0,25
0,48
0,66
0,78
0,86
0,93
0,98
1.00
 (součet)
60
1.00
***
***
12
18
7
Relativní četnosti hodnot
HISTOGRAM
3
0,25
8
0,2
10
0,15
12
0,1
18
20
0,05
24
0
28
Hodnoty statistického znaku
35
Histogram je sloupcovým grafem znázorňujícím vztah mezi hodnotami
proměnné xi a jejich relativními četnostmi
Tabulka jednorozměrného rozdělení četností
Četnosti
Hodnoty
znaku
absolutní
relativní
xi
ni
fi (ni/n)
3
8
7
8
0,12
0,13
10
12
14
11
0,23
0,18
18
20
24
28
35
7
5
4
3
1
0,12
0,08
0,07
0,05
0,02
 (součet)
60
1.00
Kolik zvolit intervalů histogramu?
Tabulka dvourozměrného rozdělení četností
(kombinační tabulka)
Yi
Xi
88
100
3
3
8
10
105
110
115
120
3
1
1
8
9
8
2
3
8
16
2
1
30
4
10
1
15
1
3
1
5
15
5
1
100
8
14
20
7
20
20
29
Kontingenční tabulka
Úroveň
Souhlas
Ne
Nízká
Spíše ne
10
Neví
Spíše ano
28
Asociační tabulka
Vysoká

Pohlaví
Norma
Muž
Žena

25
SPLNIL
20
40
5
15
Nesplnil
80
10
60
90
3
3
6
2
27
5
34

100
50
150
5
15
20
40
20
100
25
Ano

Průměrná
ni
1
8
18
3
130
4
2
12
nj
125
40
Bodový graf (Scatter chart)
Grafické zpracování dat
Sloupcový (2D – 3D) graf (Bar chart)
Koláčový graf (Pie Chart)
5%
7%
2%
12%
3
8%
13%
8
10
12
18
20
12%
24
18%
23%
28
35
Poslání statistiky
Statistika nám pomáhá odhalovat
zákonitosti v našem
stochastickém světě.
Umožňuje nám odfiltrovávat či alespoň
kvantifikovat vliv náhody na naše
experimentální data.
POPIS
JEDNOROZMĚRNÝCH
STATISTICKÝCH SOUBORŮ
Úkolem statistického popisu je zhuštěné charakterizování
vlastnosti jednorozměrného rozdělení četností
MĚŘENÍ ÚROVNĚ ZKOUMANÝCH VLASTNOSTÍ STATISTICKÉHO ZNAKU
v jednorozměrné statistickém souboru
Pro měření úrovně zkoumaných jevů jsou nutné charakteristiky - míry, které budou zevšeobecňovat:
- velikost hodnot sledovaného znaku u všech jednotek souboru – střední hodnoty
- vzájemnou odlišnost hodnot mezi sebou i od střední hodnoty – variability
Soustavy popisných charakteristik
jednorozměrných statistických souborů
kvantilové
momentové
Kvantilové míry jsou vhodné pro znaky měřené na stupnici nominální a ordinální
Momentové míry jsou vhodné pro znaky měřené na stupnici intervalové.
Vztah mezi mírami polohy
Míry
Konstrukce
kvantilová
momentová
aritmetický
modus, medián průměr
(harmonický, geometrický)
polohy
absolutní
variability
relativní
nesouměrnosti
koncentrace
variační a kvartilová
odchylka
rozptyl
směrodatná odchylka
Variační
koeficient
Koeficent šikmosti α
Koeficent šikmosti β
Krabicový graf
Standardizace testových skórů
Druhy standardních skóre
zi 
xi  x
s
Ti = 50 + 10 zi (T body)
CEEBi = 500 + 100 zi
MQi = 100 + 15 zi (motorický kvocient)
Si = 5,5 + 2 zi (steny… 1 bod 0,5 s)
Ci = 5 + 2 zi (staniny… 1 bod 0,5 s)
ZNi =3 - zi (školní známka Lienertova)
Klasický přístup k indexu ES – index velikosti vlivu
( effect of size)
Index velikosti vlivu vyjadřuje podíl „vysvětleného“ rozptylu, tzv. Hayesův
koeficient ω2 vyjadřuje relativní podíl experimentálního faktoru na rozptylu
velikosti efektu.
xe  x k
ES 
sk
CELKOVÝ ROZPTYL A DÍLČÍ MÍRY VARIBILITY
var x = var x + var x
Celkový rozptyl
var x
var x


2
n
.
s
 i i
vážený aritmetický průměr dílčích rozptylů
n
2
n
(
x

x
)
i i
rozptylem dílčích průměrů
n
Rozklad celkového rozptylu na složky je velmi důležitou součástí umožňující
hlubší zkoumání statistických jevů: korelační počet, analýza rozptylu
Využití rozkladu celkového rozptylu ve statistice
rozptyl dílčích průměrů
průměr dílčích rozptylů
meziskupinový rozptyl var x
vnitroskupinový rozptyl var x
rozptyl podmíněných průměrů
průměr podmíněných rozptylů
rozptyl teoretický hodnot y,
rozptyl kolem regresní funkce
var y,
var (y -y,)
2
n
var y 
  y  y 
i 1
i
n
rozptyl mezi výběry
2
n
var(y  y ) 
 y
i 1
i
 yi 
n
rozptyl uvnitř výběrů
Výběry souborů jsou prováděny podle experimentálního pravidla
POPIS VÍCEROZMĚRNÝCH STATISTICKÝCH SOUBORŮ
• Statistická a korelační
závislost
• Úkoly korelačního počtu
– regrese
– vlastní korelace
Grafické vyjádření dvourozměrného rozdělení četností
Korelační závislost
Mění-li
se při změnách hodnot proměnné x podmíněná rozdělení relativních
četností znaku y tak, že se mění rovněž podmíněné průměry, označujeme takovouto
statistickou závislost za korelační .
Yi
Xi
3
8
95 100 105 110 115 120 125 130
1
1
10
12
18
20
nj
2
4
2
2
1
8
8
2
2 1
9 8 2
5 16 5
3 10
1
2
3
3
8 19 16 28 18
8
ni yi
6
14
29
30
16
1
5
1 100
sy2i
8.33
100
105
21.43
110
27.58
115
21.66
120
9.38
125
10
Úkoly korelačního počtu
1. regrese
určení regresních čar, sloužících k odhadům neznámých hodnot závisle proměnné (y)
při známých hodnotách nezávisle proměnné (x) - regrese
2. vlastní korelace
měření těsnosti korelační závislosti, aby bylo možno posuzovat přesnost
regresních odhadů a sílu dané korelační závislosti - vlastní korelace
Jednoduchá regrese
stanovení regresních čar
odhad na základě podmíněných průměrů
Xi
yi
3
8
100
105
10
110
12
115
18
120
20
125
odhad na základě regresních funkcí
určit typ funkce
- na základě znalosti průběhu a vlastností hlavních analytických funkcí
- logického rozboru zkoumané závislosti (empirického průběhu závislosti)
stanovit konkrétní funkční rovnici
y  y  0
i
i
2
 y  y 
n
i 1
i
,
i
 min.
Odhad na základě podmíněných průměrů
Odhad na základě lineární regresní funkce
130
125
120
115
110
105
100
95
3
8
10
12
18
20
yi  α y.x  β y.xxi  εi
Standardized
Unstandardized Coefficients
Model
1
B
Std. Error
(Constant)
6,964
Sec
-,062 ,095
Coefficients
Beta
2,169
y  6,964 0,062x
-,119
a. Dependent Variable: Body škály
Standardized
Unstandardized Coefficients
Model
1
B
(Constant)
Body škály
a. Dependent Variable: Sec
Std. Error
23,737
-,228 ,346
Coefficients
Beta
2,077
-,119
x  23,737 0,228y
Vlastní korelace
•
MĚŘENÍ TĚSNOSTI KORELAČNÍ ZÁVISLOSTI
– korelační poměr
– index korelace
– korelační koeficient
Vlastní korelace
druhý úkol korelačního počtu
měření těsnosti (síly) dané korelační závislosti vychází z posuzování
přesnosti regresních odhadů
ČÍM JE VARIABILITA HODNOT ZNAKU V
PODMÍNĚNÝCH ROZDĚLENÍCH ZÁVISLE PROMĚNNÉ
y MENŠÍ, TÍM TĚSNĚJŠÍ JE KORELAČNÍ
ZÁVISLOST
čím je těsnost korelační závislosti větší, tím jsou podmíněné průměry
závisle proměnné typičtějšími charakteristikamia tím lépe lze prakticky využít
znalosti o průběhu korelační závislosti
Měření těsnosti korelační závislosti
Těsností korelační závislosti rozumíme průměrnou variabilitu závisle
proměnné v podmíněných rozděleních četností
Korelační poměr


yx
var y
var y
Index korelace
var y
I yx 
var y
cov yx
yx  x  y
ryx  rxy 

sx  s y
var x  var y
Geometrická interpretace jednoduché lineární korelace
x, = -36,29 + 0.426 y
125
y, = 95.49 + 1.461
y =112.55
105

x =11,68
ryx=0,789
3
12
x
190
Výška syna
180
170
160
160
165
170
175
180
Výška otce
185
190
195
Tvary závislostí a hodnoty korelačního koeficientu r
r =1,000
r =0,967
r =0,000
r =0,934
K posouzení míry vhodnosti regresní
funkce může sloužit také pouze hodnota
s y2. x 
1
2
   yi  Yi  reziduální rozptyl.
n i
Míry pro nominální proměnné
Chí-kvadrát (test o nezávislosti)
Pearson chi-square statistic (QP)
Koeficient Φí
Phi-coefficient
Cramérův koeficient kontingence
, kde q = min {r, s}
Cramér's V
Kontingenční koeficient (Pearsonův koeficient průměrné čtvercové kontingence)
Contingency coefficient (coefficient of contingency)
Asymetrická lambda (Goodmanova-Kruskalova lambda)
Goodmanovo-Kruskalovo τ
Míry pro ordinální proměnné
Gama
Kendallův koeficient tau-b
Kendallův koeficient tau-c
Somersovo d
Spearmanův koeficient pořadové korelace
Složitější závislosti – vícenásobná regrese
yi  α  βx xi  βz zi  ... εi
yi - výška syna
xi - výška otce
zi - výška matky
α průsečík s osou Y
βx regresní koeficient (výšky syna na výšce otce)
βz regresní koeficient (výšky syna na výšce matky)
Koeficient vícenásobné korelace (koeficient determinace)
r2 -
korelace mezi pozorovanými hodnotami a jejich odhadem na základě
znalosti výšky obou rodičů tj. mezi
yi
a
α+βxxi+βzzi
0 ≤ r2 ≤ 1
nezávislost
závislost