Statistika a výpočetní technika www.vfu.cz/stat Doc.RNDr.Iveta Bedáňová, Ph.D. Biostatistika - sleduje biologické vlastnosti živých jedinců na základě vybraných statistických znaků - znaky zpravidla nabývají číselných hodnot  více-méně kvantifikují.

Download Report

Transcript Statistika a výpočetní technika www.vfu.cz/stat Doc.RNDr.Iveta Bedáňová, Ph.D. Biostatistika - sleduje biologické vlastnosti živých jedinců na základě vybraných statistických znaků - znaky zpravidla nabývají číselných hodnot  více-méně kvantifikují.

Statistika a
výpočetní technika
www.vfu.cz/stat
Doc.RNDr.Iveta Bedáňová, Ph.D.
Biostatistika
- sleduje biologické vlastnosti živých jedinců na
základě vybraných statistických znaků
- znaky zpravidla nabývají číselných hodnot

více-méně kvantifikují sledovanou vlastnost
Statistické znaky
Kvalitativní (nominální) – pouze 2 stavy: ano-ne, (ne)přítomnost znaku
Kvantitativní:
• ordinální – vzestupné (sestupné) uspořádání intenzity
(subjektivní měřítko)
• kardinální – přesná číselná hodnota (objektivní měřítko, přístroj)
Z formálního hlediska: diskrétní
spojité
Statistický soubor
• Základní soubor (ZS, populace) – N=
- „všichni“, u nichž se sledovaný znak může vyskytovat
• Výběrový soubor (VS, výběr) – n
- omezený počet jedinců (náhodný výběr)

nepřesnost výpočtů
Náhodná veličina
- diskrétní
- spojitá
Variační řada - vzestupně (sestupně) uspořádané hodnoty souboru
Např.: 2,3,4,4,5,5,5,6,6,7,7,8
(diskrétní veličina)
Četnost varianty - počet opakování stejné hodnoty ve variační řadě
Rozdělení četností NV - grafické vyjádření rozložení hodnot v souboru
Rozdělení četností – diskrétní veličina:
četnost
3
2
1
0
1
2
3
4
5
6
7
8
x
Diskrétní veličina – počet mláďat ve vrhu: 2,3,4,4,5,5,5,6,6,7,7,8
(počet mláďat)
Rozdělení četností – spojitá veličina:
četn.
histogram
polygon
x (hmotnost)
střed třídy
Rozdělení četností (pravděpodobností)
f(x) - hustota pravděpodobnosti
empirické křivky
(VS)
teoretická křivka
(ZS)
x (hmotnost)
Typy teoretických křivek rozdělení
a) normální
(Gaussovo)
b) neznámé (asymetrické, extrémní, nepravidelné)
Gaussovo normální rozdělení
(  - střední hodnota, - směrodatná odchylka)
Podle typu rozdělení (testy normality)
metody statistického zpracování
Soubory s GNR: parametrické metody
Soubory s neznámým r.: neparametrické metody
Popisné charakteristiky
statistických souborů
Základní soubor
- přesné parametry
(nelze empiricky zjistit)
Výběrový soubor
- výběrové charakteristiky
(odhad skutečných parametrů ZS)
A) Střední hodnoty
 (ZS),
1) Aritmetický průměr:
x (VS)
(střední hodnota)
N
x
n
i

i 1
N
x
i
x
i 1
n
Vlastnosti: - ovlivněn extrémními hodnotami ! ( použití u
stejnorodých souborů s pravidelným r. - GNR)
-
(x
i
 x)  0
~
2) Medián:
(ZS),
~x
(VS)
= prostřední hodnota variační řady (průměr 2 prostředních)
Poř.č. ~x 
n 1
2
Vlastnosti: - není ovlivněn extrémními hodnotami
50%
 ~
50%
50%
50%
~  
B) Míry variability (proměnlivosti souboru)
1) Rozptyl:
 2 (ZS), s 2
(VS)
= průměr čtverců odchylek jednotlivých hodnot xi od
aritmetického průměru souboru
N
2 
2


x

x
 i
i 1
s2 
N
σ2
x
n
 x  x 
i 1
2
i
n 1
„Odhad
rozptylu“
2) Směrodatná odchylka:

(ZS),
s (VS)
(SD – Standard Deviation)
= odmocnina z rozptylu
stejný rozměr jako měřená veličina
3) Variační koeficient:
(relativní směrodatná odchylka)
V
s
 100
x
%
není závislý na absolutních hodnotách znaku
Testování hypotéz
Využití: vyhodnocování experimentů
VS  platnost hypotézy o ZS
Parametrické testy
– pro soubory s GNR, hypotéza o  a . Výpočty
vycházejí z odhadů těchto parametrů u VS.
Neparametrické testy – pro soubory s neznámým rozdělením,
hypotéza o shodě rozdělení. Výpočty vycházejí
z pořadí hodnot VS.
Hypotéza nulová (testovaná) - H0: = konst.
1= 2
 12 =  22
Hypotéza alternativní - H1: popírá platnost H0
(Vyhodnocení experimentů: Pokus x Kontrola )
x1 , s1
2
x2 , s 2
2
Testovací kritérium:
Např.: t – Studentův t-test (průměry) H0: 1=2
F – Fisherův F-test (rozptyly)
H0: 12=22
2 – testování rozdílu četností (2- test)
Překročení kritické hodnoty (tab.)  zamítáme nulovou hypotézu
(statisticky významný rozdíl mezi testovanými parametry)
Hladina významnosti testu: zvolená chyba =0,05 (0,01)
 = 0,05 - hladina významnosti testu
(0,01)
Parametrické testy
(GNR: ,)
F-test - rozdíl 2 rozptylů
t- test - rozdíl 2 průměrů
F-test
(H0: 12=22)
- vliv pokusného zásahu na rozptýlení hodnot sledované veličiny
1.VS : n1, s12
2.VS : n2, s22
2
Testovací krirérium:
2
větší ( s1 , s2 )
F
2
2
menší ( s1 , s2 )
Je-li vypočítané F > Fkrit.  12  22 (významný rozdíl rozptylůpokusný zásah byl účinný)
Je-li vypočítané F  Fkrit.  12= 22 (nevýznamný rozdíl rozptylů pokusný zásah byl neúčinný)
Studentův t-test
(testování rozdílu 2 středních hodnot)
I.Porovnání ZS x VS (jednovýběrový t-test)
- použití v pokusech, kdy známe
 u ZS (např. fyziol. hodnoty
biochem. ukazatelů)= konst.
- testujeme hypotézu, že pokusný VS pochází z populace s touto 
(H0:  = konst.)
Experiment:
VS (n) – aplikace pokusného zásahu

x, s 2
X
ZS – známe 
Testovací kritérium t:
t
x μ
s2
n
• Je-li t  tkrit.  statisticky nevýznamný rozdíl při zvolené  (p>0,05)
H0 platí (pokusný zásah byl neúčinný - VS pochází ze
ZS se =konst.)
• Je-li t >tkrit.  statisticky významný rozdíl (při = 0,05) (p<0,05)
vysoce významný rozdíl (při = 0,01)
(p<0,01)
H0 neplatí (pokusný zásah byl účinný, způsobil změnu konst.)
Nevýznamný rozdíl (-):
p>0,05
Významný rozdíl (+):
p<0,05
Vysoce významný rozdíl (++): p<0,01
Příklad
V chovu koní je střední hladina glukózy krevního séra  = 3.1mmoll-1.
Koním byl aplikován v krmivu energetický přípravek a byl zjišťován jeho
účinek na hladinu glukozy krevního séra koní: v odebrané krvi u 10
náhodně vybraných jedinců byla stanovena hladina glukozy kr.séra v
mmoll-1:
3.1, 2.7, 3.3, 3.1, 3.1, 3.2, 3.0, 2.8, 2.9, 2.7.
Měl přípravek vliv na hladinu glukózy krevního séra koní?
H0: =3.1
Výběr:
x  2.99
s  0.2079
s 2  0.0432
Testovací kritérium:
 9
t
x μ
2
s
n

2.99  3.1
2
 1.578
0.2079
10
tkrit.(0.05;9) = 2.262
t < tkrit.  statisticky nevýznamný rozdíl (H0 platí; výběrový
soubor pochází z populace se  =3.1).
Závěr:
Aplikace přípravku neměla vliv na hladinu glukózy v
krevním séru [P>0.05].
II.Porovnání VS x VS
(dvojvýběrový t-test)
1) Párový pokus
- u 1 VS provedena 2 měření:
č.
1.
2.
…..
i.
…..
n.
před P
xi
x1
x2
po P
xi´
x1 ´
x2 ´
rozdíly
x1-x1´
x2-x2´
xi
xi´
xi-xi´
xn
xn´
xn-xn´
páry
x, s 2
Testujeme hypotézu, že  měření před pokusem a po pokuse se
rovnají
Testovací kritérium t:
t
x
s2
n
• Je-li t  tkrit.  statisticky nevýznamný rozdíl, H0 platí (p>0,05)
• Je-li t  tkrit.  statisticky významný rozdíl (při = 0,05)
(p<0,05)
 stat.vysoce významný rozdíl (při = 0,01) (p<0,01)
H0 neplatí (pokusný zásah byl účinný způsobil změnu střední hodnoty 2.měření oproti 1.měř.)
Příklad:
Zjistěte, zda režim s fyzickou zátěží způsobí změnu hmotnosti u
lab.potkanů poté, co byli režimu podrobeni. Změny hmotnosti u 12
pokusných jedinců (váha po zátěži – váha před zátěží) v g:
0.2, -0.5, -1.3, -1.6, -0.7, 0.4, -0.1, 0.0, -0.6, -1.1, -1.2, -0.8.
H0: rozd.=0
Testovací kritérium:
Rozdíly:
  11
x  0.61g
s  0.4008g
2
2
t
x
2

s
n
tkrit.(0.05;11)=2.201
 0.61
0.4008
12
 3.389
tkrit.(0.01;11)=3.106
t > tkrit.(0.01)  H0 neplatí: statisticky vysoce významný rozdíl
Závěr:
Režim s fyzickou zátěží způsobí vysoce významnou ztrátu hmotnosti u
lab.potkanů [P<0.01].
2) Nepárový pokus
- porovnání 2 různých VS:
1.VS x 2.VS
Pokusný Kontrolní
- testujeme hypotézu H0: 1 = 2
1.VS (n1) : vypočteme
2.VS (n2) : vypočteme
x1 , s1
2
x2 , s 2
2
Soubory mohou mít stejný nebo různý rozptyl 
ovlivňuje provedení t-testu.
Podle výsledku F-testu:
• Je-li FFkrit.  a) 12=22
• Je-li FFkrit.  b) 12  22
a)
 12= 22
t
:
x1  x 2
n1  1  s12  n 2  1  s 2 2 * n1  n 2
n1  n 2  2
b)
 12   22
:
t
Pro n1=n2=n:
x1  x 2
2
2
s1 s 2

n1 n 2
t
x1  x 2
2
s1  s 2
n
2
n1 * n 2
• Je-li t  tkrit.  statisticky nevýznamný rozdíl mezi 1 a 2
(p>0,05)
H0: 1=2 platí, pokusný zásah byl neúčinný
• Je-li t  tkrit  statisticky významný rozdíl (při = 0,05)
 stat. vysoce významný rozdíl (při = 0,01)
(p<0,05)
(p<0,01)
H0 neplatí, pokusný zásah byl účinný –
způsobil změnu střední hodnoty (1 2 )
Příklad:
Zjistěte vliv trasportního stresu u brojlerů na celkový počet leukocytů v
krvi. Z trasportu bylo náhodně vybráno 7 brojlerů (pokusná skup.),
kontrolní skupina (n=7) přepravována nebyla. Po hematologickém
vyšetření byly zjištěny následující hodnoty počtu Leu (G/l):
Pokusná sk. (P): 9.9, 9.0, 11.1, 9.6, 8.7, 10.4, 9.5.
Kontrolní sk. (K): 8.8, 8.4, 7.9, 8.7, 9.1, 9.6, 8.7.
H0: 1 = 2
Pokus:
Kontrola:
x1  9.74
n1  7
x2  8.74
n2  7
s1  0.670
1  6
s2  0.283
2  6
2
2
F
0.670
 2.367
0.283
F<Fkrit.
(5.820)
12=22
H0: 1 = 2
Pokus:
Kontrola:
x1  9.74
n1  7
s1  0.670  1  6
2
x2  8.74
n2  7
s2  0.283
2  6
2
F
0.670
 2.367
0.283
F<Fkrit.
Testovací kritérium t:
t
x1  x 2
s1  s 2
n
2
2
12=22
(5.820)

tkrit.(0.05;12)=2.179
9.743 8.743
 3.834
0.261
=(7-1).2=12
tkrit.(0.01;12)=3.055
t > tkrit.(0.01)  H0: 1=2 neplatí (na hladině =0.01).
Závěr : Transport brojlerů způsobil statisticky vysoce významné zvýšení počtu
leukocytů v krvi. [P<0.01]
Neparametrické testy
Charakteristika
•Pro soubory s neznámým rozdělením
•Hypotéza: shoda rozdělení četností (tvar křivky)
• Výpočty: z pořadových čísel naměřených hodnot
souboru - „pořadové testy“
(i pro ordinální znaky, nevyžadují přesné hodnoty)
• Jednodušší výpočet, ale nižší přesnost a spolehlivost
(síla testu)
• Obecnější použití (i pro data s GNR – orientační hodnocení
předběžných pokusů)
Př: byl sledován vliv vit.B12 na zvyšování hmotnosti u selat – zjistěte
účinnost :
(A – standardní krmná směs, B – přídavek vit. B12)
( U A  n1 . n 2 
n1 .(n 1  1)
 RA )
2
Pozn.:
při výpočtu testovacího kritéria jde o dosažení minima
Závěr:
vitamín B12 zvyšuje statisticky vysoce významně hmotnostní
přírůstky u selat.
Wilcoxonův test
(párový pokus: 2 měření 1VS)
před P (X): x1, x2, x3, x4, x5, x6, ..………….xn
po P
(X´): x1´, x2´, x3´, x4´, x5´, x6´ ….………..xn´
rozdíly
X-X´:
+z1,
-z2, +z3, -z4, -z5,
+z6
….…0…….zn
seřazení:
+z3 < +z1 < -z5 < -z4 < +z6 < -z2 ……….
pořadí:
1.
2.
3.
4.
5.
6. …….…n.
(průměrné pořadí u stejných rozdílů)
V případě platnosti H0:
(ideálně: všechny rozdíly =0)
rozdíly jsou rozloženy symetricky kolem 0 (stejný počet + a – rozdílů).
W+ -  pořadových čísel kladných rozdílů
W- -  pořadových čísel záporných rozdílů
Je-li W  W(, n)  zamítáme H0 o shodnosti rozdělení veličiny X a X´
(pokusný zásah byl účinný – hodnoty před pokusem
a po pokusu se liší)
Je-li W  W(, n)  platí H0 o shodnosti rozdělení veličiny X a X´
(pokusný zásah byl neúčinný – hodnoty před pokusem
a po pokusu se neliší)
Př:
zhodnoťte výsledky testu bakteriální kontaminace po ošetření 2 preparáty (A, B)
(1.polovina každého vzorku byla ošetřena preparátem A, 2.polovina prep.B). Zjistěte
rozdíl v účinnosti :
Závěr: preparát B má statisticky významně vyšší antibakteriální účinnost.