Statistika a výpočetní technika www.vfu.cz/stat Doc.RNDr.Iveta Bedáňová, Ph.D. Biostatistika - sleduje biologické vlastnosti živých jedinců na základě vybraných statistických znaků - znaky zpravidla nabývají číselných hodnot více-méně kvantifikují.
Download ReportTranscript Statistika a výpočetní technika www.vfu.cz/stat Doc.RNDr.Iveta Bedáňová, Ph.D. Biostatistika - sleduje biologické vlastnosti živých jedinců na základě vybraných statistických znaků - znaky zpravidla nabývají číselných hodnot více-méně kvantifikují.
Statistika a výpočetní technika www.vfu.cz/stat Doc.RNDr.Iveta Bedáňová, Ph.D. Biostatistika - sleduje biologické vlastnosti živých jedinců na základě vybraných statistických znaků - znaky zpravidla nabývají číselných hodnot více-méně kvantifikují sledovanou vlastnost Statistické znaky Kvalitativní (nominální) – pouze 2 stavy: ano-ne, (ne)přítomnost znaku Kvantitativní: • ordinální – vzestupné (sestupné) uspořádání intenzity (subjektivní měřítko) • kardinální – přesná číselná hodnota (objektivní měřítko, přístroj) Z formálního hlediska: diskrétní spojité Statistický soubor • Základní soubor (ZS, populace) – N= - „všichni“, u nichž se sledovaný znak může vyskytovat • Výběrový soubor (VS, výběr) – n - omezený počet jedinců (náhodný výběr) nepřesnost výpočtů Náhodná veličina - diskrétní - spojitá Variační řada - vzestupně (sestupně) uspořádané hodnoty souboru Např.: 2,3,4,4,5,5,5,6,6,7,7,8 (diskrétní veličina) Četnost varianty - počet opakování stejné hodnoty ve variační řadě Rozdělení četností NV - grafické vyjádření rozložení hodnot v souboru Rozdělení četností – diskrétní veličina: četnost 3 2 1 0 1 2 3 4 5 6 7 8 x Diskrétní veličina – počet mláďat ve vrhu: 2,3,4,4,5,5,5,6,6,7,7,8 (počet mláďat) Rozdělení četností – spojitá veličina: četn. histogram polygon x (hmotnost) střed třídy Rozdělení četností (pravděpodobností) f(x) - hustota pravděpodobnosti empirické křivky (VS) teoretická křivka (ZS) x (hmotnost) Typy teoretických křivek rozdělení a) normální (Gaussovo) b) neznámé (asymetrické, extrémní, nepravidelné) Gaussovo normální rozdělení ( - střední hodnota, - směrodatná odchylka) Podle typu rozdělení (testy normality) metody statistického zpracování Soubory s GNR: parametrické metody Soubory s neznámým r.: neparametrické metody Popisné charakteristiky statistických souborů Základní soubor - přesné parametry (nelze empiricky zjistit) Výběrový soubor - výběrové charakteristiky (odhad skutečných parametrů ZS) A) Střední hodnoty (ZS), 1) Aritmetický průměr: x (VS) (střední hodnota) N x n i i 1 N x i x i 1 n Vlastnosti: - ovlivněn extrémními hodnotami ! ( použití u stejnorodých souborů s pravidelným r. - GNR) - (x i x) 0 ~ 2) Medián: (ZS), ~x (VS) = prostřední hodnota variační řady (průměr 2 prostředních) Poř.č. ~x n 1 2 Vlastnosti: - není ovlivněn extrémními hodnotami 50% ~ 50% 50% 50% ~ B) Míry variability (proměnlivosti souboru) 1) Rozptyl: 2 (ZS), s 2 (VS) = průměr čtverců odchylek jednotlivých hodnot xi od aritmetického průměru souboru N 2 2 x x i i 1 s2 N σ2 x n x x i 1 2 i n 1 „Odhad rozptylu“ 2) Směrodatná odchylka: (ZS), s (VS) (SD – Standard Deviation) = odmocnina z rozptylu stejný rozměr jako měřená veličina 3) Variační koeficient: (relativní směrodatná odchylka) V s 100 x % není závislý na absolutních hodnotách znaku Testování hypotéz Využití: vyhodnocování experimentů VS platnost hypotézy o ZS Parametrické testy – pro soubory s GNR, hypotéza o a . Výpočty vycházejí z odhadů těchto parametrů u VS. Neparametrické testy – pro soubory s neznámým rozdělením, hypotéza o shodě rozdělení. Výpočty vycházejí z pořadí hodnot VS. Hypotéza nulová (testovaná) - H0: = konst. 1= 2 12 = 22 Hypotéza alternativní - H1: popírá platnost H0 (Vyhodnocení experimentů: Pokus x Kontrola ) x1 , s1 2 x2 , s 2 2 Testovací kritérium: Např.: t – Studentův t-test (průměry) H0: 1=2 F – Fisherův F-test (rozptyly) H0: 12=22 2 – testování rozdílu četností (2- test) Překročení kritické hodnoty (tab.) zamítáme nulovou hypotézu (statisticky významný rozdíl mezi testovanými parametry) Hladina významnosti testu: zvolená chyba =0,05 (0,01) = 0,05 - hladina významnosti testu (0,01) Parametrické testy (GNR: ,) F-test - rozdíl 2 rozptylů t- test - rozdíl 2 průměrů F-test (H0: 12=22) - vliv pokusného zásahu na rozptýlení hodnot sledované veličiny 1.VS : n1, s12 2.VS : n2, s22 2 Testovací krirérium: 2 větší ( s1 , s2 ) F 2 2 menší ( s1 , s2 ) Je-li vypočítané F > Fkrit. 12 22 (významný rozdíl rozptylůpokusný zásah byl účinný) Je-li vypočítané F Fkrit. 12= 22 (nevýznamný rozdíl rozptylů pokusný zásah byl neúčinný) Studentův t-test (testování rozdílu 2 středních hodnot) I.Porovnání ZS x VS (jednovýběrový t-test) - použití v pokusech, kdy známe u ZS (např. fyziol. hodnoty biochem. ukazatelů)= konst. - testujeme hypotézu, že pokusný VS pochází z populace s touto (H0: = konst.) Experiment: VS (n) – aplikace pokusného zásahu x, s 2 X ZS – známe Testovací kritérium t: t x μ s2 n • Je-li t tkrit. statisticky nevýznamný rozdíl při zvolené (p>0,05) H0 platí (pokusný zásah byl neúčinný - VS pochází ze ZS se =konst.) • Je-li t >tkrit. statisticky významný rozdíl (při = 0,05) (p<0,05) vysoce významný rozdíl (při = 0,01) (p<0,01) H0 neplatí (pokusný zásah byl účinný, způsobil změnu konst.) Nevýznamný rozdíl (-): p>0,05 Významný rozdíl (+): p<0,05 Vysoce významný rozdíl (++): p<0,01 Příklad V chovu koní je střední hladina glukózy krevního séra = 3.1mmoll-1. Koním byl aplikován v krmivu energetický přípravek a byl zjišťován jeho účinek na hladinu glukozy krevního séra koní: v odebrané krvi u 10 náhodně vybraných jedinců byla stanovena hladina glukozy kr.séra v mmoll-1: 3.1, 2.7, 3.3, 3.1, 3.1, 3.2, 3.0, 2.8, 2.9, 2.7. Měl přípravek vliv na hladinu glukózy krevního séra koní? H0: =3.1 Výběr: x 2.99 s 0.2079 s 2 0.0432 Testovací kritérium: 9 t x μ 2 s n 2.99 3.1 2 1.578 0.2079 10 tkrit.(0.05;9) = 2.262 t < tkrit. statisticky nevýznamný rozdíl (H0 platí; výběrový soubor pochází z populace se =3.1). Závěr: Aplikace přípravku neměla vliv na hladinu glukózy v krevním séru [P>0.05]. II.Porovnání VS x VS (dvojvýběrový t-test) 1) Párový pokus - u 1 VS provedena 2 měření: č. 1. 2. ….. i. ….. n. před P xi x1 x2 po P xi´ x1 ´ x2 ´ rozdíly x1-x1´ x2-x2´ xi xi´ xi-xi´ xn xn´ xn-xn´ páry x, s 2 Testujeme hypotézu, že měření před pokusem a po pokuse se rovnají Testovací kritérium t: t x s2 n • Je-li t tkrit. statisticky nevýznamný rozdíl, H0 platí (p>0,05) • Je-li t tkrit. statisticky významný rozdíl (při = 0,05) (p<0,05) stat.vysoce významný rozdíl (při = 0,01) (p<0,01) H0 neplatí (pokusný zásah byl účinný způsobil změnu střední hodnoty 2.měření oproti 1.měř.) Příklad: Zjistěte, zda režim s fyzickou zátěží způsobí změnu hmotnosti u lab.potkanů poté, co byli režimu podrobeni. Změny hmotnosti u 12 pokusných jedinců (váha po zátěži – váha před zátěží) v g: 0.2, -0.5, -1.3, -1.6, -0.7, 0.4, -0.1, 0.0, -0.6, -1.1, -1.2, -0.8. H0: rozd.=0 Testovací kritérium: Rozdíly: 11 x 0.61g s 0.4008g 2 2 t x 2 s n tkrit.(0.05;11)=2.201 0.61 0.4008 12 3.389 tkrit.(0.01;11)=3.106 t > tkrit.(0.01) H0 neplatí: statisticky vysoce významný rozdíl Závěr: Režim s fyzickou zátěží způsobí vysoce významnou ztrátu hmotnosti u lab.potkanů [P<0.01]. 2) Nepárový pokus - porovnání 2 různých VS: 1.VS x 2.VS Pokusný Kontrolní - testujeme hypotézu H0: 1 = 2 1.VS (n1) : vypočteme 2.VS (n2) : vypočteme x1 , s1 2 x2 , s 2 2 Soubory mohou mít stejný nebo různý rozptyl ovlivňuje provedení t-testu. Podle výsledku F-testu: • Je-li FFkrit. a) 12=22 • Je-li FFkrit. b) 12 22 a) 12= 22 t : x1 x 2 n1 1 s12 n 2 1 s 2 2 * n1 n 2 n1 n 2 2 b) 12 22 : t Pro n1=n2=n: x1 x 2 2 2 s1 s 2 n1 n 2 t x1 x 2 2 s1 s 2 n 2 n1 * n 2 • Je-li t tkrit. statisticky nevýznamný rozdíl mezi 1 a 2 (p>0,05) H0: 1=2 platí, pokusný zásah byl neúčinný • Je-li t tkrit statisticky významný rozdíl (při = 0,05) stat. vysoce významný rozdíl (při = 0,01) (p<0,05) (p<0,01) H0 neplatí, pokusný zásah byl účinný – způsobil změnu střední hodnoty (1 2 ) Příklad: Zjistěte vliv trasportního stresu u brojlerů na celkový počet leukocytů v krvi. Z trasportu bylo náhodně vybráno 7 brojlerů (pokusná skup.), kontrolní skupina (n=7) přepravována nebyla. Po hematologickém vyšetření byly zjištěny následující hodnoty počtu Leu (G/l): Pokusná sk. (P): 9.9, 9.0, 11.1, 9.6, 8.7, 10.4, 9.5. Kontrolní sk. (K): 8.8, 8.4, 7.9, 8.7, 9.1, 9.6, 8.7. H0: 1 = 2 Pokus: Kontrola: x1 9.74 n1 7 x2 8.74 n2 7 s1 0.670 1 6 s2 0.283 2 6 2 2 F 0.670 2.367 0.283 F<Fkrit. (5.820) 12=22 H0: 1 = 2 Pokus: Kontrola: x1 9.74 n1 7 s1 0.670 1 6 2 x2 8.74 n2 7 s2 0.283 2 6 2 F 0.670 2.367 0.283 F<Fkrit. Testovací kritérium t: t x1 x 2 s1 s 2 n 2 2 12=22 (5.820) tkrit.(0.05;12)=2.179 9.743 8.743 3.834 0.261 =(7-1).2=12 tkrit.(0.01;12)=3.055 t > tkrit.(0.01) H0: 1=2 neplatí (na hladině =0.01). Závěr : Transport brojlerů způsobil statisticky vysoce významné zvýšení počtu leukocytů v krvi. [P<0.01] Neparametrické testy Charakteristika •Pro soubory s neznámým rozdělením •Hypotéza: shoda rozdělení četností (tvar křivky) • Výpočty: z pořadových čísel naměřených hodnot souboru - „pořadové testy“ (i pro ordinální znaky, nevyžadují přesné hodnoty) • Jednodušší výpočet, ale nižší přesnost a spolehlivost (síla testu) • Obecnější použití (i pro data s GNR – orientační hodnocení předběžných pokusů) Př: byl sledován vliv vit.B12 na zvyšování hmotnosti u selat – zjistěte účinnost : (A – standardní krmná směs, B – přídavek vit. B12) ( U A n1 . n 2 n1 .(n 1 1) RA ) 2 Pozn.: při výpočtu testovacího kritéria jde o dosažení minima Závěr: vitamín B12 zvyšuje statisticky vysoce významně hmotnostní přírůstky u selat. Wilcoxonův test (párový pokus: 2 měření 1VS) před P (X): x1, x2, x3, x4, x5, x6, ..………….xn po P (X´): x1´, x2´, x3´, x4´, x5´, x6´ ….………..xn´ rozdíly X-X´: +z1, -z2, +z3, -z4, -z5, +z6 ….…0…….zn seřazení: +z3 < +z1 < -z5 < -z4 < +z6 < -z2 ………. pořadí: 1. 2. 3. 4. 5. 6. …….…n. (průměrné pořadí u stejných rozdílů) V případě platnosti H0: (ideálně: všechny rozdíly =0) rozdíly jsou rozloženy symetricky kolem 0 (stejný počet + a – rozdílů). W+ - pořadových čísel kladných rozdílů W- - pořadových čísel záporných rozdílů Je-li W W(, n) zamítáme H0 o shodnosti rozdělení veličiny X a X´ (pokusný zásah byl účinný – hodnoty před pokusem a po pokusu se liší) Je-li W W(, n) platí H0 o shodnosti rozdělení veličiny X a X´ (pokusný zásah byl neúčinný – hodnoty před pokusem a po pokusu se neliší) Př: zhodnoťte výsledky testu bakteriální kontaminace po ošetření 2 preparáty (A, B) (1.polovina každého vzorku byla ošetřena preparátem A, 2.polovina prep.B). Zjistěte rozdíl v účinnosti : Závěr: preparát B má statisticky významně vyšší antibakteriální účinnost.