BIOMED STAT 1 _3-4-2014 upravena

Transcript BIOMED STAT 1 _3-4-2014 upravena

Základné pojmy a štatistická
terminológia
Deskriptívna štatistika
Sebahodnotenie
1.
Kedy použijete štandardnú (smerodajnú) odchýlku SD
(standard deviation) a kedy strednú chybu priemeru
SEM (standard error of mean)?
2.
Aký je rozdiel medzi hladinou významnosti alfa a
pravdepodobnosťou p (p – value)?
3.
Ako je formulovaná nulová (výskumná) hypotéza a
(komplementárne) ako alternatívna?
4.
Aké sú predpoklady použitia studentovho t – testu a čo
sa tu testuje?
Aký je rozdiel medzi koreláciou a lineárnou regresiou?
Aký je rozdiel medzi senzitivitou a špecificitou
diagnostického testu?
Aký je rozdiel medzi pomerom šancí OR (odds ratio) a
pomerom rizík RR (risk ratio)?
5.
6.
7.
Namiesto úvodu 
Sidney Harris http://www.sciencecartoonsplus.com/index.htm
http://www.hsl.unc.edu/Services/Tutorials/EBM/
Úvod do metodológie
medicínskeho výskumu
Výskumný zámer a
experimentálny / klinický dizajn
Pátrame po efekte (o ktorom
máme východiskovú predstavu)
Efekt
• Ak je zmena v jednej premennej (charakteristike / znaku / faktore)
spojená so zmenou v druhej premennej, hovoríme o efekte.
• Tieto zmeny môžu byť kvantitatívne alebo kvalitatívne.
• Typ zmeny a hypotéza o zmene podmieňujú výber štatistického
nástroja
• Väčšina biomedicínskeho výskumu je zacielená na rozpoznávanie
efektov a porozumenie ich podstaty.
• V biológii, medicíne (a iných vedách)
výsledok náhodného pokusu je vyjadrený
reálnym číslom
• Tieto čísla vytvárajú reálne náhodné
veličiny (premenné)
• Ako často konkrétne hodnoty náhodnej
veličiny nastávajú, je matematicky exaktne
popísané – rozdelenie pravdepodobnosti
• Rozdelenie pravdepodobností môžeme
popísať pomocou – distribučnej funkcie;
funkcie hustoty rozdelenia
pravdepodobnosti (u spojitej veličiny)
Vzťah pravdepodobnosti ku skutočnosti,
rozdelenia pravdepodobností
Náhodný pokus je pokus konaný za presne definovaných podmienok,
výsledok pokusu je dopredu neistý, ale opakovaním pokusu
zisťujeme stabilitu frekvencie výskytu možných výsledkov.
Teoretický idealizovaný opis – model skutočnosti.
Náhodný jav je ľubovoľné tvrdenie o výsledku náhodného pokusu
(jav nemožný, jav pravdepodobný, jav istý).
Pravdepodobnosť môžeme formálne zaviesť tak, že každému z
elementárnych javov j priradíme nezáporné číslo pj tak, že ich
súčet je rovný jednej.
Náhodná veličina je všeobecne funkcia, ktorá každému
elementárnemu javu  priradí hodnotu X() z nejakej množiny
možných číselných hodnôt.
Pre náhodnú veličinu X tvorí zoznam „dvojíc“ hodnôt x*j a pj
(j=1...m) rozdelenie pravdepodobností náhodnej veličiny X
(diskrétne alebo spojité).
Užitočné vedieť
„Likelihood is the hypothetical probability that an event
that has already occurred would yield a specific
outcome.
The concept differs from that of a probability in that a
probability refers to the occurrence of future events,
while a likelihood refers to past events with known
outcomes.“
(Fisher)
Otázka na niečo, čo vieme ZMERAŤ
a vyjadriť číslom (skórami)
Rešerš, predbežné experimenty
Výskumná hypotéza – kvalifikovaný
odhad o tom, ako fungujú veci.
Schéma experimentu, „logistika“.
Plánujeme potrebný počet
nezávislých pokusov, ktoré môžeme
spresniť opakovaním („paralelky“).
V experimente testujeme,
či dáta podporujú hypotézu.
Najlepšie tzv. „fér testom“ – meníme
len jeden faktor (NZ premenná)
za konštantných podmienok
(kontrolné faktory sú konštantné).
Vyhodnotenie dátového súboru: deskripcia,
testovanie štatistických hypotéz,
Formulovanie záverov, nových hypotéz
Záverečná správa, prezentácie, publikácie
= nezávislé kritické posúdenie výsledkov
Výskumné otázky vedú
k testovaniu štatistických hypotéz
Hypothesis tests are procedures for making rational
decisions about the reality of effects.
Väčšina rozhodnutí v živote vyžaduje výber jednej z viacerých
možných alternatív. Takéto rozhodnutie je urobené bez znalosti toho,
či je korektné alebo nie; teda je založené na nekompletnej informácii.
Racionálne rozhodovanie (decízia)
je charakterizované použitím procedúry, ktorá do rozhodovacieho
procesu včlení šancu/pravdepodobnosť (likelihood/probability)
nastatia daného javu (napr. úspechu liečby).
Procedúra musí byť zostavená takým spôsobom, aby každý, kto
použije rovnakú informáciu, dospel k tomu istému rozhodnutiu.
• Predpoklady úspešného výskumu:
komunikujem so školiteľom/vedúcim tímu,
mám(e) zmysluplný vedecký zámer a z neho vyplývajúce otázky a
hypotézy,
viem, čo hľadáme (efekt, koncový bod) a prečo (čo sa má stať, až to
potvrdíme)
• Mám kvalitný dizajn experimentálnej (klinickej) štúdie:
- viem, ako efekt zmeriam (priame, nepriame, náhradné ukazovatele),
- viem, aké faktory by mali/mohli pôsobiť na výsledok koncový bod
(efekt, koncový bod), viem, ktoré musím zmerať a zaznamenať pre
môj model, viem, aké typy analýz dát potrebujem vykonať
- mám podľa uvedeného premyslený typ štúdie, štruktúru, včleňovacie
a vylučovacie kritériá, spôsob priradenia do skupín,
- mám odhadnutú potrebnú veľkosť súboru z hlavného ukazovateľa
efektu alebo podľa „najhoršieho scenára“
• Mám súhlas etickej komisie (štúdia na ľuďoch) alebo Štátnej
veterinárnej správy (štúdia na zvieratách)
• Mám svedomito zmerané (zozbierané) dáta
a pripravenú databázu (zakódované subjekty, označené skupiny,
formát a kontrola dát (filtrovanie dát), usporiadanie...
Reputaci vědy nekazí tolik velké a do očí bijící
aféry a podvody; na ty se téměř jistě dříve či
později přijde. Vědu kazí především tisíce
nanicovatých, upocených a bez kousku nápadu
provozovaných takyvýzkumů, které dokázaly projít
formálními kritérii vědní kontroly, bez toho, že by
jejich zbytečnost a sterilita byly odhaleny.
S. Komenda: LIBER CATENATUS - Úvahy o životě a přilehlém okolí, 2005
definícia vedeckého problému
ako znie pracovná hypotéza?
výber štatistického testu
výber skúmanej vzorky
zbieranie údajov
použitie vhodného testu
rozhodnutie o výsledku
Základné štatistické pojmy –
vysvetlenie
Štatistický súbor je neprázdna konečná množina objektov, ktoré majú
spoločné vlastnosti.
Rozsah súboru n je počet všetkých prvkov množiny.
Štatistické jednotky alebo prvky štatistického súboru sú prvky zvolenej
množiny.
Štatistické údaje (dáta) sú kvantitatívne údaje zistené skúmaním hromadných
javov.
Štatistický znak je spoločná vlastnosť štatistických jednotiek (značí sa
obvykle x).
Hodnoty znaku - jednotlivé údaje znaku - označíme x1, x2 ... x3
Delenie znakov - kvantitatívne a kvalitatívne
Zisťovanie hodnôt volených znakov v určitom štatistickom súbore sa nazýva
štatistické šetrenie.
Praktické použitie štatistiky
v dvoch rovinách
• Deskriptívna (popisná) štatistika - umožňuje
pozorované dáta redukovať na „uchopiteľné“ štatistické
parametre – reprezentatívnu hodnotu a rozptyl.
Grafická prezentácia
rozdelenie dát
rozdelenie
pravdepodobností (štatistické rozdelenie)
a
• Induktívna (inferenčná) štatistika -
umožňuje
z pozorovaných dát vytvárať všeobecne platné závery, s
uvedením stupňa ich spoľahlivosti.
Populácia (základný súbor)
- konečný rozsah
- nekonečný rozsah
Parameter (populačná charakteristika) –
je číselná charakteristika populácie
(napr. priemerná výška mužov na
Slovensku). Jej presná hodnota je
obvykle neznáma.
Populácia a výber – vysvetlenie pojmov
• základný súborpopulácia
• výber zo základného súboru
(náhodný výber)
• parameter
• pravdepodobnosť
• odhad parametra (štatistika)
• relatívna početnosť (ni/N)
• populačný priemer
(reprezentatívna
hodnota parametra)
• výberový priemer
• populačná smerodajná • výberová smerodajná
odchýlka
odchýlka (premenlivosť
parametra v populácii)
Pohľad na svet prostredníctvom dát
J. R. Statist. Soc. A (2011), 174, Part 2, pp. 247–295
Populačný parameter sa snažíme odhadnúť
na základe deskripcie výberu z populácie.
Presnosť odhadu závisí od kvality
experimentálneho dizajnu (metóda výberu,
jeho veľkosť (početnosť), merané alebo
zaznamenávané charakteristiky apod.
Výber (z populácie)
– Reprezentatívny výber – výber, ktorý dobre odráža
štruktúru skúmanej populácie
– Selektívny výber (nereprezentatívny) – dáva skreslený
výber o študovanej populácii
– Zámerný výber - presnosť zovšeobecňujúcich záverov
sa opiera o expertné hľadisko (skôr ako o štatistickú
metodológiu)
Náhodný výber
•
•
•
•
•
Prostý
Mechanický (systematický)
Oblastný (stratifikovaný)
Skupinový
Viacstupňový
• Následný experiment/štúdia – zber dát,
tvorba a analýza dátového súboru
Prehľad epidemiologických štúdií
http://ucebnice.euromise.cz/index.php?conn=0&section=epidem
Základné črty analytických a experimentálnych štúdií
Časové hledisko
Studie
Hlavní výstupy
Ukazatele:
Retrospektivní
Prospektivní
Průřezové
+
současnost
Případů a kontrol
+
(-)
Kohortové
(+)
+
frekvence
asociace
Prevalence
(RR)
OR
Incidence
RR
Úmrtnost
Intervenční
-
+
Incidence
Úmrtnost
+ je možné, (+) možné, ale nepříliš časté, - není možné, (-) možné
pouze ve speciálních případech, např. ve studiích případů v kohortě
RR relativní riziko, OR poměr šancí
RR
Premenné/znaky (variables)
Aby sme mohli matematické uvažovanie aplikovať na
klinický obraz pacienta,
MRI, CT, EKG, bezpečnosť (safety profile), terapeutický
účinok (efficacy trend), účinnosť terapeutického
postupu (effectiveness)... musia byť redukované na
premenné:
 Merania: teplota, TK …
 Počty: WBC, ...
 Skóre: Papanicolaou, Karnofsky, EDSS, Kurtzke...
 Binárne: úspech success / neúspech failure (čoho) ...
Pojem NÁHODNÁ PREMENNÁ
Premenné (veličiny) – základné definície
• Premenná
• všeobecnejšie ju možno definovať ako veličinu, ktorá môže
nadobúdať rôzne hodnoty. V štatistike sa vzťahuje na MERATEĽNÚ
vlastnosť, ktorá sa v čase alebo medzi objektami/subjektami
typicky mení.
Typy premenných:
Číselné premenné – (možno zmerať)
spojité (koncentrácia onkomarkera) a intervalové (vek)
Vyznačujú sa reprezentatívnou (strednou) hodnotou (najčastejšie
vyjadrenou ako priemer alebo medián) a mierou premenlivosti
(smerodajná odchýlka k priemeru alebo dolný a horný kvartil k
mediánu)
• Kategorické premenné (možno zaradiť)
• Nominálne – klasifikujú nejakú vlastnosť (genotyp)
• Ordinálne – určujú stupeň vlastnosti (cancer staging).
Charakterizujú sa početnosťami (%) v jednotlivých kategóriách
•
•
•
•
• závislé premenné – ich hodnoty môžeme len zmerať
alebo registrovať (experimentátor nemá vplyv na to, akú
hodnotu prijmú, napr. registrujeme, ako sa objekt zachová
na
zmenu
zadanú
experimentátorom).
Časté
v
observačných štúdiách.
• nezávislé premenné – ich hodnoty môžeme počas
experimentu nastaviť, alebo meniť (sú manipulované
experimentátorom, alebo môže ísť o grupovanie-zaradenie
do skupín podľa veku, pohlavia (stratifikácia) ap). Sú
nezávislé od počiatočných podmienok, vlastností, „sklonov”
skúmaných
objektov.
Časté
v
randomizovaných
kontrolovaných štúdiách.
• (regresia)
Závislá vs. nezávislá premenná
príklad predikčného modelu
y = f(x) symbol x v tomto zápise nazývame argumentom funkcie (alebo
nezávislou premennou), symbol f(x) hodnotou funkcie f v bode x
Chi2 test dobrej zhody medzi experimentálnym a modelovým výsledkom pre df=48: nesignifikantný (P >0,999)
Chi2 test maximálnej vierohodnosti modelu pre df=6: vysoko signifikantný (P < 0,0001)
logit y = - 0,38 - 0,24 x (vek) + 1,25 x (TD) - 7,30 x (Spetzler-Martin grade) + 4,28 x
(AVM skóre) - 7,04 x (embolizácia) + 1,42 x (iniciálna rýchlosť obliterácie)
100
Senzitivita / %
Hraničný (cut-off) bod = 0,5
Senzitivita 92%
Špecificita 94%
Pomer pravdepodobností
pravdivého odhadu 16,5
Pozitívna predikčná hodnota
testu je 97,14%.
75
50
25
0
0
25
50
75
100
1-špecificita
Premenné-klasifikácia
• Premenné (znaky) primárneho záujmu – nezávislé premenné, ktoré
nazývame faktory a ktoré meriame a/alebo nimi istým spôsobom
manipulujeme počas experimentu (kontrolujeme). V observačných
štúdiách zaznamenávame a triedime. Očakávame, že sú zdrojom
variability v sledovanej odpovedi (v závislej premennej).
• Pozadie (background, baseline, skresľujúce (confounders),
modifikujúce faktory, covariates..) – ich hodnoty (úrovne) môžeme
merať (identifikovať), ale nemôžeme ich kontrolovať. Ich
zahrnutím do modelu však odstránime variabilitu, ktorú vnášajú do
odpovede (hodnoty závislej premennej).
• Konštantné premenné môžeme merať aj kontrolovať, ale z rôznych
dôvodov ich držíme konštatntné počas trvania štúdie.
• Nekontrolovateľné (hard-to-change) premenné, premenné, o
ktorých existencii sa vie, ale ktorými sa kvôli podmienkam nedá
manipulovať, alebo je ťažké ich merať. Ich vplyv sa čiastočne
eliminuje vhodných dizajnom (rozloženie vplyvu v podskupinách,
resp. Experimentálnej a kontrolnej skupine randomizovaným
výberom a zaslepením - blinding).
Efekt - pripomenutie
• Ak je zmena v jednej premennej (charakteristike / znaku / faktore)
spojená so zmenou v druhej premennej, hovoríme o efekte.
• Tieto zmeny môžu byť kvantitatívne alebo kvalitatívne.
• Typ zmeny a hypotéza o zmene podmieňuje výber štatistickej
procedúry
• Väčšina biomedicínskeho výskumu je zacielená na rozpoznávanie
efektov a porozumenie ich podstaty.
Vzťahy medzi závislou a nezávislou premennou
A simple statistical mediation model
Confounding
• „confounder“ = zavádzajúci faktor, je premenná, ktorá je
asociovaná s rizikovým faktorom a je nezávislým
rizikovým faktorom pre meraný výsledný efekt (koncový
ukazovateľ - outcome)
Nosenie
zápaliek
Rakovina
pľúc
fajčenie
„Štatisticky sa dajú preukázať isté psychofyziologické korelácie – napríklad:
so zvyšujúcim sa tuhnutím kĺbov narastá pružnosť
názorov
Pravdepodobne však táto závislosť nie je natoľko
priama, aby sa dalo čakať, že zvýšením pohyblivosti
lakťa a kolena rehabilitáciou sa upevní charakter;
zrejme, a úplne prozaicky, má na oboch vinu (či
zásluhu) vek“
http://liber.upol.cz/LIBER24.htm
Faktor potlačujúci efekt (suppressor)
Faktor v príčinnej postupnosti (intervening
factor)
Zástupný faktor (surrogate factor)
Faktor modifikujúci účinok (mediating variable,
modifier)
Vzájomne korelované faktory
(problém multikolinearity)
Neznižujú predikčnú schopnosť a spoľahlivosť modelu ako celku, ale
zväčšujú štandardné chyby prediktorov. Pr: lipoproteíny: LDL s HDL
resp. s celkovým cholesterolom; morfometrické údaje, vek/výška u
detí apod.
Rizikový
faktor
Efekt
Faktor(y) korelujúce s
vybraným rizikovým f.
Časovo-závislé faktory
ich odlíšenie od fixných faktorov je dôležité pri analýzach prežívania
Typ funkčnej závislosti premenných
• diskrétne premenné sa menia skokom a môžu
prijímať len definované hodnoty
celých/racionálnych čísel (typické pre nominálne
a ordinálne veličiny, viď ďalej)
• spojité premenné môžu prijať ľubovoľné
hodnoty obvykle z definovaného intervalu
reálnych čísel
Mierka
(úrovne merania/pozorovania)
– nominálna, ordinálna, intervalová,
pomerová
– diskrétna, spojitá (continuous)
• nominálna – zavedenie disjunktných kategórií (napr.
binárna škála), ktoré vyčerpávajú všetky možnosti.
Neporovnávame, len rozlišujeme (kódovanie slovných úrovní
faktoru = hodnôt premennej)
• ordinálna – podobné požiadavky ako u nominálnej škály, ale
naviac je usporiadaná (usporiadaný faktor).
• intervalová – ešte naviac predpokladá, že medzi susednými
usporiadanými hodnotami škály sú v nejakom zmysle rovnaké
vzdialenosti. Ide o rozdiel hodnôt. Nula nemusí znamenať
neexistenciu vlastnosti/znaku.
• podielová (pomerná) – najkomplexnejší údaj, ktorý
vyjadruje aj násobok predom definovaného jednotkového
množstva. Nula znamená neexistenciu vlastnosti/znaku.
Vyjadrovacie prostriedky
štatistiky
Následný experiment/štúdia – zber dát,
tvorba a analýza dátového súboru
Grafy a tabuľky
Formát dát (simulovaná databáza)
Dáta časov a možných prognostických faktorov vybraných 11 pacientov s malígnym
nálezom
vstup: chirurgická intervencia
výstup: úmrtie
Vek
Pacient Pohlavie (roky)
(F=1)
2
1
32
8
0
37
9
1
24
10
1
38
20
0
31
21
1
43
23
0
38
24
0
33
25
1
40
29
1
34
30
0
29
Objem
(čas 0)
(cm3)
5,520
3,117
5,661
7,218
7,122
2,319
6,510
4,382
8,816
6,918
7,058
Perioperačné
GRADE
Závažnosť Time to event- Censor
komplikácie (kumulovane diagnozy
death
data
(A=1)
skore)
(čas 0)
(mes)
0
6
2
63
0
1
4
1
49
0
0
7
1
37
0
1
9
1
52
1
1
8
2
74
1
0
3
1
26
0
1
7
2
41
1
0
5
2
66
0
1
10
2
8
1
1
8
1
13
1
0
8
1
55
0
Kódovanie v programe StatsDirect:
Cenzurovanie = 0 pre nekompletné dáta
označenie * alebo +
Cenzurovanie = 1 pre kompletné dáta (udalosť)
(Bio)medicínske dátové súbory
Štandardne: na tvorbu databázy za účelom výskumu je potrebný súhlas etickej komisie.
Analytikovi sa databáza odosiela BEZ identifikačných údajov pacienta. Prípady treba
očíslovať a lekár musí pre seba zachovať zoznam s jednoznačným priradením. Kódy
prípadov sú obvykle v prvom stĺpci.
Prvý riadok sú popisky meraných/pozorovaných alebo zaznamenaných charakteristík tak,
aby boli JEDNOZNAČNE definované pre danú sadu údajov v stĺpci. Jeden znak /
jedna charakteristika = jeden stĺpec. Prvý riadok obvykle „berú “ štat. programy
automaticky ako hlavičku - pri zdvojených riadkoch a bunkách hlásia chybu)
Každý ďalší riadok sú údaje pre konkrétny prípad / subjekt. Ak nebolo meranie
realizované, bunka sa označí * alebo ostane prázdna. Medzi používané skratky patrí
n.a. (not applicable, N/A, značí sa aj „x“)
Kódy a dáta pacientov nasledujú za sebou BEZ PRERUŠENIA, ČI ZLUČOVANIA BUNIEK.
Ak je viac skupín, napr. Patológia vs. Kontrola, v druhom stĺpci, hneď za číslom
subjektu, je kód skupiny (môže byť aj text). Napr. 1 (aktívne liečený subjekt), 2
(placebo), prípadne ešte 3 (zdravá kontrola).
Alebo E (experimentálna skupina) vs. K (kontrolná skupina)
Alebo O (operovaní), F (farmakologicky liečení) N (bez liečby) a podobne.
Databázu pred odoslaním analytikovi skontrolujeme – využívame exc. funkcie (filter)
Grafické prezentovanie dát
- Praktické príklady
• A) kategorické dáta
grafické alebo tabuľkové zobrazenie vybranej
charakteristiky (znaku, premennej)
Prezentácia: stĺpcový graf, kumulatívny stĺpcový graf,
koláčový graf
Stĺpcové grafy
7,00
5,00
5,00
6,00
5,00
4,00
3,00
2,00
1,00
0,00
VAS Z
VAS K
Kumulatívne stĺpcové grafy
Početnosti vo vekových kvartiloch
100
90
80
70
60
4.kvartil
50
3.kvartil
40
2.kvartil
1kvartil
30
20
10
0
Muži
Ženy
Koláčové grafy
Proporcie karcinómov
6; 8%
18; 25%
16; 22%
211
111
121
122
32; 45%
B) Intervalové a spojité dáta
• Prezentácia:
- pre popisnú štatistiku:
ak máme malý počet dát (obvykle „n“ do 30): krabicový graf a
„spread plot“
ak máme vyššie počty: krabicový graf a histogram
(obálka histogramu nám hovorí o pravdepodobnostnom rozdelení dát)
- Pre identifikáciu odľahlých (extrémnych) hodnôt: prednostne
„spread plot“, vhodný aj krabicový graf (ďalej nasleduje test)
- Pre prezentovanie rozdielov medzi 2 a viac skupinami: stĺpcový
graf, krabicový graf (pre vlastným testovaním rozdielov)
- Pre prezentovanie vzťahov medzi 2 premennými: XY graf =
scatter, (pre vlastným testovaním vzťahov)
- Pre prezentovanie vzťahov medzi viac ako 2 premennými:
tabuľka (matica) korelačných koeficientov
Histogram
Priemer erytrocytov
Frequency
10
5
0
6,2
6,4
6,6
6,8
7,0
7,2
7,4
7,6
Mid-points for E
7,8
8,0
8,2
8,4
8,6
Populačná pyramída
Krabicové grafy
Spread plot
po
pred
20
25
30
35
skóre testu
40
Bodové grafy
Volume LV [cm3]
95% Prediction Interval
60
40
20
0
-20
0
5
10
15
LFH [mm]
Spojnicové grafy
Ladder plot
40
35
30
25
20
pred
po
Forest (Meta-Analysis)
ROC
Survival (K-M estimator)
Survival Plot (PL estimates)
Survivor
1,00
0,75
0,50
0,25
0,00
0
50
100
150
200
Tim es
Rozdelenia pravdepodobností
náhodných premenných v biológii
Priemer erytrocytov
Frequency
10
5
0
6,2
6,4
6,6
6,8
7,0
7,2
7,4
7,6
Mid-points for E
7,8
8,0
8,2
8,4
8,6
Spojité rozdelenia pravdepodobností
Častejšie sa používa iný popis chovania náhodnej veličiny –
distribučná funkcia náhodnej veličiny X.
Distribučná funkcia udáva pravdepodobnosť, že náhodná veličina X
neprekročí dané x. Pre spojité rozdelenie môžeme distribučnú funkciu
zapísať ako integrál z hustoty f(x) nazývanej tiež frekvenčná
funkcia.
Hodnota f(x) v bode x je úmerná pravdepodobnosti, že náhodná
veličina (premenná) padne do blízkeho okolia tohoto bodu (nadobudne
definovanú hodnotu- je to početnosť realizácií daného javu)
• normálne
• Studentovo
• chi2
• Fisher-Snedecoreovo
• binomické
• Poissonovo
Distribučná funkcia
a hustota pravdepodobnosti
Distribučná funkcia
(Cumulative distribution
function)
Funkcia hustoty
pravdepodobnosti
(probability density
function)
Left: The theoretical normal distribution. Right: Frequencies of 5,000 numbers
randomly generated to fit the normal distribution. The proportions of this data
within 1, 2, or 3 standard deviations of the mean fit quite nicely to that
expected from the theoretical normal distribution.
Normálne rozdelenie
0.4
0.3
68,28%
0.2
95,45%
0.1
-4
-3
-2 

-
99,73%
2
3
z(/2)
4
Normované normálne rozdelenie
SND , z 
x 

Pravdepodobnosti výberu rôznych počtov mužov z celkového počtu 48 osôb
(mužov a žien) vo výbere, ak uvažujeme parametrickú proporciu mužov rovnú
0,5.
Left: The theoretical normal distribution. Right: Frequencies of 5,000 numbers
randomly generated to fit the normal distribution. The proportions of this data
within 1, 2, or 3 standard deviations of the mean fit quite nicely to that
expected from the theoretical normal distribution.
Left: Frequencies of 5,000 numbers randomly generated to fit a distribution
skewed to the right. Right: Frequencies of 5,000 numbers randomly generated
to fit a bimodal distribution.
Kritické hodnoty (c) normálneho rozdelenia
1- 
0,90
0,95
0,99
0,999

0,1
0,05
0,01
0,001
/2
0,05
0,025
0,005
0,0005
c=z(/2)
1,645
1,96
2,576
3,291
Výberový priemer je tiež normálne rozdelený (centrálna limitná
veta)., preto pravdepodobnosť 1-  je súčasne aj koeficient
spoľahlivosti pre populačný priemer. Udáva hranice intervalu
spoľahlivosti (confidence interval), ktorý má tvar:
x  c SE(x )
kde „c“ je kritická hodnota a
SE je stredná chyba výberového priemeru SE(x ) = n , čo je
vlastne variabilita výberového priemeru, akú má pri opakovaných
meraniach. SE charakterizuje presnosť, s akou (jeden) výberový
priemer odhaduje príslušný populačný priemer. NIE JE MOŽNÉ JU
POVAŽOVAŤ ZA MIERU VARIABILITY NÁHODNEJ VELIČINY „X“
V POPULÁCII.
Hlavné popisné (deskriptívne)
ukazovatele
Hustota rozdelenia u spojitého rozdelenia alebo predpis
pre pravdepodobnosti jednotlivých hodnôt u diskrétneho
rozdelenia popisujú chovanie náhodnej veličiny ÚPLNE,
ale príliš zložito.
Existuje nejaké číslo/čísla, ktoré v sebe sústreďujú čo
možno najväčšiu informáciu o náhodnej veličine?
Miery polohy (tzv.centrálna
tendencia)
Hodnota okolo ktorej sa dáta sústreďujú - „stred”
dát
•stredná hodnota (aritmetická, priemer)
• stredná hodnota geometrická
• stredná hodnota harmonická
• medián
• modálna (modus)
• minimum, maximum
x
Aritmetický priemer
• Vhodný pre kvantitatívne znaky merané
na číselnej stupnici
• Nie ordinálne znaky
• Citlivý na odľahlé hodnoty (nevhodný pre
šikmé „nenormálne“ rozdelenia)
x 
1
n
x

n
i 1
i
~
x
Medián
• ak sú dáta usporiadané vzostupne/zostupne,
rozdelí ich na dve rovnako veľké skupiny
• Kvantitatívne a ordinálne veličiny (informácia
o poradí hodnôt)
• prostredná hodnota (nepárny počet prvkov),
aritmetický priemer z dvoch stredných prvkov
(párny počet prvkov výberu)
• Neovplyvnený odľahlými pozorovaniami
• Napr.: ED50 – 50% účinná dávka
xˆ
Modus
• Modus je hodnota, ktorá sa v súbore dát
vyskytuje najčastejšie
• Dôležitý najmä pre nominálne znaky
(krvné skupiny)
• Najtypickejšia hodnota znaku
• Nie je ovplyvnený hodnotami všetkých
prvkov vo výbere
Miery polohy a typy rozdelení
medián=priemer=modus
modus priemer modus
medián
modus medián priemer
priemer medián modus
Miery variability
Vyjadrujú premenlivosť vnútri skupiny/populácie
• rozptyl (disperzia, variancia = SD2)
• smerodajná odchýlka (štandardná deviácia, SD)
•variačné rozpätie (maximum-minimum)
• medzikvartilové rozpätie
Dôležitá poznámka: stredná chyba priemeru (SEM) nie
je mierou variability danej veličiny v populácii!
variance, standard deviation, range,
interquartile range, standard error of mean
S
2

n
1

n 1
( xi  x )
2
i 1
• S2 – rozptyl
• SD – smerodajná odchýlka
SD 
S
2
• Smerodajná odchýlka má rovnaké
jednotky ako meraná veličina!
Medzikvartilové rozpätie
• Z empirických distribučných funkcií
môžeme zisťovať: percentily, decily,
kvartily
• (horný kvartil) Q3 - (dolný kvartil) Q1
• (medián – stredný kvartil - Q2 = 5. decil
= 50. percentil)
• Krabicové grafy (box and whisker plots)
http://en.wikipedia.org/wiki/File:Boxplot_vs_PDF.png
Ďalšie popisné ukazovatele
• variačný koeficient
V = (SD/x) · 100%
Centrálne momenty
• šikmosť skew (g1 , vyjadruje symetriu rozloženia
pozorovaní (dát) okolo priemeru)
• špicatosť kurtosis (g2 , vyjadruje „koncentráciu“
t.j. zoskupenie hodnôt pozorovaní okolo priemeru.
Ak je rozloženie normálne, šikmosť aj špicatosť sú
blízko nuly, čo sa využíva pri orientačnej informácii
o normalite experimentálnych dát.
Iné:
• indexy rôznorodnosti – diverzity (Shannonova entropia,
Simpsonov index)
Normálne rozdelenie-kurtóza (špicatosť)
Ďalej:
• Odhad populačného (parametra) – priemeru
• Systematická a náhodná chyba
Populácia a výber –zopakovanie pojmov
• základný súborpopulácia
• výber zo základného súboru
(náhodný výber)
• parameter
• pravdepodobnosť
• odhad parametra (štatistika)
• relatívna početnosť
• populačný priemer
(reprezentatívna
hodnota parametra)
• výberový priemer
• populačná smerodajná
odchýlka (premenlivosť • výberová smerodajná
parametra v populácii)
odchýlka
jedna zo základných paradigiem štatistickej indukcie = úsudok od empirického pozorovania k
teoretickej predstave . Od vnemu, reálneho faktu stelesňovaného tým, čo bolo namerané,
k matematickému modelu štatistického správania sa náhodnej veličiny, o ktorú nám v
uvažovanej situácii ide.
Presnosť a správnosť
• náhodná chyba
– biologická
– metodologická
• systematická
chyba (bias)
- očakávaná (efekt)
- nežiaduca
(skresľujúci faktor)
Poznámka: pripomeňme si dôležitosť intervalov spoľahlivosti (95%CI)
Presnosť a správnosť
Odhad populačného priemeru
• (Výberový) Priemer – bodový odhad
populačného priemeru
Tento odhad je zaťažený chybou
• SEM, CI – confidence interval (interval
spoľahlivosti) – intervalový odhad
populačného priemeru
x  1,96

n
Zvárová et.al.2004
Populačné rozdelenie výšky
μ = 150cm; σ = 5cm
Výber z populácie
Vytvoríme histogram (výberové rozdelenie
výšok) a preložíme normálnym rozdelením
Odhady
populačných
Výberové rozdelenie
parametrov (μ
a σ)
Výberový priemer = 148cm
Zopakujeme celý
experiment ešte raz
Výberová SD = 4,5cm
Populačné rozdelenie výšky
μ = 150cm; σ = 5cm
Výber z populácie
Výberové rozdelenie
Získame niekoľko výberov → niekoľko bodových
odhadov (skutočného) populačného priemeru sledovanej
veličiny (výšky), ktoré nebudú úplne rovnaké budú sa od
seba líšiť.
Z tejto skutočnosti vyplývajú dve dôležité veci!!!
Ak boli tieto výbery urobené „dobre“
(náhodne), predstavujú tzv. reprezentatívne
výbery a odhady populačných parametrov sú
blízke skutočným populačným parametrom.
Potrebujeme však určiť, ako presne sme ich
odhadli...
1. Z každého experimentu (výberu) nestačí urobiť len bodový
odhad populačného priemeru. Musíme určiť, aký presný je
tento odhad → Intervalový odhad populačného priemeru.
(SEM, 95% intervaly spoľahlivosti pre priemer).
2. Výberové priemery majú tiež svoje vlastné rozdelenie
(rozdelenie výberových priemerov), ktoré je vždy
normálne (Gaussovo)!
T.j. priemery z jednotlivých experimentov (výberov)
predstavujú premennú (veličinu) rovnakú, ako je napríklad
výška mužov, hladina glukózy u diabetikov atď.
Populačné rozdelenie výšky
μ = 150cm; σ = 5cm
Výberové rozdelenie
priemerov
Výberové rozdelenie
priemerov
Výberové rozdelenie
priemerov
Smerodajná odchýlka tohto výberového rozdelenia
priemerov sa označuje ako SEM !!!
± 1,96 SEM = 95% CI pre priemer
• V skutočnosti robíme len jeden experiment,
máme len jeden výber.
• SEM môžeme z neho určiť nasledovne:
SEM 
SD
Odhad populačnej σ
n
95% interval spoľahlivosti (confidence interval CI)
pre priemer
x  1,96

n
x  1, 96
SD
n
Čo to teda znamená?
95%CI pre priemer
Poznámka
• SE – standard error sa odhaduje aj pre
iné štatistické parametre, nielen pre
priemer.
• Taktiež intervaly spoľahlivosti CI
SD vs. SEM
• SD – popis variancie výberového rozdelenia dát.
Výrazne (predvídateľne) sa nemení s rastúcim
počtom dát - veľkosťou výberu (n). Zaujímavý
pojem z pohľadu deskriptívnej štatistiky.
• SEM – intervalový odhad populačného
(skutočného) priemeru. Hovorí nám, ako presne sme
určili populačný priemer. Zaujímavý pojem z
pohľadu induktívnej a inferenčnej štatistiky.
SEM 
SD
n
Demonštrovanie platnosti centrálnej limitnej vety
Rozsah výběru „n“, opakování 100x
Stále užšie histogramy odpovedajú klesajúcej smerodajnej odchýlke priemerov:
4,345 pre n=1, 1,395 pre n=10 a 0,491 pre n=100.
Prvá hodnota je odhad parametra , posledná je odhad strednej chyby priemeru
zo 100 pozorovaní, teda odhad pre /100=/10. Aj keď je pôvodné rozdelenie
nesymetrické, výberové priemery majú rozdelenie blízke k normálnemu.
Pokračovanie príkladu: intervaly spoľahlivosti pre populačný
priemer veku matiek zo 100 náhodných výberov
Zo 100 95%-ných intervalov spoľahlivosti len 4 nepokrývajú skutočnú
hodnotu populačného priemeru. Aj keď je rozdelenie veku matiek
výrazne nesymetrické a nemôžeme použiť predpoklad o normálnom
rozdelení, centrálna limitná veta zaručuje, že výberové priemery (pre
n=100) už majú rozdelenie prakticky normálne.
Jednotlivé pozorovania (krížiky) a priemery (červené body) pre náhodné
výbery z populácie s parametrickým priemerom rovným 5 (horizontálna
čiara).
Priemery zo 100 náhodných výberov (N=3) z populácie s
parametrickým priemerom rovným 5 (horizontálna čiara).
Priemery ±1 štandardná chyba SE zo 100 náhodných výberov (N=3) z
populácie s parametrickým priemerom rovným 5 (horizontálna čiara).
Priemery ±1 štandardná chyba SE zo 100 náhodných výberov (N=20)
z populácie s parametrickým priemerom rovným 5 (horizontálna čiara).
Ďakujeme za pozornosť 
Študijná literatúra
1. Zvárová et. al. Základy statistiky pro biomedicínské obory
I., III. Praha, Karolinum, 2004.
2. Motulsky H.J., Christopoulos A.: Fitting models to biological data using
linear and nonlinear regression. A practical guide to curve fitting.
GraphPad Software Inc. 2003
3. Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans.
Cambridge University Press, 2001.
4. Armitage, P., Berry, G., Matthews, J.N.S.: Statistical methods in
medical research 4th ed, Blackwell science (2002) 816
Doplnkový materiál k štúdiu
1. Slezák Peter a spol. http://bio-med-stat.webnode.sk/
2. Zvára. Biostatistika. Praha, Karolinum, 2001.
3. http://www.statsdirect.com/help
4. http://rimarcik.com/navigator/
Analýza dát a Riešiteľ
(doplnky Excelu)
Postup pri inštalácii doplnku nájdete na webe, napr:
http://office.microsoft.com/sk-sk/excelhelp/nacitanie-doplnku-analyticke-nastrojeHP010021569.aspx
alebo si postup pozrite na videu na:
http://bio-medstat.meu.zoznam.sk/materialy/statisticke-programy/
„How to lie with statistics“ (D. Huff)
14
14 14
1144 1 4
1144 1 4
12
12 12
1122 1 2
1122 1 2
10
10 10
1100 1 0
1100 1 0
88 8
88 8
88 8
66 6
66 6
66 6
44 4
44 4
44 4
22 2
22 2
22 2
00 0
00 0
BB B
AA A
00 0
AA A BB B
AA A
BB B
Štatistické chyby
reálny svet - založený na faktoch
verdikt
je nevinný
je nevinný
je vinný
je vinný
chyba II. druhu
chyba I. druhu
Štatistická chyba I. druhu – riziko odsúdenia nevinného
človeka (nepoznáme, že platí nulová hypotéza)
Štatistická chyba II. druhu – riziko prepustenia
zločinca (nepoznáme, že neplatí nulová hypotéza)

BIOMED STAT 1 _3-4-2014 upravena

Transcript BIOMED STAT 1 _3-4-2014 upravena

Directory