Sumarizacia 1 a 2

Transcript Sumarizacia 1 a 2

Zopakovanie
Quantitative analysis comes after the
thinking—it validates the thinking; it shows up
intellectual sloppiness and uncritical reliance
on precedent, on untested assumptions and on
the seemingly “obvious.” But it does not
substitute for hard, rigorous, intellectually
challenging thinking. It demands it, though—
but does not replace it. (Peter Drucker)
• Predpoklady:
komunikujem so školiteľom/vedúcim tímu,
mám(e) zmysluplný vedecký zámer a z neho vyplývajúce otázky a
hypotézy,
viem, čo hľadáme (efekt, koncový bod) a prečo (čo sa má stať, až to
potvrdíme)
• Mám kvalitný dizajn experimentálnej (klinickej) štúdie:
viem, ako efekt zmeriam (priame, nepriame, náhradné ukazovatele),
viem, aké faktory by mali/mohli pôsobiť na výsledok koncový bod
(efekt, koncový bod) – viem, ktoré musím zmerať a zaznamenať
viem, aké typy analýz dát potrebujem vykonať
mám podľa uvedeného premyslený typ štúdie, štruktúru, včleňovacie a
vylučovacie kritériá, spôsob priradenia do skupín,
mám odhadnutú potrebnú veľkosť súboru z hlavného ukazovateľa
efektu alebo podľa „najhoršieho scenára“
• Mám súhlas etickej komisie (štúdia na ľuďoch) alebo Štátnej
veterinárnej správy (štúdia na zvieratách)
• Mám svedomito zmerané (zozbierané) dáta
a pripravenú databázu (zakódované subjekty, označené skupiny,
formát a kontrola dát (filtrovanie dát), usporiadanie...
• 1. krok: grafické alebo tabuľkové zobrazenie vybranej
charakteristiky (znaku, premennej)
A) kategorické dáta
Prezentácia: stĺpcový graf, kumulatívny stĺpcový graf,
koláčový graf
Kategorické dáta - pokračovanie
• Jednoduchá (frekvenčná) tabuľka zodpovedá
jednostupňovému triedeniu. Obsahuje triedne početnosti
podľa kategórií (tried) jednej premennej. Zostrojenie
frekvenčných tabuliek z údajov sa nazýva tabelácia. Podobne
možno zostrojiť dvojrozmerné (dvojcestné) tabuľky.
B) Intervalové a spojité dáta
• Prezentácia:
- pre popisnú štatistiku:
ak máme malý počet dát (obvykle „n“ do 30): krabicový
graf a „spread plot“
ak máme vyššie počty: krabicový graf a histogram (obálka
histogramu nám hovorí o pravdepodobnostnom rozdelení
dát)
- Pre identifikáciu odľahlých (extrémnych) hodnôt:
prednostne „spread“, vhodný aj krabicový graf (ďalej test)
- Pre prezentovanie rozdielov medzi 2 a viac skupinami:
stĺpcový graf, krabicový graf (pre vlastným testovaním
rozdielov)
- Pre prezentovanie vzťahov medzi 2 premennými: XY graf =
scatter, (pre vlastným testovaním vzťahov)
- Pre prezentovanie vzťahov medzi viac ako 2 premennými:
tabuľka (matica) korelačných koeficientov
V prípade aspoň intervalových dát nasleduje
2. krok: posúdime symetriu rozdelenia dát
(distribučnej krivky)
• Vizuálne z grafu
• Posúdime blízkosť aritmetického priemeru a mediánu - v
prípade dokonalej symetrie (normálneho rozdelenia) sú
totožné
• Posúdime sklon/šikmosť (skewness) - v prípade normálneho
rozdelenia je rovný nule, pre ľavostranné rozdelenie
(natiahnuté doľava) je negatívny a pre pravostranné
pozitívny. Z grafu overíme, či nie je šikmosť spôsobená
jednou extrémnou hodnotou.
• Posúdime špicatosť/kurtózu (curtosis) - v prípade
normálneho rozdelenia je rovná 3 (v Exceli je centrovaná na
nulu, v Statsdirecte ponechaná na 3).
• Ak je rozdelenie „štíhlejšie“ ako normálne (leptokurtické), má kurtózu
väčšiu ako 3 (v Exceli väčšiu ako 0). Toto rozdelenie má „ťažké
chvosty“, t.j. relatívne veľa dát v extrémnejších hodnotách. Treba sa
zamyslieť, či sa v danom znaku neskrývajú dve subpopulácie s
rovnakým priemerom ale odlišnou variabilitou.
• Ak je rozdelenie „sploštenejšie“ ako normálne (platykurtické), má
kurtózu menšiu ako 3 (v Exceli menšiu ako 0). Treba zvážiť, či sa v
danom znaku neskrývajú dve subpopulácie s odlišnou strednou
hodnotou a rovnakou variabilitou (napr. bimodálne rozdelenie výšky
15ročných detí má bimodálne rozdelenie z dôvodu rozdielnej
distribúcie pre dievčatá a pre chlapcov.)
Ak je rozdelenie dát výrazne nesymetrické
• Zvážime, či to odpovedá prijatému vedeckému faktu
overenému na základe experimentu alebo pozorovania,
prípadne teoreticky odvodenému z východiskových
predpokladov. Napr. telesná hmotnosť má prirodzene
pravostranné rozdelenie (pozn. výška vybraného pohlavia má
normálne rozdelenie).
• Ak je predpokladom normálne rozdelenie a asymetria je
dôsledkom nízkeho počtu dát, pokúsime sa dáta matematicky
transformovať (najčastejšie používaný je logaritmus pre
rozdelenie natiahnuté doprava.)
• Ak transformácia nevedie k symetrizácii rozdelenia alebo
máme príliš nízky počet dát (5-10), popíšeme dáta mediánom a
intervalom medzi dolným a horným kvartilom (Q1-Q3) alebo
alternatívne minimom a maximom. V inferenčnej analýze
potom použijeme neparametrické testovanie rozdielov a
vzťahov.
Čo, ak sa nám rozdelenie dát nezdá dostatočne
symetrické?
• Ak máme počet dát do 30 (konzervatívnejší prístup uvádza
menej ako 100), použijeme test na normalitu (Shapiro-Wilkov
test ai.) a podľa jeho výsledku postupujeme ďalej.
• Ak je n›30, asymetriu „prehliadneme“, ak nie je príliš výrazná a
v inferenčnej štatistike použijeme parametrické testy.
• (platí totiž, že aj pre nenormálne rozdelenú populáciu sa bude
pri zväčšovaní veľkosti výberu, n, rozdelenie výberových
priemerov približovať k normálnemu rozdeleniu).
a
b
c
d
a) pôvodná hustota rozdelenia pravdepodobností P, b) hustota P sumy 2
nezávislých, identicky rozložených náhodných premenných, c) suma troch, d) suma
štyroch
Ak je rozdelenie symetrické, hustota
pravdepodobnosti je určená Gaussovou funkciou
•
•
•
•
•
nasleduje krok 3:
Dáta popíšeme aritmetickým priemerom x (centrálna
tendencia) a smerodajnou odchýlkou (SD).
Pre testovanie rozdielov a vzťahov potom použijeme
parametrické testy (všetky dáta sú zastúpené
parametrami priemer a SD (a počtom n, ten je ale
zahrnutý v priemere aj v SD).
Interval priemer±SD obsahuje 68,2% všetkých dát;
priemer±2SD obsahuje 95,5% všetkých dát
priemer±3SD obsahuje 99,7% všetkých dát
Výberová smerodajná odchýlka
ako odhad populačnej
smerodajnej odchýlky
 vs. SD
Populačná smerodajná odchýlka  (často nepoznáme populačný priemer ,
preto ju odhadujeme na základe výberového priemeru)
• http://en.wikipedia.org/wiki/Bessel's_correction
Výberový priemer ako odhad
populačného priemeru
Odhad populačného priemeru
• Výberový priemer je bodový odhad
populačného priemeru
• Tento odhad je zaťažený chybou SEM –
standard error of mean (stredná chyba
(určenia) priemeru),
• Od nej je odvodený 95%CI – confidence
interval , teda 95% interval spoľahlivosti je
intervalový odhad populačného priemeru
x  1,96

n

Sumarizacia 1 a 2

Transcript Sumarizacia 1 a 2

Directory