statisztika2013febr_vds

Download Report

Transcript statisztika2013febr_vds

„Tatisztika… Ammeg mi?”
(békásmegyeri aluljáró járókelője)
Elméleti alapok I. – fogalmak, jelölések
Változó (variable): „bármi, amit mérni, vagy megfigyelni tudunk”
Változó kimenetele (outcome): „a változó lehetséges értéke”
Esemény (event): „a változó egy lehetséges értékét megfigyeljük/mérjük”
Eset (case): „ahol/akin/amin… mérjük az értéket”
Eseménytér (event field): „a megfigyelhetőségeket tartalmazó virtuális tér”
Valószínűségi változó: ha egy eseménytér elemeihez számokat rendelünk,
akkor az eseményeken egy függvényt értelmezhetünk. Ezt a függvényt
nevezzük valószínűségi változónak. Általában: ez a változó eloszlása.
Eloszlás, spektrum: „hány darab adott értékű elem van”
típusok: sűrűség fv/kumulatív fv; illetve relatív/abszolút
(Egyes tudományterületeken eltérő, hogy mit értenek eloszlás alatt!!!)
N " kedvez ő "
P 
N összes   Nagy számok törvénye
N összes
Elméleti alapok II. - események valószínűsége
Egyes elemi események: nagy betűkkel pl.: A.
A esemény bekövetkezésének valószínűsége: P(A).
P, hogy A vagy B esemény bekövetkezik: P(A+B) vagy P(AUB).
P, hogy A és B is bekövetkezik: P(A*B), vagy P(AB) vagy p(A∩B).
Események valószínűségének alaptörvényei (Kolmogorov-axiómák)
1. 0 ≤ P(A) ≤ 1.
2. P(biztos) = 1, P(lehetetlen) = 0.
3. Egymást kizáró eseményekre, P(A*B)=0 és ekkor ezek
egyesítésének valószínűsége: P(A+B)=P(A)+P(B).
[Alzheimeres (A), nem Alzheimeres (B) egér az állatházban]
3+. Egymástól független eseményekre: P(AB)=P(A)*P(B)
[Alzheimeres (A), egér (B) az állatházban]
Elméleti alapok III. – kombinatorika (esetszám
meghatározása)
1.A. Ismétlés nélküli permutáció: [hányféle sorrendben mérheti le Ildi
SPECT/CT-n a 4 féle módon kezelt gilisztát] n!
1.B. Ismétléses permutáció: [hányféle sorrendben mérheti le Ildi a 3 kontroll
n!
és 4 beteg nyuszit – ha a kontroll, ill. betegek uolyanok]
k1!* k 2 !*...
2.A. Ismétlés nélküli kombináció: [hányféleképpen választhat ki Ildi 4 egeret
n!
a méréshez a 10 különböző közül]  n  
k 
 
( n  k )!* k !
2.B. Ismétléses kombináció: [hányféleképpen választhat ki Ildi 4 egeret a
méréshez a 3 eltérő dobozban levő, összesen 10 közül]  n  k  1 


k


3.A. Ismétlés nélküli variáció: [hányféleképpen választhat ki és mérhet le
n!
Ildi 4 egeret a méréshez a 10 különböző közül]
( n  k )!
3.B. Ismétléses variáció: … nk
Na az eddigiek meg mire vótak jók….
Arra, hogy kiszámoljuk, hogy például:
Irodalomból tudjuk, hogy az XY anyagot használva az állatok 20%-a hót
meg. Mennyi annak a valószínűsége, hogy egy 20 fős csoportban legalább
14 túléli? (és 15 vagy 16?)…
Hogy n-ből (20) pontosan k (14) túléli, annak a valószínűsége:
(p=1-20%=80%)
(Binomiális eloszlás)
Ez kb. 0,11. Hogy legalább 14 túléli: 0,91. (15-re 80%; 16-ra 63%)
Hasonlóan, okos emberek kiszámolták, hogy mi annak a valószínűsége,
hogyha 2 egyforma normális eloszlású N1 és N2 elemű adathalmazból A
illetve B számú elemet kiveszek, akkor az „A elemek” és „B elemek”
átlagának különbsége egy adott érték. (t-eloszlás)
Különbség valószínűsége?!….
Biológiai rendszereink esetében kérdésünk általában:
Van-e különbség? Van-e hatás? = van-e különbség; együttváltoznak-e?
1. lehetőség: ránézésre is látszik, hogy van/nincs!!
Na akkor nézzünk rá az egészre – helyes ÁBRÁZOLÁS
Nade ez igaz akkor is ha nem minden lehetőséget tudok, mintám van?
2. lehetőség: ránézésre gyanús…
Ha az egyik adatpárt nézem van, ha másikat nincs…. Ráadásul az összes
lehetőséget (populáció) nem ismerem, csak mintám van….
Hogyan jellemezzem: eloszlása – de probléma uúgy fennáll: melyik
értékpárt nézzem?
Na akkor keressünk jellemzőket….
Újabb fogalmak….
Eloszlás „közepe” (középértékek)
Populáció: várható érték
Minta - becslés:
átlag [mean]: számtani közép; általános jelölése:
x
(átalgos négyzetes eltérés minimális)
medián [median]: a „középső” elem; ha több középső van, akkor:
elméletileg: a két középső közti összes elem
gyakorlatilag: a két középső elem átlaga
(abszolút eltérés minimális)
módusz [modus; mode]: a leggyakrabban előforduló elem
Újabb fogalmak 2….
Eloszlás „szélessége” (szórásértékek)
Populáció: elméleti szórás
Minta - becslés:
szórásnégyzet [variancia]: átlagtól vett átlagos négyzetes eltérés
(korrigált) (tapasztalati) szórás [standard deviation]: átlagtól vett (korrigált)
átlagos négyzetes eltérés négyzetgyöke
n
_
s
x
 (x
i
 x)
2
i 1
n 1
Interkvartilis távolság
kvantilisek: Legyen p 0 és 1 közötti szám (0 < p < 1), az x1, x2, …, xn,
adatrendszer p-kvantilisének nevezzük azt a számot, amelynél kisebb
adatok darabszáma legfeljebb np és amelynél nagyobb adatok darabszáma
legfeljebb n(1 – p) (v.ö. medián p = 1/2)
p = 1/4 alsó, p = 3/4 felső kvartilis („negyedelő”)
Újabb fogalmak 3….
Populáció-Minta??? Várható érték becslésnek a „jóságát” becsli:
az átlag szórása/hibája (standard hiba – ez azért jobb kifejezés, mert nem
normál eloszlás esetén nem az átlaggal becslünk…) [standard error]; s x
Szélességet a mintaszámmal súlyozza!
Ennek számítása a tapasztalati szórásból történhet [Gauss eloszlásnál;
nem normál eloszlásoknál a várható értéket inkább a mediánnal,
módusszal becsüljük, így ott egy kicsit más a helyzet]
s
x

s
x
n
A kiszámítás módjából látható, hogy a minta elemszámának (n)
növelésével az átlag hibája csökkenthető!!! (azaz a várható érték
pontosabban becsülhető)
Újabb fogalmak 4….
centrális momentumok: az adatok átlagától vett távolságának valamelyik
hatványa, osztva a minta elemszámával. [A gyakorlatban az első négy
momentumot használjuk]
Általánosan: , ahol r mutatja, hogy hanyadik momentumról van szó.
{vagyük észre, hogy az 1. centrális momentum =0, hiszen a zárójelet
felbontva az első tag maga az átlag és ebből vonjuk ki az átlagot!; valamint
látjuk, hogy a második momentum nem más, mint a nem korrigált (hiszen
n-nel és nem n-1-gyel van osztva) – azaz torzított – szórásnégyzet!}
ferdeség [skewness]: az eloszlás asszimetriáját mutatja: mennyire ferdül
balra (+), vagy jobbra (-) a normál eloszláshoz képest (második és
harmadik momentumból számolható)
laposság (csúcsosság) [kurtosis]: csúcsosabb (+), vagy kevésbé csúcsos (), mint a normál eloszlás (második és negyedik momentumból számolható)
minimum, maximum
a minta elemszáma [count, number]; általános jelölése: n; [a populáció
elemszámát N-nel jelöljük; gyakran végtelennek tekintjük]
tartomány [range]: legnagyobb érték-legkisebb érték tartománya
Kitérő…
Újabb fogalmak 5….
konfidencia-intervallum (szokták biztonsági tartománynak; megbízhatósági
tartománynak is hívni): azt a tartományt (intervallumot) jelöli ki, amelyben a
várható érték adott valószínűséggel (konfidencia valószínűség,
konfidenciaszint) tartózkodik.
_
Megj.: normál eloszlásnál (t:t-eloszlás értéke) x  t *
s
x
Ehhez hasonlóan írhatunk le jellegzetes tartományokat:
Az adatok adott százaléka található az adott tartományban.
Kiemelendő a normál (refernecia) tartomány, ami a 95%-os tartomány.
_
Megj.: normál eloszlásnál :
x t * sx
Különbség valószínűsége 2.
Biológiai rendszereink esetében kérdésünk általában:
Van-e különbség? Van-e hatás? = van-e különbség; együttváltoznak-e?
1. lehetőség: ránézésre is látszik, hogy van/nincs!! helyes ÁBRÁZOLÁS
2. lehetőség: ránézésre gyanús…
Hasonlítsunk össze jellemzőket – hogyan?
A saját adatunk paraméteré(ei)t egy ismerthez viszonyítjuk
Null-Hipotézis: nincs különbség közöttük
Ehhez „átalakítjuk” a paramétereineket
Milyen esetben, hogyan? – ezt is már megmondták…
hipotézisvizsgálat - statisztikai tesztek (próbák)
(favágás)
Eredmény: DÖNTHETEK
DE HIBA lehetőségével (mert mintám van csak és nem a teljesség)
A DÖNTÉS
Amit számolhatok: az elsőfajú hiba – ez alapján döntök.
Megj.: Másodfajú hiba nem ismert, csak becsülhető!
Szignifikancia szint: a maximálisan meghatározott elsőfajú hiba
(maximálisan milyen valószínűséggel vagyok hajlandó elvetni a nullhipotézist)
Gyakorlatban egy próba ereje: annak a valószínűsége, hogy a teszttel
különbséget tudunk kimutatni, amikor ez a különbség valóban létezik.
Elemszám és statisztikai teszt függő!
Favágás - általában
0. döntés szignifikancia szintjének meghatározása (szokásos: 5%, azaz 0,05)
1. megfelelő kérdés feltevése [pl.: hatásos-e ez a gyógyszer? – azaz csökkenti-e a
vérnyomást?...]
2. H0 (null-hipotézis) megfogalmazása: az általunk vizsgált statisztikai (valószínűségi)
változó eloszlásából származtatható paraméter csak a véletlen miatt
(mintavételezés) tér el az általunk ismert eloszlás paraméterétől [A két
csoportunkban mért vérnyomás nem különbözik egymástól – „különbségük” 0]
3. Halternatív (alternatív-hipotézis) megfogalmazása: null-hipotézis tagadása
4. Próba kiválasztása – a legjobb fejsze a körülményeknek megfelelően
5. Az eredményül kapott lehetséges elsőfajú hiba értékének és szignifikanciaszintnek
az összevetése – döntés null-hipotézisről.
6. Válasz a kérdésre (dől a fa)
Favágás - körülmények
Favágás – vágjunk fát…
Online egyszerű statisztika program: http://www.graphpad.com/quickcalcs/
Hasznos link: http://www.graphpad.com/guides/prism/6/statistics/
Megj.: centrális határeloszlás tétele: ha egy valószínűségi változó sok egymástól
független kis hatás összegződéseként áll elő, akkor az jó közelítéssel normális
eloszlású. (biológiai rendszerekben ez általában igaz)
Megj.: normál eloszlás esetében a paraméteres (t-próba, ANOVA…) próba a
legerősebb
Megj.: paraméteres próba átlag és szórás alapján számol – érzékeny a kiszóró
adatokra
Megj.: nem paraméteres próba medián, interkvartilis távolság alapján számol –
kevésbé érzékeny a kiszóró adatokra
Megj.: MWU próbánál kis elemszám esetében a különböző programok eltérő
korrekciót használnak
Megj.: adatfelvételkor törekedjünk a lehető legmagasabb mérési skálára
ANOVA, F-érték
F=MSa/MSe , F-érték számos helyen előfordul, szinte mindig (kivéve Fisher F)
szórások hányadosát jelenti
ANOVA, F-érték
OR, RR
Mikor használjuk
Előny, hátrány
Hogyan csináljuk
Jól használható,
ha
Mit számolunk
(mindkettő egyegy relatív
gyakoriság)
Hipotézisvizsgálat
ként
Eset-kontroll vizsgálat
ha a betegség ritka
olcsó, adott időben végezhető
Követéses vizsgálat
ha a rizikófaktor ritka
drága, hosszú ideig tarthat
(évek)
kiválasztunk egy beteg (eset)
kiválasztunk rizikófaktorral
és egy nem beteg (kontroll)
rendelkező és egy
csoportot egy adott betegségre rizikófaktorral nem rendelkező
nézve
emberek csoportját
majd megvizsgáljuk mindkét
majd időben követve nézzük,
csoportban az egyes
hogy melyik csoportból
egyedeket, hogy rendelkeznek- hányan betegszenek meg
e az adott rizikófaktorral
ha valakinek megváltozik a
„rizikófaktor-állapota”
(abbahagyja a dohányzást),
azt ki kell zárni a vizsgálatból
ha két csoport (beteg-nem
ha két csoport (rizikófaktorral
beteg) elemszáma közel
rendelkező – nem rendelkező)
azonos
elemszáma közel azonos
beteg-nem beteg csoportok
rizikófaktorral rendelkező –
egyebekben hasonlóak
nem rendelkező egyedek
(életkoreloszlás, nem
egyebekben hasonlóak
eloszlás…)
(életkoreloszlás, nem
eloszlás…)
esélyhányados (Odds Ratio)
relatív kockázat (Relative Risk)
[OR]
[RR]
Megadja, hogy hányszor
Megadja, hogy hányszor
nagyobb az esélye a
nagyobb a kockázata a
betegségnek a rizikófaktor
betegségnek a rizikófaktor
megléte esetében.
megléte esetében.
H0:, OR=1 illetve RR=1; illetve csak a véletlen miatt tér el ettől
(a betegség és a rizikófaktor között nincs kapcsolat)
döntés alapja: tartalmazza-e az 1-et az OR (vagy RR) adott
százalékos konfidencia-intervalluma*
pl.: 5%-os szignifikancia szinten (95%-os konfidencia
intervallumon) elvetem a null hipotézist, ha az OR-2* ; OR+2*
nem tartalmazza 1-et (pl. [1,23 ; 3,32])
Fisher
Fisher egzaktról:
A teszt elnevezése arra utal, hogy a khí.négyzet eloszlással szemben, ahol
a valószínűséget csak közelítjük (asszimptotikusan), az egzakt tesztnél a
táblához tartozó valószínűség pontosan meghatározható. Ehhez az adott
marginális összegekhez (Rm; illetve Cn a sorokra és oszlopokra) tartozó
összes lehetséges altáblát (segédtáblát – ai,j értékekkel az adott cellában)
kell létrehozni, és mindegyikből kiszámítani a feltételes valószínűséget
(pcutoff) a következő módon (N az összelemszámot jelöli):
Az adott kritériumnak (pl. a megfigyelt gyakoriságokból számított p értéknél
kisebb p értékűek) megfelelő valószínűségek összege adja a lehetséges
elsőfajú hiba értékét.
Fisher
Fisher egzaktról:
A teszt elnevezése arra utal, hogy a khí.négyzet eloszlással szemben, ahol
a valószínűséget csak közelítjük (asszimptotikusan), az egzakt tesztnél a
táblához tartozó valószínűség pontosan meghatározható. Ehhez az adott
marginális összegekhez (Rm; illetve Cn a sorokra és oszlopokra) tartozó
összes lehetséges altáblát (segédtáblát – ai,j értékekkel az adott cellában)
kell létrehozni, és mindegyikből kiszámítani a feltételes valószínűséget
(pcutoff) a következő módon (N az összelemszámot jelöli):
Az adott kritériumnak (pl. a megfigyelt gyakoriságokból számított p értéknél
kisebb p értékűek) megfelelő valószínűségek összege adja a lehetséges
elsőfajú hiba értékét.
Tűk
A=4,3
D=5,5
P=2A/(D*pi)
Pi=(2A*összes)/(D*talált)