Spearman-féle

Download Report

Transcript Spearman-féle

Korreláció,
lineáris regresszió
Dr. Gombos Tímea
SE, III.sz. Belgyógyászati Klinika
Két változó közötti kapcsolat
vizsgálata

Diszkrét valószínűségi változók
→ Khi-négyzet próba

Folytonos valószínűségi változók
→ Korreláció és regresszió
Két változó között lehet…

Függvényszerű (determinisztikus) kapcsolat
Az egyik változó és a kapcsolat egyértelműen
meghatározza a másik változót
 Pl.: Celsius fok és Fahrenheit átváltás


Stochasztikus kapcsolat
A függvényszerű kapcsolaton kívül még egyéb
tényezőktől, pl. a véletlentől is függ
 Pl.: koleszterin és a triglicerid szint


Függetlenség
Nincs kapcsolat
 Pl.: koleszterin szint és az irányítószám

Megválaszolható kérdések
Független-e egymástól az életkor és a
vércukor szint?
 Milyen szoros az összefüggés az
éhomi vércukor és a HgbA1c szint
között?
 A pulzusszám miképp befolyásolhatja
a vérnyomást?

Korreláció és regresszió
A két változó közötti kapcsolat léte és
erőssége
→ Korreláció
 A kapcsolat minőségének jellemzése,
a kapcsolatban lévő tendenciák
kifejezése függvények formájában
→ Regresszióanalízis

Korreláció




Az összetartozó (x, y)
pontpárok ábrázolása
Ha létezik egy
képzeletbeli egyenes,
amely mentén
helyezkednek el a
pontpárok → lineáris
korreláció
Az összefüggés irányától
függően pozitív vagy
negatív
Ha nincs ilyen egyenes
→ a változók
korrelálatlanok (de nem
feltétlenül függetlenek!)
Korrelációs együttható (r)
(Pearson-r, Product-moment
correlation)

A korreláció szorosságát a korrelációs együtthatóval
számszerűsíthetjük
Felsővonásos betűk –
tapasztalati várható érték
Sx, Sy – tapasztalati korrigált
szórásnégyzet

r értéke -1 és 1 közötti




Ha -1 vagy 1 – függvényszerű, lineáris, determinisztikus
a kapcsolat (minden pont azonos egyenesen)
Ha 0 - korrelálatlanság (nem feltétlenül függetlenség!)
Minél szorosabb a kapcsolat, │r│ annál közelebb van 1hez
Ha előjele + növekvő, ha – csökkenő a kapcsolat
tendenciája
A korreláció…
… skálafüggetlen (azonos számmal szorozva
vagy azonos számot hozzáadva nem változik.
Pl.: független a mértékegységtől)
 … szimmetrikus (x korrelációja y-nal = y
korrelációja x-szel)
 … a lineáris összefüggést méri, nem az
összefüggést általában
 … és az összefüggés nem egyenlő az oksági
kapcsolattal (az oksági kapcsolatot logikai
vagy kísérleti úton bizonyítani kell!)

Grafikus ellenőrzés (pontfelhő
diagram, scatter plot)



Linearitás
Outlierek
Minél jobban tömörülnek a
pontok az egyenes körül annál
nagyobb az r?




Két ábrából melyiken
szorosabb az összefüggés?
Mindkét ábrán r=0,7
A felső ábrán kisebbek a
szórások
Az r nem abszolút számokban
jelzi a „tömöttséget”, hanem
relatíve a szóráshoz képest!
Outlierek, linearitás
Regressziós
egyenes:
y=3+0,5x
 r = 0,816
 E = 7,5
 d = 4,12
 2. nem lineáris
kapcsolat!
 Outlier nélkül



3. r=1
4. r=0
Mi a teendő?
Outlierek




Szubjektív mi az outlier (ált. 2
SD-n kívül)
Ellenőrizni az adatbázist
 Tényleg valós érték?
Elütés? Mérési hiba?
Ha valós adat – egyedi
mérlegelés
 Nem üdvözítő
automatikusan kizárni
 Ha nagyon torzítja az
összképet lehetséges
Ellenőrizni, nincs-e az
outliereknek jelentősége? Biztos
outlier, vagy csak nem passzol
a mi teóriánkba?
Nem linearitás





Ha nem monoton, nincs értelme a
korrelációnak. Ha monoton…
Transzformációval lineárissá
tehető? (pl.: logaritmizálás –
elsőként az ábra skálázását
módosítva tesztelhető
(Axis/Scaling))
Nem paraméteres teszt végzése
(Spearman rang teszt)
 Kevésbé szenzitív
Keresni egy függvényt, ami
illeszkedik rá, helyesen leírja
Az egyik változó mentén 4-5
egyenlő „szélességű” csoportra
osztom a mintát. ANOVA-t végzek,
úgy, hogy ez a csoportosító
változó.
Kizárás
Jobb
egérgombbal
előhívható
Új változó létrehozása,
logaritmizálás





R. Doll, „Etiology of lung
cancer”, Advances in
Cancer research vol. 3
(1955) 1-50
Vizsgálat a dohányzás és a
tüdőrák kapcsolatára
Pontdiagram – egy főre jutó
cigarettafogyasztás és a
tüdőrák miatti elhalálozások
arányszáma 11 országban
A korreláció 0,73 volt a 11
pontra
Országok betegszenek
meg, vagy emberek?
Ökológiai korreláció
Csoportok


Egyének
Nem az egyének adatait használja, hanem csoportok
átlagain vagy arányszámokon alapul. Jellemzően
eltúlozza az összefüggés erősségét.
Kerülendő! Sohasem szabad két populációból
származó mintát keverni!
Determinációs együttható (R2)
Azt fejezi ki, hogy az x változó az y
varianciájának hány százalékát magyarázza
 Pl.: r=0,5 R2= 25%, tehát az y változó
varianciájának 25%-áért felelős az x változó, a
variancia másik 75%-át más tényezők (mérési
hiba, z változó) eredményezik
 Ha r=1, R2= 100%

Lineáris korrelációszámítás
feltételei

Mindkét változó folytonos, normál eloszlású legyen


A minták választása legyen véletlen mintavétel


Nem használható, ha az egyik változót a kutató határozza
meg (pl. gyógyszer dózis-hatás görbék, amikor előre
meghatározott adagokat kapnak az egyének és a dózist
nem a véletlen határozza meg)
Minden x értékhez tartozzon egy y érték


Hiányában Spearman rang korreláció végezhető
Ennek hiányát a statisztikai programok tudják kezelni
X és y értékei egymástól függetlenek legyenek

Pl.: nem szerepelhet egy egyén két különböző időpontban
mért értéke, vagy rokonok adatai
Korrelációs együttható
szignifikanciája

Kíváncsiak vagyunk két valószínűségi változó
korrelációjára (pl. a populációban a testsúly és
a magasság)
ezt az elméleti korrelációs együttható írja le (ρ –
rho), ennek becslésére:
→ véletlen mintavétellel mintát veszek
→ meghatározom a mintában a korrelációs
együtthatót (r), ebből becsülöm a ρ-t
→ meghatározom a becslés hibáját
→ a hibából számolom a szignifikanciát

Korrelációs együttható
szignifikanciája II




H0 – a korrelációs együttható a populációban 0
H1 – ρ nem = 0
N-2 szabadságfokú t-statisztika felhasználása
Döntés a p-érték szerint




Ha p kisebb, mint a szignifikancia küszöb, elvetjük a H0-t
A populáció korrelációs együtthatója r és nagyobb, mint 0.
(Természettudományos kutatásokban gyakran ha az
r>0,7, jelentős összefüggésnek véleményezik)
(Biológiai kapcsolatoknál a r>0,95 „gyanús”. Biztos nem
áll fent determináltság? Pl.: Hgb, Hct)
Lineáris regresszió





A változók közötti kapcsolatot egy függvénnyel
fejezzük ki
Így általánosítjuk és függetlenítjük az összefüggést a
mintaválasztástól
Egy kitüntetett változót (függő változó) a független
változó függvényével fejezzük ki
Azt fejezi ki, hogy a függő változó adott értékéhez
milyen átlagú független változó tartozik
Így az egyik értékéből megjósolhatjuk a másik értékét,
ez természetesen nem lesz pontos (véletlen
ingadozás)
y változó x változóra adott
regressziós egyenes


A képlet általánosan:
y=a+bx
y – függő változó
x – független változó
a – y tengelymetszet
b – meredekség (tg α)
Az az egyenes képlete,
ami köré
csoportosulnak a
pontok
Legkisebb négyzetek
módszere




A legjobban illeszkedő
egyenes megtalálására
Az az egyenes, amelyiknél a
megfigyelések egyenestől
mért négyzetes
távolságösszege a lehető
legkisebb
Ezek a távolságok a
reziduálisok. Minél
szorosabb az összefüggés,
annál kisebbek
Az egyenes együtthatóiból
standard hiba határozható
meg, ebből számítható a
konfidencia intervallum

Elérési útvonal STATISTICAban:
Statistics>>Basic statistics and
Tables>> Correlation matrices

Leginformatívabb módon:
Regressziós
egyenes képlete
→ ez nem
felel meg a
lin. regresszió
feltételeinek
►Spearman
rang
korreláció
Grafikus ellenőrzés másik módja: Graphs>>Scatterplots
Itt is kérhető statisztika
Próbaképp az outlier felett a jobb egérgombot nyomva ki lehet zárni egy értéket
(ismételten visszailleszteni a Data file-on lehet. A kizárt egyén sorszáma mellett
megjelenik egy áthúzott piros kör. Jobb egérgombot nyomva kell az ‘excluded’
elől kiszedni a pipát. )
Az r értéke 0,6372-ről 0,4245-re csökkent.
(Spearman rang korreláció az előnyösebb megoldás)
Két korreláció összehasonlítása



Pl.: Mivel függ
össze erősebben a
HgbA1c szint, az
éhomi vagy az
étkezés utáni
vércukor értékkel?
Statistics>>Basic
Statistics and
Tables>>Difference
test: r
H0 – egyformán
szoros a két
összefüggés
Nem paraméteres korreláció
(rang korreláció)
Spearman-féle ~
Kendall-féle ~
 Sorrendbe állítja a két változó
 Az egyik változó rangszáma
értékeit, a rangpárokkal számol
szerint sorba állítjuk a
párokat. Figyeljük, hogy a
 Logikailag megegyezi a
másik változó rangszámai is
Pearson-f. lin. korrelációval
növekednek-e vagy
(szórásokkal számol)
csökkennek. Eszerint
 Nem szükséges, hogy a
konkordáns és
függvény lineáris legyen, elég,
diszkonkordáns párokat
ha monoton
találunk. Ezek arányszámával
 Szignifikanciáját a lin.
számolunk
korrelációval megegyező
 Értéke ált. kisebb, mint a
módon számolja
Spearman-f r-nek
Elérési útvonal:
Statistics>>Nonparametrics>>
Correlations (Spearman, Kendall…)
Részletes elemzés, egy
 3 féle kimutatás

változó összefüggései egy
listányi változóval. R, t és
p-érték is
Áttekintés, csak az r és
kiemelve a szignifikáns. két
oszlop tagjai egymással
Áttekintés, minden-mindennel
Állítható a
szignifikanciaküszöb
(pl.: Bonferroni korrekció α/n)
Mátrix:
Detailed
report:
Köszönöm a figyelmet!