Korelacija i regresija Doc. dr. sc. Lidija Bilić-Zulle Katedra za medicinsku informatiku Medicinski fakultet Sveučilišta u Rijeci Zavod za laboratorijsku dijagnostiku Klinički bolnički.

Download Report

Transcript Korelacija i regresija Doc. dr. sc. Lidija Bilić-Zulle Katedra za medicinsku informatiku Medicinski fakultet Sveučilišta u Rijeci Zavod za laboratorijsku dijagnostiku Klinički bolnički.

Korelacija i regresija
Doc. dr. sc. Lidija Bilić-Zulle
Katedra za medicinsku informatiku Medicinski fakultet Sveučilišta u Rijeci
Zavod za laboratorijsku dijagnostiku Klinički bolnički centar Rijeka
15. studeni 2008.
Odabir statističkog testa
Ovisi o:
• vrsti podataka/ljestvice mjerenja
• raspodjeli (normalnost)
• uzorku (veličina, zavisnost)
• broju pokazatelja (uni/bi/multivarijatni testovi)
• istraživačkom pitanju
Osobine obilježja – mjerne ljestvice
Odabir testa: ovisnost o raspodjeli –
parametrijski i neparametrijski
• Parametrijski testovi:
• pokazatelji koji ne odstupaju od normalne
raspodjele
• obrađuju izvorna mjerenja
• Neparametrijski testovi:
• nisu ograničeni normalnošću raspodjele
• ne raščlanjuju izvorne podatke već "rankove"
Ovisnost o osobini uzorka
• Veličina:
• veliki uzorci – parametrijski testovi
• mali uzorci – neparametrijski testovi
• Zavisnost
• nezavisni uzorci – neparni testovi
• zavisni uzorci – parni testovi
Ovisnost o broju pokazatelja
• univarijatni:
• raščlanjuju samo jedan pokazatelj
• bivarijatni
• raščlanjuju dva pokazatelja
• multivarijatni
• raščlanjuju više pokazatelja
Istraživačko pitanje
• Postoji li razlika (u istoj varijabli) između dvaju
(ili više) skupina?
• Postoji li povezanost dvaju varijabli?
• Može li se iz jedne (ili više) varijable predvidjeti
druga?
Varijable
• biološke varijable – značajke ispitanika
• osnovna značajka – biološka varijabilnost
• potreba za mjerenjem na što većem broju
ispitanika (reprezentativni uzorak!)
Varijable
• stalne – ne će se promjeniti tijekom ispitivanja
(spol, rasa, genotip...)
• promjenive – mogu se promijeniti tijekom
ispitavanja (broj leukocita, koncentracija
glukoze...)
Varijable
• nezavisne varijable – mjerimo neovisno o ishodu pokusa,
prethode zavisnim varijablama, prediktori, rizični čimbenici,
varijable izloženosti (os x)
• zavisne varijable – kriteriji, posljedice djelovanja nezavisnih
• primjer:
karboksihemoglobin u krvi
varijabli, predstavljaju mjeru ishoda koju u istraživanju mjerimo (os
y)
broj popušenih cigareta na dan
Postoji li povezanost dvaju varijabli?
• statistički test
KORELACIJA
Korelacija
• sukladnost dvaju varijabli
• govori o njihovoj povezanosti
• uvjet pokazatelja: numerički (brojčana mjerna ljestvica)
• nominalna
• ordinalna
• intervalna
• omjerna




• broj pokazatelja: dva
Grafički prikaz korelacije
• točkasti dijagram (engl. scatter diagram)
y
y2
y1
x1
x2
x
Izračun korelacije
• Matematički postupak za izračunavanje stupnja
povezanosti dvaju brojčanih pokazatelja kojim
se izračunava:
• koeficijent korelacije r
• statistička značajnost koeficijenta korelacije P
Koeficijent korelacije
• Pozitivna potpuna (matematička) korelacija
y
r = +1
x
Koeficijent korelacije
• Pozitivna nepotpuna korelacija
y
0 < r < +1
x
Koeficijent korelacije
• Nepostojanje korelacije
y
r=0
x
Koeficijent korelacije
• Negativna nepotpuna korelacija
y
0 > r > –1
x
Koeficijent korelacije
• Negativna potpuna (matematička) korelacija
y
r = -1
x
Pearsonov koeficijent korelacije rp
• parametrijski test (računa s izmjerenim
vrijednostima):
• jednostavna linearna korelacija
• dva pokazatelja
• intervalna ili omjerna mjerna ljestvica
• vrijednosti: -1  r  +1
• barem jedna varijabla – normalna raspodjela
• veliki uzorak (n > 35)
• povezanost varijabli linearna
Spearmanov koeficijent korelacije
• neparametrijski test (računa s rangovima):
• linearna korelacija, r, rS
• dva pokazatelja
• ordinalna mjerna ljestvica
• vrijednosti: -1  r  +1
• kada rS, a ne rP:
• ordinalna mjerna ljestvica
• mali uzorak (n < 35)
• x i y ne slijede normalnu raspodjelu
Kada NE računati korelaciju!
y
y
x
y
x
• ... i kada se jedna varijabla izračunava iz druge
(npr. BMI i tjelesna masa)
x
Koeficijent korelacije
• r nema mjerne jedinice i izražava se brojem s dva
decimalna mjesta
• ne ovisi o tome koji je pokazatelj x, a koji y
• r = 0 znači: nema linearne povezanosti
• ne opisuje uzročno-posljedičnu vezu
(samo povezanost)
Statistička značajnost povezanosti
• uz koeficijent korelacije r potrebno naznačiti i
statističku značajnost P
• P – statistička značajnost povezanosti, izražava
se brojem s tri decimalna mjesta
• ovisi o veličini uzorka
• statistički značajna korelacija P < 0,05
TUMAČITI SE SMIJU SAMO ZNAČAJNI
KOEFICIJENTI KORELACIJE!
Tumačenje koeficijenta korelacije
(za biološke varijable)*
• r = 0 do ±0,25: nema povezanosti,
• r = ± 0,26 do ± 0,50: slaba povezanost,
• r = ± 0,51 do ± 0,75: umjerena do dobra
povezanost
• r = ± 0,76 do ± 1: vrlo dobra do izvrsna
povezanost
• r = ± 1: matematička povezanost
*Colton, 1974.
Jakost povezanosti
• udio zajedničkih vrijednosti
• koeficijent determinacije – r2
• Primjer za r = 0,67; r2 = 0,45
ili 45% zajedničkih vrijednosti
Primjer za raspravu*
Je li ispravno računati Pearsonov koeficijent
korelacije za stupanj opeklina na tijelu i trajanje
bolničkog liječenja izraženo u danima?
* Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada
izračunavamo koeficijent korelacije? Biochemia Medica 2007;17(1):10-5.
Primjer za raspravu*
U istraživanju povezanosti raspoloženje i količine
tekućine (vode) unesene pijenjem tijekom dana
dobivena je povezanost r = 0,12; P = 0,003. Je li
ispravno tumačiti kako postoji značajna
povezanost raspoloženja i količine popijene
tekućine?
* Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada
izračunavamo koeficijent korelacije? Biochemia Medica 2007;17(1):10-5.
Primjer za raspravu*
U istraživanju povezanosti visine tijela i biološke
dobi dobivena je korelacija r = 0,97; P = 0,001.
Možemo li zaključiti kako su visina i dob
nesumnjivo zaista izvrsno povezani?
* Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada
izračunavamo koeficijent korelacije? Biochemia Medica 2007;17(1):10-5.
Primjer za raspravu*
U istraživanju povezanosti koncentracije alkohola
u krvi i prometnih nesreća utvrđeni su
r = 0,78; P = 0,002. Možemo li zaključiti kako
uzimanje alkohola nesumnjivo uzrokuje prometne
nesreće?
* Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada
izračunavamo koeficijent korelacije? Biochemia Medica 2007;17(1):10-5.
Primjer za raspravu*
Usporedbom katalitičke koncentracije dvaju
enzima u krvi ispitanika dobivena je povezanost
r = 0,52; P = 0,002. Možemo li zaključiti kako
vrijednosti enzima imaju 52% zajedničkih
vrijednosti katalitičke koncentracije?
* Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada
izračunavamo koeficijent korelacije? Biochemia Medica 2007;17(1):10-5.
Primjer za raspravu*
Ispitana je povezanost vremena provedenog u
radu s računalom i brzine pisanja teksta na
računalu u žena (n1=60) i muškaraca (n2=40).
Koeficijent korelacije za žene iznosi r1 = 0,70, a za
muškarce r2 = 0,50 i oba su statistički značajna.
Možemo li zaključiti kako je r1 > r2, tj. da je u žena
veća povezanost vremena provedenog za
računalom i brzine pisanja teksta na računalu?
* Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada
izračunavamo koeficijent korelacije? Biochemia Medica 2007;17(1):10-5.
Može li se iz jedne varijable predvidjeti
druga?
• statistički test
REGRESIJSKA RAŠČLAMBA
Regresijska raščlamba
... matematički model koji daje što točniju
procjenu koliko će se promijeniti promatrana
zavisna varijabla (kriterij) kao odgovor na
promjenu nezavisne varijable (prediktor).
Uvjeti za izračunavanje regresije
• postojanje korelacije između ispitivanih varijabli
• ravnomjerno raspršenje rezultata oko pravca
regresije
• kvalitetan ispitivani uzorak (nasumično
uzorkovanje)
Regresijska raščlamba
•
•
•
•
linearna regresija
višestruka regresijska raščlamba
logistička regresija
Passing-Bablock regresija
Linearna regresija
•
•
•
•
matematička povezanost…
…dvaju pokazatelja (x i y)
nezavisna mjerenja
koliko promjena jednog (x) određuje promjenu
drugog (y):
• x: nezavisna varijabla (prediktor)
• y: zavisna varijabla (kriterij)
• rezultat: jednadžba pravca: y = a + bx
y = b0 + b1x
Linearna regresija
• y = a + bx; a = odsječak; b = nagib pravca
y
b
a
1
x
• y = x; idelan pravac kroz ishodište, a = 0; b = 1
Linerna regresija
• metoda najmanjih kvadrata:
• način utvrđivanja položaja regresijskog pravca među točkama
• najmanji mogući zbroj kvadrata odstupanja pojedinačnih točaka od
pravca po osi y, tj. suma kvadrata udaljenosti (y-y1)2 svih točaka
y
x
Linearna regresija
• pogrješka prognoze (rezidual) – variranje
rezultata oko pravca
• standardna pogrješka prognoze – prosjek
kvadrata udaljenosti svih točaka od pravca
regresije (odgovara standardnoj devijaciji
aritmetičke sredine)
Linearna regresija
• granice pouzdanosti
• raspon vrijednosti rezultata unutar kojeg s
određenom sigurnošću nalazimo predviđene
rezultate (uobičajeno 95% CI)
y
x
Višestruka regresijska raščlamba
• omogućuje:
• predviđanje zavisne varijable (kriterija) iz više
nezavisnih (pokazatelja, prediktora)
• nemaju svi pokazatelji istu vrijednost u
predviđanju
• pojedinačni značajni pokazatelji mogu izgubiti
značajnost u višestrukoj regresiji
Logistička regresija
• nalazi najbolji odgovarajući matematički model
za predviđanje dihotomnog ishoda iz niza
nezavisnih varijabli
• značajka ishoda: dihotomnost, tj. dva moguća
ishoda
Passing-Bablok regresija
• model linearne regresije koji pretpostavlja kako
niti jedna od dvaju varijabli nije niti zavisna niti
nezavisna
• najčešće: usporedba dvaju metoda mjerenja
• rezultat: vrijednost odsječka i nagiba pravca s
intervalom pouzdanosti koji ukazuju na
postojanje stalne ili proporcionalne razlike
između mjerenja
Hvala na pozornosti
[email protected]