KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ • Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában,

Download Report

Transcript KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ • Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában,

KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT
MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A
REGRESSZIÓ
• Az alapvető kérdés: van-e kapcsolat két, ugyanabban az
egyénben, állatban, kísérleti mintában, stb. mért különböző
változó között?
• Ha csak arra vagyunk kíváncsiak, hogy ilyen kapcsolat fennáll-e,
akkor korrelációt számítunk, ha arra is, hogy ha fennáll ilyen
kapcsolat, akkor az egyik változó értékeiből hogyan lehet előre
jelezni a másik változó értékeit, akkor regressziós, általában
lineáris regressziós számítást végzünk. A korreláció és a
regresszió között sok a hasonlóság, ha a korreláció mérőszáma
az un. korrelációs koefficiens szignifikáns, akkor mindig
szignifikáns lesz a lineáris regresszió is.
• A leggyakrabban használt és az orvosi irodalomban igen gyakran
megtalálható eljárások.
A KORRELÁCIÓ
• A két változó közötti egyenes arányú,
fordított arányú vagy hiányzó kapcsolat
(pozitív, negatív vagy nem létező
korreláció) lehet. Becslése az értékek
ábrázolása alapján lehetséges.
• ELÔSZÖR MINDIG RAJZOLJUNK!!!
PÉLDA
• Krónikus hepatitis C-ben szenvedô
betegekben mértük interferon alpha kezelés
elôtt és közben a HCV RNS plazmaszintet,
két komplement fehérje, a C9 és a C1-INH
szérumkoncentrációját és a komplement
rendszer egyik aktiválódási termékét, a C5b9-et. Szerettük volna tudni, hogy van-e
kapcsolat ezek között a változók között (Bíró
L. et al. Immunology Letters, 2000).
C9, kevert NHS %-ában
1. Látszólag nincs korreláció, az
adatok egy körrel írhatók körül
200
100
0
0
10
20
30
HCV RNS, MEQ/ml
40
C9, kevert NHS %-ában
2. Van pozitív irányú kapcsolat, az adatok
ellipszis szerű síkidommal írhatók körül
200
100
0
0
50
100
150
C1-INH, kevert NHS %-ában
200
3. Gyenge negatív irányú kapcsolat
C5b-9, E/ml
7500
5000
2500
0
0
10
20
30
HCV-RNS, MEQ/ml
40
50
Hogya n s zá mítha tó ki a ké t vá ltozó közötti
korre lá ció mé rté ke ? A mé rôs zá m a korre lá ciós
koe fficie ns (P e a rs on fé le product mome nt
corre la tion coe fficie nt), je le : r, ké ple te :
r
 ( X  X )(Y  Y )
 ( X  X )  (Y  Y )
2
2
B e te g
C9 (X)
1.
2
3.
4.
5.
6
7.
á tla g
8 0 .5
9 0 .7
8 0 .5
8 8 .1
5 4 .0
1 0 1 .5
7 5 .2
8 1 ,5
C1 -INH
(Y)
8 0 .9
9 6 .4
5 9 .1
9 6 .6
4 1 .2
1 0 3 .4
2 1 .8
7 1 ,3
_
X-X
1 ,0
9 ,2
1 ,0
6 ,6
2 7 ,5
2 6 ,3
6 ,3
_
Y-Y
9 ,6
2 5 ,1
1 2 ,1
2 5 ,3
2 9 ,9
3 2 ,1
4 9 ,5
_
_
(X-X)(Y-Y)
_
(X-X) 2
_
(Y-Y) 2
Be te g
C9(X)
1.
2
3.
4.
5.
6
7.
átlag
80.5
90.7
80.5
88.1
54.0
101.5
75.2
81,5
C1-INH
(Y)
80.9
96.4
59.1
96.6
41.2
103.4
21.8
71,3
2394
_
X-X
1,0
9,2
1,0
6,6
27,5
26,3
6,3
_
Y-Y
9,6
25,1
12,1
25,3
29,9
32,1
49,5
ö s zs ze g
_
_
(X-X)(Y-Y)
9,6
230,9
12,1
167,0
822,3
844,2
311,9
2398
_
(X-X)2
1,0
84,6
1,0
43,6
756,3
691,7
39,7
1617.9
_
(Y-Y)2
92.2
630,0
146,4
65,0
894,0
1030,4
2450,3
5308,3
2394
2394
r


 0,816
1617 ,9 5308,3 40,2 x 72 ,9 2930,6
• A korrelációs koefficiens legalacsonyabb értéke: 0 (nincs
lineáris korreláció), a legmagasabb +1,0 vagy -1,0
(tökéletes pozitív, ill. negatív lineáris korreláció)
• A korrelációs koefficiens értéke független a
mértékegységektől, amelyekben a két változó meg van
adva pl. testmagasság és testsúly közötti korreláció,
mindegy, hogy milyen mértékegységben (kiló, font, cm,
inch) vannak ezek megadva)
• A korrelációs koefficiens értékét az outlier (kilógó)
értékek igen erôsen befolyásolják. Ezt minden esetben
végig kell gondolni, az adatokat transzformálni, esetleg,
ha ez korrekt korrigálni is lehet. A kilógó érték lehet egy
szabálytalan, torzult eloszlás eredménye, ilyenkor
segíthet a transzformáció, vagy lehet mérési hiba,
ilyenkor lehet óvatosan korrigálni
A korreláció (a két változó közötti
kapcsolat) erôsségének megítélése
1. A leegyszerűsített megoldás
r
0-0,25
0,25-0,50
0,50-0,75
0,75
a korre lá ció e rôs s é ge
nincs va gy ige n gye nge
ka pcs ola t
gye nge ka pcs ola t
mé rs é ke lte n e rôs va gy
e rôs ka pcs ola t
ige n e rôs ka pcs ola t
Vigyá za t! a 0,95-né l na gyobb r é rté k biológia i
re nds ze re kbe n gya nús , e ls ôs orba n a rra , hogy a z
e gyik mé rt é rté k a má s ikból köve tke zik, ill. e z á lta l
de te rminá lt. Ezt a z e rôs ne k mé rt korre lá ciók
e s e té n mindig me g ke ll gondolni.
pl. m e gvizs gáltuk az inte rfe ron alpha ke ze lé s e lôtt
m é rt HCV R NS s zinte ke t é s a 3 hónap alatt az e
s zinte kbe n be köve tke ze tt változás ok közötti
kapcs olatot
Numbe r of XY P a irs
P e a rs on r
95% confide nce inte rva l
P va lue (two-ta ile d)
P va lue s umma ry
Is the corre la tion
s ignifica nt? (a lpha =0.05)
R s qua re d
51
-0.8283
-0.8988 to -0.7162
P <0.0001
***
Ye s
0.6861
Azonba n így cs a k e gy e vide ns , józa n é s s ze l e lőre
lá tha tó ka pcs ola tot iga zoltunk: ha minde n
be te gbe n a zonos mé rté kbe n cs ökke nti a ke ze lé s a
HCV-RNS s zinte t, a kkor a zokba n, a kikbe n
ke zde tbe n ma ga s volt a s zint na gyobb
cs ökke né s e vá rha tó, mint a zokba n, a kikne k a
s zintje má r e le ve is a la cs ony volt.
A determináltsági koefficiens
(r2)
• Az r2 érték azt fejezi ki, hogy az egyik változó
változásai várhatóan milyen mértékben járnak a
másik változó változásaival, vagyis mennyire
lehet az egyikből a másikat előre jelezni. Ha az
r=0,50, az r2=0,25, akkor 25%-ban lehet előre
jelezni az egyik változóból a másikat, és fordítva
(a korrelációnál a két változó felcserélhető).
Példánkban a két komplement fehérje (C9 és C1INH) között az r=0,62, az r2=0,38, tehát a C9
szintje alapján 39%-ban lehet a C1-INH szintet, ill.
a C1-INH szintje alapján a C9 szintet előre jelezni.
Az r CI-a
• Az r értékeknek is van eloszlása, ez
azonban nem szimmetrikus és csak
nagyobb (N10) esetszámnál
értékelhetô. Minden program
megcsinálja, kézzel elég macerás, A
C9 és C1-INH koncentráció közötti r
(0,62) CI-a 0,42-0,76.
A korrelációs koefficiens szignifikanciája
A le g fo n to s a b b k é p le t, a m e ly m in d e n e le m s z á m n á l
h a s z n á lh a tó , a z r e lo s z lá s t t- e lo s z lá s s á a la k ítja á t
é s a z e r r e a c é lr a s z o lg á ló tá b lá z a tb ó l a z íg y
k is z á m íto tt t é r té k n é l é s d f- n á l ( N - 2 ) m e g k e r e s h e tő
a P é r té k .
N2
t
2
1 r
a C9-C1-INH példánkban
t
50  2

2
1  0,62
48

1  0,38
48

0,62
Ez df=48-nál leolvasva p  0,001
77 ,4  8,79
A lineáris (Pearson) korrelációs koefficiens
kiszámíthatóságának feltételei I.
• A vizsgált egyének (állatok, minták, stb) egy nagyobb
populációból véletlenszerűen lettek kiválasztva
• Minden vizsgált egyénnél megmérték mindkét (x és y)
változót (a hiányzó értékekkel a legtöbb számítógépes
program boldogul)
• A megfigyelések egymástól függetlenek A vizsgált
egyének kiválasztása egymást nem befolyásolja (nincs
rokonsági kapcsolat). Nem tekinthetők független
megfigyeléseknek ha ugyanazt a vizsgálatot
ugyanazokban az egyénekben megismételjük és ezeket
különálló mintáknak tekintjük (a kettőt összevonjuk)
A lineáris (Pearson) korrelációs koefficiens
kiszámíthatóságának feltételei II.
• Az x és y értékeknek is függetleneknek kell lenni
egymástól (l. a HCV RNS változási példát fent).
• Ha az x változó szisztematikusan változik, pl. idô,
koncentráció vagy dózis) akkor ne korrelációt, hanem
lineáris regressziót kell számolni, bár ugyanazt az r és
P értéket kapjuk, de a regresszióból több következtetés
vonható le.
• Mind az x, mind az y mintáknak normál eloszlást
mutató populációból kell származniuk. Ha ez nem áll
fenn, akkor nem paraméteres eljárást (Spearman
korrelációs koefficiens) kell végeznünk.
A lineáris (Pearson) korrelációs koefficiens
kiszámíthatóságának feltételei III.
• Az x és az y végig egy irányban kell változzon.
Pl. az r - nek semmi értelme akkor, ha az x
növekedésével egy darabig nô az y, de a
további növelés után csökkenni kezd.
• sohasem szabad két populációból származó
mintát kombinálni, mert ez ál-szignifikáns
korrelációt fog mutatni, noha sem az egyik,
sem a másik mintában külön-külön nincs
kapcsolat a két változó között.
length of left front leg,
cm
elephants
90
r=0.044
p=0.925
80
70
60
50
40
30
250
500
750
1000
length of right ear, cm
(L. E. Phant et al.: Big Animals, 1997;25:23-45)
length of left front leg,
cm
mice
0.09
r=0.046
p=0.922
0.08
0.07
0.06
0.05
0.04
0.03
0.25
0.50
0.75
1.00
length of right ear, cm
(B. Hamster, P. Rat: Big Animals 1998;234:56-78)
length of left front leg,
cm
elephants and mice
100
r=0.922
p<0.0001
1
0.01
0.01
1
100
10000
length of right ear, cm
(G. Swine et al., unpublished)
A nem-paraméteres korreláció számítás, a
Spearman féle rang korreláció (másik gyakran
használt próba a Kendall féle rang korreláció)
Be te g
1.
2
3.
4.
5.
6
7.
C9(X)
80.5
90.7
80.5
88.1
54.0
101.5
75.2
Rang s zám
3,5
6
3,5
5
1
7
2
C1-INH (Y)
80.9
96.4
59.1
96.6
41.2
103.4
21.8
Rang s zám
4
5
3
6
2
7
1
A s z á m ító g é p a z a z o n o s s o rb a n lé v ô x , ill. y ra n g s z á m o k a t fig y e le m b e v é v e ,
k ü lö n b ö z ô k é p le te k e t h a s z n á lv a s z á m ítja k i a S p e a rm a n fé le k o rre lá c ió s
k o e ffic ie n s t (S p e a rm a n  (ró ) é rté k e t). E ls ő rá te k in té s re a k k o r v a n k o rre lá c ió , h a
a z u g y a n a z o k b a n a s o ro k b a n ta lá lh a tó ra n g s z á m o k a z o n o s a k v a g y k e v é s s é
k ü lö n b ö z n e k .
A tá b lá z a to n s z e re p lő p é ld á b a n a S p e a rm a n k o rre lá c ió s k o e ffic ie n s : 0 ,9 2
(p = 0 ,0 0 6 7 ). A P e a rs o n k o e ffic ie n s é rté k e 0 ,8 2 (p = 0 ,0 3 8 ) v o lt.
A korrelációs számítás legfontosabb
szabálya: a szignifikáns korreláció sem
jelent ok-okozati kapcsolatot
• Ha x és y között erôs korreláció van, akkor az
lehet azért, mert
• 1. az y változásai okozzák az x változásait
• 2. a x változásai okozzák az y változásait
• 3. egy harmadik faktor mind az x-et, mind az
y-t egy irányba (vagy ellenkező irányba)
befolyásolja. Ez a leggyakoribb!!!
A REGRESSZIÓ
• A regresszió úgy mutatja meg két változó
kapcsolatát, hogy egyben az egyik változó
(függő változó) a másik változótól (független
változó) való függésének mértékét is kifejezi.
• lineáris és nem-lineáris regresszió
• egyszerű és többszörös regresszió
• jelen kurzus tárgya: egyszerű lineáris
regresszió
PÉLDA
• Az allergének aktiválják a komplement rendszert az un.
klasszikus reakcióúton át. Ennek elsô lépése a C1
makromolekula belsô, enzimatikus aktivációja. A második
lépésben a C1 enzim (C1 eszteráz) egyik szubsztrátját, a
C4-et C4b-vé és C4a-vá hasítja el, majd a C4b tovább
bomlik és C4d keletkezik belőle. Egy speciális,
monoklonális ellenanyagokkal működő kit lehetővé teszi a
C4d szint mérést szérumban. Mi egy allergén (Parietaria
judaica=falfű) különbözô dózisaival (0,05, 0,10, 0,20, 0,40
mg/ml szérum) inkubáltuk 37 oC-on 60 percig egy vizsgált
egyén szérumát és minden mintában megmértük a
keletkezett C4d mennyiségét (µg/ml)
Az alle rg é n dó zis a, mg /ml
0.05
0.10
0.20
0.50
A ke le tke ze tt C4d me nnyis é g e ,
µg /ml
5.5
9.0
14.2
21.6
30
20
C4d,
10
g/ml

0
0.0 0.1 0.2 0.3 0.4 0.5 0.6
parietaria allergen
mg/ml
• Látható, hogy minél több allergént adtunk a
szérumhoz, annál több C4d keletkezett.
Kérdésünk a korrelációs számítással szemben,
amikor csak azt kérdeztük volna, hogy
kapcsolatban áll-e egymással az allergén dózisa
és a keletkezett C4d mennyisége, most azt is
tudni szeretnénk, hogy az allergén egy adott dózisa
(x mg/ml) milyen mértékű (y µg/ml) C4d
képzôdést indukál a szérumban. Ha az x és az y
között lineáris vagy ezt megközelítő összefüggés
látszik (példánkban ez a helyzet), akkor a
kérdésre a (egyszerű vagy egyszeres, simple)
lineáris regresszió módszerével kaphatunk
választ.
C4d, g/ml
30
20
10
0
0.0 0.1 0.2 0.3 0.4 0.5 0.6
parietaria allergen
mg/ml
• A lineáris regressziós számítás
lényege az, hogy egy olyan vonalat
húzunk, amely a mérési pontoktól a
lehetô legkisebb távolságban van,
ezeket a legjobban megközelíti (best
fit regression line). Matematikailag ez
azt jelenti, hogy minden más vonal
esetében a mérési pontok
függôleges távolsága négyzeteinek
összege nagyobb volna.
• Tehát a vonal úgy készül, hogy egy képlet alapján
kiszámolja a gép, de természetesen mi is
kiszámolhatjuk a lineáris regressziós egyenes
egyenletét (meredekség és metszési pont az y
tengelyen) és ennek alapján ábrázoljuk az egyenest.
• Az elsô és harmadik pont elég távol esik a regressziós
egyenestôl ahhoz, hogy a pontok és egyenes közötti
függôleges távolságokat is ábrázoljuk. E távolságok
négyzetének összege kell minimális legyen. A
távolságokat reziduumnak (residual) nevezzük, ezek
négyzetének összege a reziduumok varianciája,
melynek négyzetgyöke a reziduumok SD-je. A
regressziós egyenes az az egyenes, amelynél a
reziduumok összegének az SD-je a legkisebb. Egyes
programok ezt is kiszámítják
A számítás segítségével meghatározhatjuk az egyenesek konfidencia
intervallumát is, tehát azokat a határokat, amelyek közé azok a
regressziós egyenesek esnének 95%-os valószínűséggel, amelyek
más olyan kísérletekhez tartoznának, amelyekben ugyanezt az
összefüggést vizsgálnánk
C4d, g/ml
40
30
20
10
0
0.0 0.1 0.2 0.3 0.4 0.5 0.6
parietaria allergen
mg/ml
A regres s ziós egyenes egyenlete a következô:
y=bx + a
y=33,86x + 5,38
A b (33,86) az egyenes meredeks ége (s lope),
ennek 95%-os CI-a: 10,43 - 57,29)
Az a (5,38) az y tengely mets zés pontja (intercept),
ennek 95%-os CI-a: -1,06 - +11,82
Mit jelent kérdés ünk s zempontjából az egyenlet?
Ennek alapján megmondhatjuk, hogy a pl. 0,1
mg/ml parietaria allergén 0,1x33,86 + 5,38 = 8,77
µg/ml C4d-t fog generálni a vizs gált s zérumban.
Ez jól közelíti a valós ágban mért 9,0 µg/ml-es
értéket
A regressziós egyenes egyenlete
 ( X  X )(Y  Y )
b
2
(X  X )
a = y - (b
x ),
x (alle rgén
dó zis ,
m g /m l)
y ( ké pzô dö tt
C4d,
µg /m l)
0.05
0.10
0.20
0.50
5.5
9.0
14.2
21.6
x
=
0,21
y =
12,6
)2
x- x
y- y
(x-x
-0,16
-0,11
-0.01
0,29
-7.1
-3.6
1,6
9,0
0,026
0,012
0,000
0.084
=
0,122
(x-x
)(y-y
1.136
0.396
-0,016
2,61
= 4,126
)
példánkban
b=4,126/0,122=33,81
a=12,6-(33,81.0,21)=12,6-7,1=5,5
A program kiszámítja az r2 értéket is, hiszen a regressziónak a
korreláció mindig része (fordítva nem. Az r2 érték 0,9508, tehát a két
paraméter között extrém erôs lineáris korreláció áll fenn (vigyázat itt
kevés ponttal dolgoztunk!!!) A 0,9508-as r2 érték azt jelenti, hogy az
allergén dózis változásaival a C4d képzôdés változásainak 95%-a
magyarázható, csak 5%tulajdonítható egyéb faktoroknak.
A lineáris regressziós egyenes
szignifikanciája:
•
•
A null-hipotézis: nem áll fenn lineáris összefüggés a parietária allergén
dózisa és a képzôdött C4d mennyisége között. Ha ez igaz, akkor a
regressziós egyenes az x tengellyel párhuzamos lenne, tehát a
meredeksége: 0. A P érték azt jelenti, hogy ha a null-hipotézis igaz, akkor
mi annak a valószínűsége, hogy véletlenül a 0-tól az észlelt mértékben
eltérô, vagy ennél még nagyobb meredekséget észlelnénk. Ha a P érték
kicsi, akkor valószínűtlen, hogy az észlelt összefüggés véletlen
koincidencia eredménye lenne. Példánkban a P érték: 0.0249, tehát
kevesebb, mint 2,5% annak a valószínűsége, hogy az allergén dózisától
nem függ a szérumban képzôdô C4d mennyisége.
A szignifikancia kiszámítása több módon történhet. 1) A t eloszlás alapján,
amikor a t érték a b abszolút értéke és ennek a SE.-jának a hányadosa.
(df=N-2). A kapott értékbôl egyszempontos variancia analízist végzek és
ekkor az F próba adja meg a szignifikancia értékét. Ez utóbbi fontos lesz a
többszörös lineáris regresszió megértéséhez.
A lineáris regresszió
elvégezhetôségének feltételei
• Az x és az y értékek nem felcserélhetôk, az x értékek
alapján szeretnénk elôre jelezni az y értékeket, fordítva
ez nem lehetséges, mert a kísérletben az x-et variáljuk,
vagy idôben esetleg logikailag megelôzi az y-t (pl.
elôbb adtuk hozzá a szérumhoz az allergént és csak
ezután képzôdött a C4d)
• Az ábrázolás szerint az x és y értékek között lineáris
összefüggés áll fenn. Ennek eldöntésre a legtöbb
program lehetôvé teszi a reziduumok ábrázolását is,
ennek elemzése elôsegítheti annak az eldöntését, hogy
valóban fennáll-e az x és y között a lineáris viszony.
C4d képzôdés,µg/ml
3
2
1
0
0.1
-1
0.2
0.3
0.4
0.5
0.6
parietaria dózis, mg/ml
-2
-3
Ha ez fennáll, akkor a pontok többsége a
vízszintes vonalhoz közel esik, és nem találunk
nagyon kilógó értékeket sem. Az x dózis
növekedésével párhuzamosan a pontok távolsága
(pontosabban a távolságok négyzeteinek SD-je)
az y=0 vonaltól nem nőhet vagy csökkenhet
szisztematikusan. (ez az un. homoscedasticitás
vagy homogenitás elve) A lineáris összefüggés
ellen szól az is, ha több pont csoportosul egymás
közelében
A lineáris regresszió
elvégezhetôségének feltételei (folyt.)
•
•
•
•
Bár matematikailag az összefüggés a végtelen kicsi és a végtelen
nagy irányban is megmarad az x és y között, lehetőleg csak a
megfigyelések által meghatározott tartományban számoljunk
ezzel, annál is inkább, mert az y értékek akár negatívvá is
válhatnak, amelynek biológiailag legtöbbször semmi értelme
sincs.
A reziduumok távolsága a regressziós egyenestől normál
eloszlású vagy ezt megközelítő legyen
Minden vizsgált minta egymástól függetlenül lett kiválasztva.
Az x érékek és az y értékeket egymástól függetlenül határoztuk
meg. Tehát a korrelációhoz hasonlóan nem szabad lineáris
regressziót számolni egy változó kiinduló értéke és ennek
változásának mértéke között, hiszen az utóbbi kiszámításánál az
elôzôt is figyelembe vettük (l. a HCV RNS példát a korrelációnál)
A x értékek kiszámítása az y értékek alapján
(standard görbe a laboratóriumokban)
• Ez a laboratóriumok mindennapi feladata. Pl. van egy
standard magas ismert IgG tartamú szérumom. Ebből
hígítási sort készítek és megmérem benne Mancini
módszerrel a keletkezett precipitációs körök átmérőjét mmben kifejezve. Ezután elkészítem a standard görbét: az x
tengelyre az egyes hígítások ismert IgG koncentrációja jön,
a y tengelyre pedig a precipitációs körök átmérôje. Az
ismeretlen mintákban kapott átmérőt a y tengelyre viszem
majd meghatározom az ehhez tartozó x értéket, tehát IgG
koncentrációt. Ez számítógéppel (hiszen ismert az x és y
közötti összefüggés egyenlet) végtelenül egyszerű. Elvileg
lehet extrapolálni is, tehát a standard görbénél kisebb vagy
nagyobb tartományban dolgozni, itt azonban igen
óvatosnak kell lenni.
IgG, g/l
15.0
7.5
3.75
1.9
0.95
á tmé rô, mm
30.00
14.00
8.00
3.00
1.80
9.00
29.00
2.00
6.00
Az analízis eredménye:
Slope
Y-intercept
X-intercept
1/slope
2.007 ± 0.06194
-0.3205 ± 0.4797
0.1597
0.4983
Standard görbe
Precipitációs kör
átmérôje, mm
40
ismeretlenek
4.644
14.609
1.156
3.149
30
20
10
0
0
5
10
IgG, g/l
15
20
9.000
29.000
2.000
6.000
Mi történik, ha az x és az y közötti
összefüggés nem lineáris?
• 1. Meg kell próbálni úgy transzformálni
az értékeket, hogy lineárissá váljon az
összefüggés
• 2. Ha ez nem lehetséges, a nemlineáris regresszióval kell dolgozni.
NEM LINEÁRIS REGRESSZIÓ
• Az eljárást a klinikumban ritkán használjuk, az orvosbiológiai
tudományokban azonban nagyon fontos eljárás, pl. a ligand
receptorról való disszociációja vagy a rádióaktív izotóp bomlása,
vagy a gyógyszerek májban történô metabolizmusa, ill. vesében
történő kiürítése egy nem-lineáris összefüggés, szerint, az
exponenciális model szerint (pl. a kiválasztott gyógyszer
mennyisége a gyógyszer plazmakoncentrációjának függvénye,
ahogy ez csökken a kiválasztás üteme is lelassul.
• A nem-lineáris regresszió lényege egy egyenlet illesztése az
adatokhoz és annak a vizsgálat, hogy az adatok illeszkednek-e
az egyenlet által meghatározott görbéhez (lineáris regesszió:
ugyanez egyenessel). A számítógépes programokba számos
egyenlet be van építve, de lehetőség van saját egyenlet
készítésére is.
x
y
2.00
1654.00
4.00
1515.00
6.00
1243.00
8.00
1098.00
10.00
1032.00
15.00
874.00
20.00
754.00
25.00
653.00
30.00
567.00
35.00
604.00
40.00
587.00
Y
2000
1000
0
0
10
20
30
X
40
50
one site binding model
two-site binding model
2000
Y
Y
2000
1000
0
1000
0
0
10
20
30
40
50
0
10
20
X
30
X
one-site
two-site
Degrees of Freedom
9
7
R²
0.6453
0.9933
Absolute Sum of
Squares
Sy.x
517300
9776
239.7
37.37
40
50
Többszörös logisztikus regresszió
• Számszerűen (odds ratio formájában) fejezi
ki az összefüggést egy független változó és egy
dichotóm (beteg/nem beteg, férfi/nő,
magas/nem magas, stb) függő változó között
úgy, hogy ezt az összefüggést a többi
független változóhoz illeszti (adjusted) tehát
matamatikai módszerekkel a többi független
változó hatását kiküszöböli. A cél általában a
predikció.
A többszörös elemzés a klinikai
orvostudományban, egy példa
Volpato, S et al: Cardiovascular Disease,
Interleukin-6 and Risk of Mortality in Older
Women. The Women’s Health and Aging Study.
Circulation, 103, 947, 2001
620 >65 éves nő, anamnézis, orvosi vizsgálat,
vérvétel, különböző gyulladásos markerek
meghatározása: IL-6, CRP, albumin
3 éves követés (PROSPEKTÍV VIZSGÁLAT), a
halálozás és ennek okának regisztrálása
Az alap szérum IL-6 szint és a 3
éves mortalitás
IL-6 s zint, <1.78
pg/ml
Me gha lt 17 (8)
(%)
Túlé lt
197
1.79-3.10 >3.10
Ös s ze sen
214
24 (12)
54 (27)
180
148
204
202
A különböző IL-6 szérumszintű betegek
demográfiai és egészségügyi jellemzői
IL-6 s zint,
<1.78
pg /ml
>20000 US D 25.2
é vi jö v., %
do hányzik, % 12.3
1.79-3.10
>3.10
p (tre nd)
17.6
18.3
<0.05
29.7
33.8
<0.001
BMI kg /m 2
27.6  0.4
29.1 + 0.5
29.8 + 0.5
<0.001
CHD, %
23.4
38.7
39.6
<0.001
Diabe te s , %
10.3
17.7
23.8
<0.001
athe ro s c l.
inde x
1.04 + 0.02 0.99 + 0.01 0.94 + 0.02 <0.001
Kérdés
• Mennyivel nagyobb kockázatuk (relatív rizikó) a
magas IL-6 szintű egyéneknek a közepes és az
alacsony IL-6 szintű egyénekhez viszonyítva arra,
hogy 3 éven belül meghaljanak? Prospektív
vizsgálat, RR számolható.
• A feladat az, hogy matematikai módszerekkel
kiküszöböljük az egyéb tényezőket, amelyek a
három IL-6 szintű csoportban különböznek és így
adjunk választ a fenti kérdésre
• Ebből a célból különböző modelleket építünk fel, és
a logisztikus regresszió módszerével végezzük el a
számítást.
A 3 éves mortalitás nyers és adjusztált relatív
rizikója (95% CI) az IL-6 szérumszint szerint
1. mo de l
c s ak IL-6
Alac s o ny
IL-6 s zint
Kö ze pe s
IL-6 s zint
Mag as
IL-6 s zint
2. mo de l ILIL-6, ko r,
do hányzás ,
BMI
1
1
3.mo de l
IL-6, ko r,
do hányzás ,
BMI, CHD,
diabe te s ,
c aro tis
vas tag s ág
1
1,51(0.812.81)
3.83 (2.226.62)
1.32 (0.702.47)
3.54 (2.036.17)
1.08 (0.573.04)
2.63 (1.484.96)
A TÖBBSZÖRÖS LOGISZTIKUS
REGRESSZIÓ
• Matematikai-statisztikai eljárás, amelyet akkor
alkalmazunk, ha egy dichotóm változó
bekövetkezésének valószínűsége és az egyes
független változók közötti kapcsolatot
szeretnénk kiszámítani. Ha a független változó
nominális, akkor ezt 0-val, ill 1-el jelöljük
(dummy variable), ha folyamatos, akkor egy
bizonyos egységnyi növekedésre pl. 1. SD
növekedésre vonatkozik a kapcsolat, az OR.
ÚJ FOGALMAK
• megfigyeléses
vizsgálat
• prospektív vizsgálat
• retrospektív vizsgálat
• keresztmetszeti
vizsgálat
• randomizált vizsgálat
• multicentrikus
vizsgálat
• végpont (end-point),
outcome variable
• metaanalízis
•
•
•
•
•
•
•
•
•
túlélési analízis
censored data
Kaplan-Meier módszer
log-rank teszt
adjusztált (illesztett,
korrigált, adjusted)
analízis
többváltozós regressziós
analízis
logisztikus regressziós
analízis
Poisson regressziós model
Cox regressziós model