Transcript Előadás

Regresszió és korreláció
2013. 03. 09
.
•
•
•
•
Lineáris regresszió
Regressziós vizsgálatok
Korrelációs együttható
Korreláció és függetlenség
• Bizonyos esetekben tudjuk/gyanítjuk, hogy
az adatok ingadozásáért egy másik,
ugyancsak változó tényező a felelős
• Pl.:
– RR különböző életkorokban más értékek
– Laboratóriumi mérést helyiség hőmérséklete
befolyásol, növeli a szórást
• Kézenfekvő lenne ennek a külső
változónak az ingadozását megszüntetni,
értékét azonos szinten tartani – nem
mindig lehetséges
• Másik megoldás, hogy a zavaró változó
hatását igyekszünk felderíteni, és
számítással kiküszöbölni.
• Bizonyos esetekben ennek a hatásnak a
természete jobban érdekel minket, mint
magának a szórásnak a csökkentése
• Pl.: Hogyan változik (és változik-e
egyáltalán)
– a korral a vérnyomás
– a koncentrációval a törésmutató
• Eredeti változónkat tehát mintegy a másik
függvényében vizsgáljuk – regressziós
vizsgálatok
300
250
0.1
0.2
0.3
0.4
0.5
0.8
1.0
200
150
100
50
0
rángásidő ms
• Adrenalin hatására
vizsgáljuk az
izomrángást
• Adrenalin dózis
növekedésével a
rángásidőt vizsgáljuk
• Próbáljuk egyenessel
megközelíteni a hatás
jellemzését
• x változó vizsgált értékeit mi választjuk ki,
• yi adatok eltérését az egyenestől rögzített
xi értéknél (tehát a függőlegesen
vizsgáljuk)
• Célunk, hogy a függőleges egyenesekből
számolt szórás a lehető legkisebb legyen
• y=a+bx ahol b a meredekség, a
tengelymetszet
Regressziós vizsgálatok
• A regressziós összefügéseket nem mindig
egyenes ábrázolja a legjobban
• Sokszor görbe jellemzi: parabola,
hiperbola vagy exponenciális görbe
• Előfordul, hogy a dózis logaritmusa áll
lineáris kapcsolatban a hatással
Valóságos regressziós egyenlet:
1., x és y tengelyen ábrázolt adatokra
rátekintve mondhatjuk meg, hogy milyen
görbe jellemzi
2., Megmérjük az összefüggés szorosságát,
ezt a célt szolgálja a korrelációs
együttható
• Kovariancia (sxy): az együttes ingadozás
mértékszáma
• Korelációs együttható (r): a kovariancia
a szórások szorzatával osztva
• Pozitív hajlásszögű egyenes: b>0, a
korrelációs együttható (r) is pozitív lesz, ezt
pozitív korrelációnak nevezzük.
• Negatív hajlásszögű egyenes: a korrelációs
együttható is negatív, negatív korrelációról
beszélünk
• r=0 korrelálatlanságról beszélünk, ilyenkor
regressziós egyenes vízszintes (b=0) (ilyenkor
y átlagos értéke ugyanaz marad, akárhogyan is
változik x)
• A korrelációs együttható csak -1 és +1 közti
értékeket vehet fel
• A együttható abszolút értéke jellemzi a kapcsolat
szorosságát (mennél jobban tömörülnek a
pontok az egyenes körül annál nagyobb r
abszolút értéke)
• +1 vagy -1 értéket akkor és csak akkor éri el az
együttható, ha a pontok valamennyien rajta
fekszenek az egyenesen
• Két változó együttváltozása lehet, hogy csak egy
harmadik változó hatásának eredménye:
mindkettejük alakulását az szabályozza, maguk
a vizsgált változók azonban semmiféle
befolyással nincsenek egymásra
• Pl.: gyulladásos folyamat lázat és fvs szám
növekedést okoz. De sem a láztól a fvs, sem a
fvs növekedéstől a testhőmérséklet nem változik
• Még ha ok-okozati összefüggés áll is fenn
a két vizsgált változó között, pusztán
korrelációs együttható segítségével akkor
sem tudjuk eldönteni hogy melyik
befolyásolja a másikat
• Az ok megkeresése biológiai probléma
nem pedig biometriai
• A korreláció hiánya, a korrelálatlanság
(r=0) hasonlóképpen hibás
következtetésekre indíthat – mivel a
változók közötti kapcsolat hiánya miatt
könnyen értelmezhetjük úgy, hogy az
adatok függetlenek egymástól
• Pl.: az életkor függvényében vizsgált
összefüggések
• Erre a legjobban közelítő egyenes a
vízszintes lesz
• Erre az eredményt azonban a legjobban
nem az egyenes reprezentálja hanem egy
görbe.
• Nem minden görbevonalú kapcsolat esetén
ennyire félrevezető az r együttható segítségével
szerzett információ, de ajánlatos azzal mindig
óvatosan bánnunk
• A normális eloszlás fontos kivétel: elméletileg
igazolható, hogy ilyenkor vagy lineáris kapcsolat
van a változók között vagy semmilyen
• Normális eloszlás esetén tehát a
korrelálatlanság (lineáris kapcsolat hiánya) már
biztosítja a függetlenséget.
• Fordított irányú következtetés viszont
mindig helyes: a változók függetlensége
esetén a korrelációs együttható
mindenképp nulla
• Bizonyos esetekben az r becsaphat:
korrelációt találhatunk ott is ahol valójában
függetlenség van, máskor meg kétségkívül
fennálló lineáris kapcsolatot „nem veszi
észre” a mintából számított r együttható, a
mintaelemek speciális elhelyezkedése
miatt
• A körben elhelyezkedő végtelen sok érték
közül választunk ki néhányat – a
változóból a mintát -, és ezekből
határozzuk meg a korrelációs együtthatót.
Mivel a kiválasztott pontok véletlenül egy
egyenes mentén helyezkednek el, a
korrelációs együttható értéke közel lesz az
1-hez . Emiatt arra a következtetésre
jutunk, hogy a változók közt szoros
kapcsolat van.
• Más esetben a változók értékeit ábrázoló
pontokból a köztük lévő lineáris
összefüggés nyilvánvaló; a kiválasztott
pontok – ismét csak véletlenül – azonban
úgy helyezkednek el, hogy rajtuk
vízszintes egyenest fektethetünk át.
• Az így kapott r=0 alapján a változók
korrelálatlanságára (sőt gyakran
függetlenségére) következtethetünk
• A fenti ellentmondásokat az eddigi
módszerekkel már nem tudjuk feloldani.
• Statisztikai következtetés módszereinek
helyes alkalmazása megvéd az utóbbi
kettő tévedéstől.
Az eloszlások paramétereire
vonatkozó próbák
• U próba
• T (student) próba
• F próba
u-próba
• He egy ismert σ szórású (normális
eloszlású) alapsokaságból vett n
elemszámú minta átlagára vonatkozó
nullhipotézisünket akarjuk ellenőrizni
•
•
•
•
Átlagsúly 1.985 kg
A súlyok szórása 0.060kg
Szignifikancia szint 5% (μp=0.05)
Ehhez tartozó kritikus érték: 1.96
t-(student) próba
• T-próbával ellenőrizhetjük két ismeretlen
minta középértékeire vonatkozó
hipotézisünket, a két mintaátlag
különbségének szignifikanciáját.
• A két mintaátlag különbözősége
önmagában nem bizonyítja a két várható
érték eltérését, erre a t-próba ad
felvilágosítást
t-(student) próba
• A t-próba alkalmazásának előfeltétele,
hogy a két valószínűségi változó követi a
normális eloszlást, és szórása egyenlő
F-próba
• Mind az u-próbánál, mind a t-próbánál
feltéteteleztünk valamit a sokaság
szórásáról:
• Az u-próbánál azt, hogy ismert, t-próbánál
pedig azt, hogy az összehasonlított
sokaságok szórása azonos. A szórással
kapcsolatos ezen hipotéziseink
ellenőrzésére alkalmas az F-próba
F-próba
A nullhipotézis itt azt jelenti, hogy két
normális eloszlású ismeretlen várható
értékű sokaság szórása azonos (σ1=σ2)
A két sokaságból vett minta
szórásnégyzeteinek hányadosa Feloszlást követ
KÖSZÖNÖM
A
FIGYELMET!