Korreláció- és regresszió

Download Report

Transcript Korreláció- és regresszió

Korrelációszámítás
1. hét
Két változó közötti kapcsolat

Független (az X ismérv szerinti hovatartozás ismerete
nem ad semmilyen többletinformációt az Y szerinti
hovatartozásról az Y szerinti feltétlen megoszláshoz
képest).

Sztochasztikus (egyik ismérv hatással van ugyan a
másikra, de nem határozza meg egyértelműen annak
értékeit/változatait).

Függvényszerű – determinisztikus (a vizsgált egységek
X szerinti hovatartozásának ismeretében teljes
egyértelműséggel megmondható azok Y szerinti
hovatartozása is).
A kapcsolat mérőszámai

Két nominális változó közötti kapcsolatot az
asszociációs mérőszámokkal jellemezzük .

Ordinális típusú változók összefüggését a
különböző rangkorrelációs mutatók mérik.

Arány skála típusú változók összefüggését
korreláció- és regresszió-analízissel mutathatjuk
ki.
Sztochasztikus kapcsolatok fajtái
 Asszociáció (mindkét ismérv minőségi/területi
ismérv, nominális skálán mérve).
 Vegyes (egyik ismérv mennyiségi, másik
területi/minőségi, intervallum/arány és nominális
skálán mérve.
 Korreláció (mindkét ismérv mennyiségi,
intervallum/arány skálán mérve).
 Rangkorreláció (mindkét változó sorrendi skálán
mérhető).
Alapfogalmak I.

A mennyiségi ismérvek közötti kapcsolatot
korrelációnak nevezzük.

A korrelációszámítás: a mennyiségi
ismérvek közötti kapcsolat szorosságának
mérése.

A regressziószámítás: a mennyiségi
ismérvek egymásra gyakorolt hatásának
számszerűsítésével, e hatások irányának és
mértékének megállapításával foglalkozik.
Alapfogalmak II.
Ha a korreláció mögött egyirányú okozati
összefüggés állapítható meg:
 az ok szerepét betöltő ismérvet tényezőváltozónak (X),
 az okozat szerepét játszó ismérvet pedig
eredményváltozónak (Y) nevezzük.
A korreláció fontosabb típusai
Korreláció hiánya
A korreláció hiánya
A regresszió-függvény bármely X helyen
azonos (illetve közel azonos) értéket vesz fel,
tehát a függvény képe vízszintes vonal lesz.
E jelenség magyarázata elsősorban az lehet,
hogy Y független X-től, más szóval X nem
befolyásolja Y értékét
A korreláció hiánya
y
x
Függvényszerű kapcsolat
A korreláció hiányának logikai ellentéte a tökéletes
függvényszerű kapcsolat.
Ebben az esetben egy adott X értékhez csupán
egyetlen Y érték tartozhat. Ilyenkor a pontdiagram
pontjai a regresszió-vonalhoz illeszkednek, azaz a
regresszió-vonal körül nincs szóródás.
Függvényszerű kapcsolat
y
x
Pozitív korreláció



A regresszió-görbe körül van szóródás.
A regresszió-görbe alakja a korreláció
tartalmát fejezi ki.
Ha nagyobb X értékekhez általában nagyobb
Y értékek tartoznak, vagyis a tényezőváltozó
növelése az eredményváltozó nagyságát
növeli.
Pozitív korreláció
Y = - 8 . 6 E -0 2 + 0 . 6 9 0 2 8 6 X
3
R -S q = 6 2 .5 %
2
1
0
-1
-2
-3
-3
-2
-1
0
1
2
P o z i t ív k o r r e l á c i ó
3
Negatív korreláció
Y
3
=
5 .0 7 E -0 2
R -S q =
- 0 .6 4 7 8 7 2 X
7 0 .9
%
2
1
0
-1
-2
-3
-3
-2
-1
0
1
N e g a t ív k o r r e l á c i ó
2
3
Görbevonalú kapcsolat
A lineáristól eltérő típust görbevonalú
(nemlineáris) kapcsolatnak nevezzük.
A nemlineáris kapcsolatok egy részénél
továbbra is van értelme pozitív, vagy negatív
irányzatról beszélni, feltéve, hogy a görbe
monoton növekvő, illetve csökkenő irányzatot
mutat az értelmezési tartományon belül.
Nem lehet azonban pozitív vagy negatív
irányról beszélni, ha a regresszió irányt
változtat.
Görbevonalú kapcsolat
y
x
A kapcsolat szorosságának
mérőszámai
Sztochasztikus kapcsolat


A sztochasztikus kapcsolat az összefüggés hiánya és a funkcionális
kapcsolat között helyezkedik el.
Nem lehet közömbös, hogy a vizsgált kapcsolat milyen
következetességgel érvényesül, azaz melyik szélsőséges esethez áll
közelebb:


Laza, a függetlenséghez közel álló kapcsolat esetén pl. helytelen lenne a
kapcsolatra alapozva gazdasági döntéseket hozni. Az eredményeket
ilyenkor fenntartással fogadjuk és kellő óvatossággal kezeljük.
Funkcionális jellegű korrelációra viszont bátran építhetünk, tehát X
változása vagy változtatása esetén Y változása a regresszió által kijelölt
törvényszerűség szerint fog bekövetkezni.
A gazdasági döntések megalapozásához mindenképp szükségünk van a
kapcsolat szorosságának mérésére, azaz a korrelációszámításra.
Kovariancia




Az X és Y mennyiségi változók közötti kapcsolat irányát
mutatja meg.
A megfelelő átlagtól vett (x - x ) és (y - y) eltéréseken alapszik.
Az azonos előjelű eltérések szorzata pozitív, az eltérő előjelűeké
pedig negatív, a szorzat előjele megadja a kapcsolat irányát.
Ha az eltérésszorzatokat összegezzük vagy átlagoljuk, akkor az
összeg vagy átlag előjele megmutatja, hogy a sokaság egészében
a pozitív vagy a negatív kapcsolatra jellemző értékpárok
dominálnak-e
d x d y
xy
C=
=
- xy
n -1
n -1
C  r  sx  sy
Kovariancia tulajdonságai

A kovariancia nulla, ha a pozitív és a negatív
előjelű eltérésszorzatok összege kiegyenlíti
egymást.
 Kovariancia előjele a kapcsolat irányát
mutatja.
 A kovariancia abszolút mértékének nincs
határozott felső korlátja.
 A kovariancia a két változóban szimmetrikus,
X és Y szerepe a formulában felcserélhető.
Egy vállalat dolgozóinak keresete és havi megtakarítása
Bér
(Ft/fő)
Havi
megtakarítás
(Ft/hó)
dx
dy
dxdy
dx2
dy2
1
120000
13000
-13000
-3010
39130000
169000000
9060100
2
90000
10000
-43000
-6010
258430000
1849000000
36120100
3
220000
35000
87000
18990
1652130000
7569000000
360620100
4
150000
18000
17000
1990
33830000
289000000
3960100
5
100000
12000
-33000
-4010
132330000
1089000000
16080100
6
115000
12500
-18000
-3510
63180000
324000000
12320100
7
160000
20000
27000
3990
107730000
729000000
15920100
8
130000
13800
-3000
-2210
6630000
9000000
4884100
9
145000
14000
12000
-2010
-24120000
144000000
4040100
10
100000
11800
-33000
-4210
138930000
1089000000
17724100
Összesen
1330000
160100
0
0
2408200000
13260000000
480729000
Dolgozó
Kovariancia
d x d y
xy
2408200000
C=
=
- xy 
 267577777,
8
n -1
n -1
9
Értelmezés: a dolgozók keresete és a havi
megtakarított összege közötti kapcsolat
pozitív irányú.
A korrelációs együttható




A korrelációs együttható a lineáris korreláció
szorosságának legfontosabb mérőszáma.
A kapcsolat hiányát (korrelálatlanság) az r = 0 érték
jelzi.
Az r előjele a korreláció irányát mutatja. Tökéletes
(függvényszerű) lineáris kapcsolatnak - az iránytól
függően - az r = +1, illetve r = -1 értékek felelnek
meg.
A szélsőséges helyzetek között az együttható
abszolút értéke a kapcsolat szorosságáról tájékoztat.
Korrelációs együttható
C
r=

sx  sy
 d xd y
2
2
d
d
x
y
 

 xy - n  x  y
(  x 2  n  x 2 )(  y 2  n  y 2 )
d x  d y = xy - n x y
d 2x = x 2  n x 2  s x 
d 2y = y 2  n y 2  s y 
2
d
 x
n 1
2
d
 y
n 1
Korrelációs együttható
dx
dy
dxdy
d x2
dy2
Bér (Ft/fő)
Havi
megtakarítás
(Ft/hó)
1330000
160100
0
0
2408200000
13260000000
480729000
Dolgozó
Összesen
C
r=

sx  s y
d d
d d
x
y
2
x
2
y

2408200000
 0,954
1326000000
0  480729000
Értelmezés: a dolgozók keresete és a havi
megtakarított összege közötti kapcsolat
pozitív irányú és erős.
Determinációs együttható

A determinációs együttható megmutatja,
hogy a magyarázóváltozó hány %-ban
befolyásolja az eredményváltozó szóródását.
 Jele: r2
 A determinációs együttható jellemzi:
A
regressziós függvény illeszkedését,
 A modell magyarázó erejét.
Determinációs együttható
r 2  0,9542  0,9098 90,98%
Értelmezés: a dolgozók keresete 90,98%ban befolyásolja a havi megtakarított összeg
szóródását.
A rangkorreláció
Létezhetnek a statisztikai sokaság egységeinek olyan
kvantitatív jellegű tulajdonságai, amelyek számszerűen
egyáltalán nem, vagy csak nehezen mérhetők.
A mutatószám értéke r-hez hasonlóan természetesen -1
és 1 között helyezkedik el. Ha a kétféle rangsorszám
rendre megegyezik, akkor  = 1, ha a sorszámok a két
ismérv szerint következetesen ellentétesen alakulnak,
akkor  = -1.
6 d i
 = 12
n(n  1)
2
Rangkorreláció
Egy régió vállalatainak gazdálkodására vonatkozó adatok
Régió
1
2
3
4
5
6
7
8
9
10
Árbevétel (MFt)
34
30
25
22
21
10
12
8
31
20
Nyereség (MFt)
16
10,5
10
12
7
4
2
1
9
11
x
10
8
7
6
5
2
3
1
9
4
y
10
7
6
9
4
3
2
1
5
8
d
0
1
-1
-3
1
-1
1
0
4
-4
d2
0
1
1
9
1
1
1
0
16
16
 = 1-
6 d i2
n(n 2  1)
 1
6  46
 0,721
10 10 2  1


Értelmezés: a vállalatok árbevétele és nyeresége
között közepesnél szorosabb, pozitív irányú kapcsolat
van.
A korrelációs hányados

A görbevonalú kapcsolatok szorosságának
mérőszáma.
 A mutatószám kialakításának
gondolatmenete: csoportosítjuk a megfigyelt
értékeket a tényezőváltozó értékei vagy
osztályközei szerint, és kiszámítjuk az
eredményváltozó részátlagait az egyes
csoportokban.

2
y/ x

 2K(y)

2
(y)

S K (y)
S (y)
1
 2B (y)

2
( y)
1
S B (y)
S (y)
A korrelációs hányados

A korrelációs hányados négyzetét definiáltuk, mivel
az csupán a kapcsolat intenzitását jelzi, irányát nem.
 Megoszlási viszonyszám jellegénél fogva a
korrelációs hányados négyzete mindig nulla és egy
közé esik.
 Előjelét nem értelmezzük, megállapodásszerűen
pozitív számként kezeljük.
 A korrelációs hányadost nem szokták százalékos
formában kifejezni.
 Általában y/x  x/y tehát nem szimmetrikus az X és
Y változókban.
 X csupán mint csoportképző ismérv szerepel .
Köszönöm a figyelmet