Korreláció- és regresszió

Download Report

Transcript Korreláció- és regresszió

Korrelációs kapcsolatok
elemzése
1. előadás
Két változó közötti kapcsolat

Független: Az X ismérv szerinti hovatartozás
ismerete nem ad semmilyen többletinformációt
az Y szerinti hovatartozásról.

Sztochasztikus: Az egyik ismérv hatással van a
másikra, de nem határozza meg egyértelműen
annak értékeit/változatait.

Függvényszerű (determinisztikus): A vizsgált
egységek X szerinti hovatartozásának
ismeretében egyértelműen megmondható azok Y
szerinti hovatartozása is.
A kapcsolat mérőszámai

Két nominális változó közötti kapcsolatot az
asszociációs mérőszámokkal jellemezzük .

Ordinális típusú változók összefüggését a
rangkorrelációs mutatók mérik.

Arány skála típusú változók összefüggését
korreláció- és regresszió-analízissel elemezzük.
Intervallum/arány és nominális skálán mért
változók közötti összefüggést H;

Sztochasztikus kapcsolatok fajtái
 Asszociáció (mindkét ismérv minőségi/területi
ismérv, nominális skálán mérve).
 Vegyes (egyik ismérv mennyiségi, másik
területi/minőségi, intervallum/arány és nominális
skálán mérve.
 Korreláció (mindkét ismérv mennyiségi,
intervallum/arány skálán mérve).
 Rangkorreláció (mindkét változó sorrendi skálán
mérhető).
Korrelációs kapcsolat elemzése
 Van-e összefüggés az ismérvek között?
 Milyen irányú az összefüggés?
 Mennyire szoros a kapcsolat?
 Az egyik ismérv változása milyen
hatással van a másik ismérv
változására?
Alapfogalmak I.

A mennyiségi ismérvek közötti kapcsolatot
korrelációnak nevezzük.

A korrelációszámítás: a mennyiségi
ismérvek közötti kapcsolat szorosságának
mérése.

A regressziószámítás: a mennyiségi
ismérvek egymásra gyakorolt hatásának
számszerűsítésével, e hatások irányának és
mértékének megállapításával foglalkozik.
Alapfogalmak II.
Ha a korreláció mögött egyirányú okozati
összefüggés állapítható meg:
az
ok szerepét betöltő ismérvet tényezőváltozónak, eredményváltozónak (X),
az
okozat szerepét játszó ismérvet pedig
eredményváltozónak (Y) nevezzük.
A korreláció fontosabb típusai
Korreláció hiánya
A regresszió-függvény bármely X
helyen azonos (közel azonos) értéket
vesz fel.
A függvény képe vízszintes vonal.
( Y független X-től, X nem befolyásolja
Y értékét.)
A korreláció hiánya
Y
=
-7 .4 E -0 2 +
R -S q =
3
3 .4
0 .2 0 8 3 4 8 X
%
2
1
0
-1
-2
-3
-2
-1
0
1
N i n c s k o r r e lá c i ó
2
Függvényszerű kapcsolat
A korreláció hiányának logikai ellentéte a
függvényszerű kapcsolat.
Egy adott X értékhez csupán egyetlen Y érték
tartozhat. Ilyenkor a pontdiagram pontjai a
regresszió-vonalhoz illeszkednek, azaz a regresszióvonal körül nincs szóródás.
Pozitív korreláció
Általában a regressziógörbe körül van
szóródás. A regressziógörbe alakja a
korreláció tartalmát fejezi ki. Ha nagyobb X
értékekhez általában nagyobb Y értékek
tartoznak, vagyis a tényezőváltozó növelése
az eredményváltozó nagyságát növeli.
Pozitív korreláció
Y = - 8 . 6 E -0 2 + 0 . 6 9 0 2 8 6 X
3
R -S q = 6 2 .5 %
2
1
0
-1
-2
-3
-3
-2
-1
0
1
2
P o z i t ív k o r r e l á c i ó
3
Negatív korreláció
Az előbbi kapcsolat ellentéte természetesen
a negatív korreláció, amelyet a
regressziófüggvény ugyancsak
szemléletesen jelez.
Negatív korreláció
Y
3
=
5 .0 7 E -0 2
R -S q =
- 0 .6 4 7 8 7 2 X
7 0 .9
%
2
1
0
-1
-2
-3
-3
-2
-1
0
1
N e g a t ív k o r r e l á c i ó
2
3
Görbevonalú kapcsolat
A lineáristól eltérő típust görbevonalú
(nemlineáris) kapcsolatnak nevezzük.
A nemlineáris kapcsolatok egy részénél
továbbra is van értelme pozitív, vagy negatív
irányzatról beszélni, feltéve, hogy a görbe
monoton növekvő, illetve csökkenő irányzatot
mutat az értelmezési tartományon belül.
Nem lehet azonban pozitív vagy negatív
irányról beszélni, ha a regresszió irányt
változtat.
Görbevonalú kapcsolat
Y
=
1 2 .0 9 5 8
+
6 .0 7 6 8 4 X +
R -S q
4 0
=
8 8 .4
1 .1 6 6 8 6 X**2
%
3 0
2 0
1 0
0
-3
-2
-1
N e m
0
1
l i n e á r i s k o r r e lá c i ó
2
3
A kapcsolat szorosságának
mérőszámai
A kovariancia
Az X és Y mennyiségi változók közötti
kapcsolat irányát mutatja meg.
A megfelelő átlagtól vett (x - x ) és (y - y )
eltéréseken alapszik.
C=
d xd y
n -1
=
 xy
n -1
C  r  sx  sy
-xy
Kovariancia tulajdonságai

A kovariancia nulla, ha a pozitív és a negatív
előjelű eltérésszorzatok összege kiegyenlíti
egymást.
 Kovariancia előjele a kapcsolat irányát
mutatja.
 A kovariancia abszolút mértékének nincs
határozott felső korlátja.
 A kovariancia a két változóban szimmetrikus,
X és Y szerepe a formulában felcserélhető.
Egy vállalat dolgozóinak keresete és havi megtakarítása
Bér
(Ft/fő)
Havi
megtakarítás
(Ft/hó)
dx
dy
dxdy
dx2
dy2
1
120000
13000
-13000
-3010
39130000
169000000
9060100
2
90000
10000
-43000
-6010
258430000
1849000000
36120100
3
220000
35000
87000
18990
1652130000
7569000000
360620100
4
150000
18000
17000
1990
33830000
289000000
3960100
5
100000
12000
-33000
-4010
132330000
1089000000
16080100
6
115000
12500
-18000
-3510
63180000
324000000
12320100
7
160000
20000
27000
3990
107730000
729000000
15920100
8
130000
13800
-3000
-2210
6630000
9000000
4884100
9
145000
14000
12000
-2010
-24120000
144000000
4040100
10
100000
11800
-33000
-4210
138930000
1089000000
17724100
Összesen
1330000
160100
0
0
2408200000
13260000000
480729000
Dolgozó
Kovariancia
C=
d xd y
n -1
=
 xy
n -1
-xy 
2408200000
 267577777, 8
9
Értelmezés: a dolgozók keresete és a havi
megtakarított összege közötti kapcsolat
pozitív irányú.
A korrelációs együttható




A korrelációs együttható a lineáris korreláció
szorosságának legfontosabb mérőszáma.
A kapcsolat hiányát (korrelálatlanság) az r = 0 érték
jelzi.
Az r előjele a korreláció irányát mutatja. Tökéletes
(függvényszerű) lineáris kapcsolatnak - az iránytól
függően - az r = +1, illetve r = -1 értékek felelnek
meg.
A szélsőséges helyzetek között az együttható
abszolút értéke a kapcsolat szorosságáról tájékoztat.
Korrelációs együttható
r =
C

sx  sy
 d xd y

dx
2


dy
2
d x  d y = xy - n x y
d x = x
2
 nx
d y = y
2
 n y
2
2
2
2
 xy - n  x  y
( x
2
 n  x )( y
2
2
2
ny )
Korrelációs együttható
dx
dy
dxdy
d x2
dy2
Bér (Ft/fő)
Havi
megtakarítás
(Ft/hó)
1330000
160100
0
0
2408200000
13260000000
480729000
Dolgozó
Összesen
r=
C
sx  sy

d d
d d
x

y
2
x
2
y
2408200000
1326000000 0  480729000
 0,954
Értelmezés: a dolgozók keresete és a havi
megtakarított összege közötti kapcsolat
pozitív irányú és erős.
Determinációs együttható

A determinációs együttható megmutatja,
hogy a magyarázóváltozó hány %-ban
befolyásolja az eredményváltozó szóródását.
 Jele: r2
 A determinációs együttható jellemzi:
A
regressziós függvény illeszkedését,
 A modell magyarázó erejét.
Determinációs együttható
r  0,954
2
2
 0 ,9098  90 ,98 %
Értelmezés: a dolgozók keresete 90,98%ban befolyásolja a havi megtakarított összeg
szóródását.
A rangkorreláció
Létezhetnek a statisztikai sokaság egységeinek olyan
kvantitatív jellegű tulajdonságai, amelyek számszerűen
egyáltalán nem, vagy csak nehezen mérhetők.
A mutatószám értéke r-hez hasonlóan természetesen -1
és 1 között helyezkedik el. Ha a kétféle rangsorszám
rendre megegyezik, akkor  = 1, ha a sorszámok a két
ismérv szerint következetesen ellentétesen alakulnak,
akkor  = -1.
6 d i
2
 = 1-
n(n
2
 1)
Rangkorreláció
Egy régió vállalatainak gazdálkodására vonatkozó adatok
Régió
1
2
3
4
5
6
7
8
9
10
Árbevétel (MFt)
34
30
25
22
21
10
12
8
31
20
Nyereség (MFt)
16
10,5
10
12
7
4
2
1
9
11
x
10
8
7
6
5
2
3
1
9
4
y
10
7
6
9
4
3
2
1
5
8
d
0
1
-1
-3
1
-1
1
0
4
-4
d2
0
1
1
9
1
1
1
0
16
15
6 d i
2
 = 1-
n(n
2
 1)
 1
6  45
10 10  1 
2
 0 , 7273
Értelmezés: a vállalatok árbevétele és nyeresége
között közepesnél szorosabb, pozitív irányú kapcsolat
van.
A korrelációs hányados

A görbevonalú kapcsolatok szorosságának
mérőszáma.
 A mutatószám kialakításának
gondolatmenete: csoportosítjuk a megfigyelt
értékeket a tényezőváltozó értékei vagy
osztályközei szerint, és kiszámítjuk az
eredményváltozó részátlagait az egyes
csoportokban.

2
y/ x



2
K (y)
2
(y)

S K (y)
S (y)
1


2
B (y)
2
( y)
1
S B (y)
S (y)
A korrelációs hányados

A korrelációs hányados négyzetét definiáltuk, mivel
az csupán a kapcsolat intenzitását jelzi, irányát nem.
 Megoszlási viszonyszám jellegénél fogva a
korrelációs hányados négyzete mindig nulla és egy
közé esik.
 Előjelét nem értelmezzük, megállapodásszerűen
pozitív számként kezeljük.
 A korrelációs hányadost nem szokták százalékos
formában kifejezni.
 Általában y/x  x/y tehát nem szimmetrikus az X és
Y változókban.
 X csupán mint csoportképző ismérv szerepel .
Köszönöm a figyelmet