Transcript PREDNÁŠKA

PREDNÁŠKA
RNDr. Ľudmila Grešová
Korelačná a regresná analýza
Rozoznávame 2 typy závislosti medzi premennými
1. funkčnú závislosť – poznáme konkrétny predpis y = f(x),
kde každej hodnote x odpovedá jedna
hodnota y
2. stochastickú (náhodnú) závislosť – každému x môže
odpovedať viac hodnôt y
Ak náhodné premenné sú nezávislé, potom k(X,Y) = 0 a teda
aj ρ(X,Y) = 0.
Ak
ρ(X,Y) = 0 → X,Y sú nekorelované
ρ(X,Y) ≠ 0 → X,Y sú korelované
Koeficient korelácie nás informuje o sile štatistickej závislosti
(hovoríme tomu aj tesnosť väzby) medzi X a Y.
Korelačná analýza – časť MŠ, ktorá sa zaoberá štúdiom miery
závislosti
Regresná analýza – študuje tvar (typ) závislosti náhodných
premenných
Koeficient korelácie je mierou lineárnej korelácie. Platí
1   ( X , Y )  1
Ak
0,3 ≤ ρ < 0,5
0,5 ≤ ρ < 0,7
0,7 ≤ ρ < 0,9
0,9 ≤ ρ
→
→
→
→
mierna tesnosť,
výrazná tesnosť,
vysoká tesnosť,
veľmi vysoká tesnosť.
V úlohách korelačného počtu budeme pre koeficient korelácie
používať vzorec
 xy 
n
n
n
i 1
i 1
i 1
n xi yi   xi  yi
 n 2  n 2   n 2  n 2 
 n xi    xi   .  n yi    yi  
 i 1    i 1
 i 1  
 i 1
Ak | ρ | = 1 → lineárna funkčná závislosť
Najjednoduchšou formou korelácie medzi dvoma
kvantitatívnymi znakmi je jednoduchá lineárna korelácia, ktorú
je možné popísať lineárnou regresnou priamkou.
Jej rovnica je
y  ax  b
– vyjadruje závislosť znaku y na x
x  ay  b
– vyjadruje regresiu x na y.
alebo
Konštanty a, b, a, b
nazývame koeficienty alebo parametre regresie.
Metóda najmenších štvorcov


Je daný štatistický súbor, ktorý má n dvojíc xi , yi ,
i = 1, 2,...,n.
Z rôznych možností, ktorými možno preložiť priamku cez
body v korelačnom diagrame je najvhodnejšia tá alternatíva, pri
ktorej sa súčet odchýlok empirických (skutočných) hodnôt od
teoretických bude rovnať nule, to znamená
 y   ( x )   0
i
i
i
Pre použitie vo všeobecnosti sa táto podmienka upravila
– súčet štvorcov odchýlok empirických hodnôt od
teoretických má byť minimálny
 y   ( x ) 
2
i
i

min.
i
V našom prípade, ak označíme
n
S   ( yi  axi  b)  min.
2
i 1
S
 2 ( yi  axi  b).( xi )  0
a
i
S
 2 ( yi  axi  b).(1)  0
b
i
Po úprave dostaneme sústavu normálnych rovníc a parametre
a, b vyriešime Cramerovym pravidlom.
a x  b xi   xi yi
2
i
a xi  b.n   yi
(1)
Podobne koeficienty a, b určíme minimalizovaním súčtu
štvorcov vodorovných vzdialenosti každého bodu xi , yi
od priamky x  ay  b .
V rovniciach (1) vymeníme xi za y i a naopak.
Dostaneme sústavu rovníc

2

a  yi  b yi   yi xi
a yi  b.n   xi
a nájdeme koeficienty
a, b.

Dá sa dokázať, že platí
( xy )  a.a.
2
Čím je tento súčin bližší k jednej, tým sú regresné priamky
bližšie k sebe a tým viac je oprávnený náš predpoklad o
lineárnej závislosti oboch premenných.
Príklad 1. U deväť náhodne vybraných otcov bola zistená ich
výška a výška ich dospelých synov. Údaje sú v tabuľke.
Určte a) odhady regresných koeficientov prvej a
druhej regresnej priamky;
b) korelačný koeficient.
xi
174 180
176
168
182
188
176
177
174
yi
177 182
176
173
180
191
179
181
176
Na zistenie spoľahlivosti hodnoty koeficientu korelácie sa
používa tzv. stredná chyba koeficientu korelácie
1 
 
n
2
kde n je počet dvojíc hodnôt znakov medzi ktorými meriame
závislosť.
Koeficient korelácie je spoľahlivou mierou tesnosti závislosti
vtedy, keď je väčší ako trojnásobok teoretickej strednej chyby,
teda
3.   
Príklad 2. U desiatich náhodne vybraných študentov
bola zistená ich výška a hmotnosť. Vypočítajte koeficient
korelácie medzi výškou a hmotnosťou týchto študentov.
Údaje sú uvedené v tabuľke
162 164 165 166 166 170 170 175 177 179
60
65
68
66
68
66
70
68
75
70