Transcript PREDNÁŠKA
PREDNÁŠKA RNDr. Ľudmila Grešová Korelačná a regresná analýza Rozoznávame 2 typy závislosti medzi premennými 1. funkčnú závislosť – poznáme konkrétny predpis y = f(x), kde každej hodnote x odpovedá jedna hodnota y 2. stochastickú (náhodnú) závislosť – každému x môže odpovedať viac hodnôt y Ak náhodné premenné sú nezávislé, potom k(X,Y) = 0 a teda aj ρ(X,Y) = 0. Ak ρ(X,Y) = 0 → X,Y sú nekorelované ρ(X,Y) ≠ 0 → X,Y sú korelované Koeficient korelácie nás informuje o sile štatistickej závislosti (hovoríme tomu aj tesnosť väzby) medzi X a Y. Korelačná analýza – časť MŠ, ktorá sa zaoberá štúdiom miery závislosti Regresná analýza – študuje tvar (typ) závislosti náhodných premenných Koeficient korelácie je mierou lineárnej korelácie. Platí 1 ( X , Y ) 1 Ak 0,3 ≤ ρ < 0,5 0,5 ≤ ρ < 0,7 0,7 ≤ ρ < 0,9 0,9 ≤ ρ → → → → mierna tesnosť, výrazná tesnosť, vysoká tesnosť, veľmi vysoká tesnosť. V úlohách korelačného počtu budeme pre koeficient korelácie používať vzorec xy n n n i 1 i 1 i 1 n xi yi xi yi n 2 n 2 n 2 n 2 n xi xi . n yi yi i 1 i 1 i 1 i 1 Ak | ρ | = 1 → lineárna funkčná závislosť Najjednoduchšou formou korelácie medzi dvoma kvantitatívnymi znakmi je jednoduchá lineárna korelácia, ktorú je možné popísať lineárnou regresnou priamkou. Jej rovnica je y ax b – vyjadruje závislosť znaku y na x x ay b – vyjadruje regresiu x na y. alebo Konštanty a, b, a, b nazývame koeficienty alebo parametre regresie. Metóda najmenších štvorcov Je daný štatistický súbor, ktorý má n dvojíc xi , yi , i = 1, 2,...,n. Z rôznych možností, ktorými možno preložiť priamku cez body v korelačnom diagrame je najvhodnejšia tá alternatíva, pri ktorej sa súčet odchýlok empirických (skutočných) hodnôt od teoretických bude rovnať nule, to znamená y ( x ) 0 i i i Pre použitie vo všeobecnosti sa táto podmienka upravila – súčet štvorcov odchýlok empirických hodnôt od teoretických má byť minimálny y ( x ) 2 i i min. i V našom prípade, ak označíme n S ( yi axi b) min. 2 i 1 S 2 ( yi axi b).( xi ) 0 a i S 2 ( yi axi b).(1) 0 b i Po úprave dostaneme sústavu normálnych rovníc a parametre a, b vyriešime Cramerovym pravidlom. a x b xi xi yi 2 i a xi b.n yi (1) Podobne koeficienty a, b určíme minimalizovaním súčtu štvorcov vodorovných vzdialenosti každého bodu xi , yi od priamky x ay b . V rovniciach (1) vymeníme xi za y i a naopak. Dostaneme sústavu rovníc 2 a yi b yi yi xi a yi b.n xi a nájdeme koeficienty a, b. Dá sa dokázať, že platí ( xy ) a.a. 2 Čím je tento súčin bližší k jednej, tým sú regresné priamky bližšie k sebe a tým viac je oprávnený náš predpoklad o lineárnej závislosti oboch premenných. Príklad 1. U deväť náhodne vybraných otcov bola zistená ich výška a výška ich dospelých synov. Údaje sú v tabuľke. Určte a) odhady regresných koeficientov prvej a druhej regresnej priamky; b) korelačný koeficient. xi 174 180 176 168 182 188 176 177 174 yi 177 182 176 173 180 191 179 181 176 Na zistenie spoľahlivosti hodnoty koeficientu korelácie sa používa tzv. stredná chyba koeficientu korelácie 1 n 2 kde n je počet dvojíc hodnôt znakov medzi ktorými meriame závislosť. Koeficient korelácie je spoľahlivou mierou tesnosti závislosti vtedy, keď je väčší ako trojnásobok teoretickej strednej chyby, teda 3. Príklad 2. U desiatich náhodne vybraných študentov bola zistená ich výška a hmotnosť. Vypočítajte koeficient korelácie medzi výškou a hmotnosťou týchto študentov. Údaje sú uvedené v tabuľke 162 164 165 166 166 170 170 175 177 179 60 65 68 66 68 66 70 68 75 70