Analiza regresji liniowej

Download Report

Transcript Analiza regresji liniowej

KORELACJE
I
REGRESJA LINIOWA
Korelacje i regresja liniowa
Analiza korelacji:
Badanie, czy pomiędzy dwoma zmiennymi istnieje
zależność
Obie analizy się
wzajemnie przeplatają
Analiza regresji:
Opisanie modelem matematycznym zależności
pomiędzy dwoma zmiennymi
Korelacje i regresja liniowa
Badamy [%] wyciek soków tkankowych z tkanki mięśniowej ryb
w czasie chłodniczego przechowywania przez 2, 4, 6, 8 i 10 dni.
Chcemy określić wpływ długości przechowywania na wielkość
wycieku.
X
Zmienna
niezależna
Y
Zmienna
zależna
Czas
2
4
6
8
10
Wyciek
1,7
2,2
3,2
3,6
4,5
n=5
L-ba par
zmiennych X i Y
Analiza korelacji
Analiza korelacji
Metoda
graficzna
Współczynnik
korelacji rang
Spearmana
Kowariancja
Współczynnik
korelacji
liniowej
Pearsona
Analiza korelacji
Analiza korelacji
Metoda
graficzna
Współczynnik
korelacji rang
Spearmana
Kowariancja
Współczynnik
korelacji
liniowej
Pearsona
Analiza korelacji
Metoda graficzna
Do wykrycia zależności (korelacji) służą wykresy rozrzutu
Wyniki układają
się wzdłuż linii
Jest zależność!
Wyniki układają się w
rozmytą chmurę punktów
Brak zależności!
Analiza korelacji
Metoda graficzna
Do wykrycia zależności (korelacji) służą wykresy rozrzutu
Zależność
wprosproporcjonalna
Zależność odwrotnie
proporcjonalna
Analiza korelacji
Analiza korelacji
Metoda
graficzna
Współczynnik
korelacji rang
Spearmana
Kowariancja
Współczynnik
korelacji
liniowej
Pearsona
Analiza korelacji
Kowariancja
Liczbowa miara zależności dwóch zmiennych X i Y
1
𝑐𝑜𝑣 𝑋, 𝑌 =
𝑛
𝑛
𝑥𝑖 − 𝑥
2
𝑦𝑖 − 𝑦
2
𝑖=1
Zmienne X i Y są niezależne jeśli cov(X,Y)=0
Analiza korelacji
Kowariancja
Cov(X,Y) > 0
zależność wprostproporcjonalna
(ze wzrostem x rośnie y)
Cov(X,Y) < 0
zależność odwrotnie proporcjonalna
(ze wzrostem x maleje y)
Możemy ocenić kierunek zależności,
ale nie możemy ocenić jej siły!
Analiza korelacji
Analiza korelacji
Metoda
graficzna
Współczynnik
korelacji rang
Spearmana
Kowariancja
Współczynnik
korelacji
liniowej
Pearsona
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
• Między zmiennymi X i Y istnieje zależność liniowa, jeżeli
najlepszym przybliżeniem obserwowanego związku jest linia
prosta
• obliczając r Pearsona mierzymy, jak blisko linii prostej
najlepiej opisującej ich związek liniowy leżą punkty
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Dla próby:
𝑟=
𝑛
𝑖=1
𝑛
𝑖=1
𝑥𝑖 − 𝑥 ∗ 𝑦𝑖 − 𝑦
𝑥𝑖 − 𝑥
2
∗
𝑛
𝑖=1
𝑦𝑖 − 𝑦
2
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Właściwości:
• r przyjmuje wartości z przedziału od -1 do +1
• Znak r wskazuje, czy zależność jest
wprostproporcjonalna (dodatni r) czy odwrotnie
proporcjonalna (ujemny r)
• Wielkość r wskazuje, jak blisko linii prostej
znajdują się punkty
• X i Y można zamieniać miejscami bez wpływu na
wartość r
• Korelacja między X i Y niekoniecznie oznacza
związek przyczynowy
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
r=1
r = -1
Idealna zależność liniowa
wprostproporcjonalna
Idealna zależność liniowa
odwrotnie proporcjonalna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
r = 0,90
Silna zależność liniowa
wprostproporcjonalna
r = -0,90
Silna zależność liniowa
odwrotnie proporcjonalna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
r=0
Brak zależności
r = -0,5
Umiarkowana zależność
liniowa odwrotnie
proporcjonalna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Na podstawie wartości r oceniamy siłę zależności:
 |r| = 0 zmienne nieskorelowane
 0 < |r|  0,3 korelacja niska
 0,3 < |r|  0,5 korelacja przeciętna (średnia)
 0,5 < |r|  0,7 korelacja wysoka
 0,7 < |r|  0,9 korelacja bardzo wysoka
 0,9 < |r| < 1 korelacja prawie pełna
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Aby ocenić korelację pomiędzy zmiennymi należy
znać:
 poziom istotności p współczynnika r (określa,
czy korelacje jest/nie jest statystycznie istotna)
 wartość r (siła korelacji)
 znak +/- przy r (zależność wprost/odwrotnie
proporcjonalna)
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Jak ocenić czy r jest istotny?
Hipoteza zerowa:
H0: |r|=0
Hipoteza alternatywna:
H1: |r|0
p  0.05 - przyjmujemy hipotezę H0
p<0.05 - przyjmujemy hipotezę H1
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Stosujemy gdy:
 zmienne mają rozkład normalny
ORAZ
zależność ma charakter liniowy
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Kiedy nie należy obliczać r:
 istnieje nieliniowy związek między dwoma
zmiennymi (np. związek kwadratowy
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Kiedy nie należy obliczać r:
 występuje jedna lub więcej wartości
odstających
Analiza korelacji
Współczynnik korelacji liniowej Pearsona
Kiedy nie należy obliczać r:
 dane zawierają podgrupy, dla których średnie
poziomy wartości dla co najmniej jednej zmiennej
są różne
Analiza korelacji
Analiza korelacji
Metoda
graficzna
Współczynnik
korelacji rang
Spearmana
Kowariancja
Współczynnik
korelacji
liniowej
Pearsona
Analiza korelacji
Współczynnik korelacji rang Spearmana
Alternatywa dla współczynnika korelacji liniowej
Pearsona.
Nadaje się również do analizy zależności
nieliniowych.
Stosujemy, gdy:
 zmienne nie mają rozkładu normalnego
ORAZ/LUB
 zależność ma charakter nieliniowy
Analiza korelacji
Współczynnik korelacji rang Spearmana
Uporządkowanym od najmniejszej do największej
wartości zmiennym nadaje się rangi i wylicza R
Spearmana:
6 𝑛𝑖=1 𝐷 2
𝑅 =1−
𝑛(𝑛2 − 1)
n – ilość pomiarów
D - różnica rang
Przyjmuje wartości od -1 do +1
interpretacja taka jaka dla r Pearsona
Analiza korelacji
Współczynnik korelacji rang Spearmana
Jak ocenić czy R jest istotny?
Hipoteza zerowa:
H0: |R|=0
Hipoteza alternatywna:
H1: |R|0
p  0.05 - przyjmujemy hipotezę H0
p<0.05 - przyjmujemy hipotezę H1
Analiza regresji liniowej
Analiza regresji liniowej
Regresja liniowa jest rozszerzeniem korelacji
liniowej i pozwala na:
 graficzną prezentację linii prostej dopasowanej
do wykresu rozrzutu
 określenie równania opisujące zależność dwóch
zmiennych w postaci y = a + b* x
zmienna
zależna
wyraz
wolny
współczynnik
kierunkowy
prostej
zmienna
niezależna
Wynik testu
Analiza regresji liniowej
Iloraz inteligencji
Analiza regresji liniowej
Wynik testu
y = a + b* x
Iloraz inteligencji
Analiza regresji liniowej
W jaki sposób wyznaczana jest linia regresji
liniowej?
przez minimalizację sumy kwadratów odchyleń
punktów doświadczalnych od linii regresji
tzw. metoda najmniejszych kwadratów
2
(𝑦𝑖 − 𝑦𝑖 𝑜𝑏𝑙 ) = 𝑚𝑖𝑛
yi – wartości doświadczalne
yi obl – wartości obliczone z równania regresji
Analiza regresji liniowej
Analiza regresji liniowej
W jaki sposób wyznaczana jest linia regresji
liniowej y=a+b*x ?
Sprowadza się to do obliczenia
współczynników a i b
𝑏=
𝑎=
𝑛
𝑥𝑖 ∙ 𝑦𝑖 −
𝑛 𝑥𝑖2 −
𝑦𝑖 − 𝑏 ∙
𝑛
𝑥𝑖
𝑥𝑖 ∙ 𝑦𝑖
𝑥𝑖 2
=𝑦−𝑏∙𝑥
Analiza regresji liniowej
Sprawdzamy, czy a i b istotnie różnią się od 0:
Hipoteza zerowa:
H0: a=0
H0: b=0
Hipoteza alternatywna: H1: a0
H1: b0
𝑎−0
𝑎
𝑡𝑎 =
=
𝜎𝑎
𝜎𝑎
𝑏−0
𝑏
𝑡𝑏 =
=
𝜎𝑏
𝜎𝑏
tkr(, f=n-2)
ta (tb) <tkr - przyjmujemy hipotezę H0 (współczynnik
będzie na czarno w Statistica)
ta (tb) >tkr - przyjmujemy hipotezę H1 (współczynnik będzie
na czerwono w Statistica
Analiza regresji liniowej
y = a+ b*x
Współczynniki a i b muszą istotnie różnić się od 0
aby były uwzględnione w równaniu.
Jeśli b=0 – wartości y są stałe (równe a)
Jeśli a=0 – równanie upraszcza się do y=b*x
Analiza regresji liniowej
Do czego służy wyznaczone równanie?
1) Na podstawie znanych x obliczamy y
2) Na podstawie znanych y obliczamy x
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Współczynnik determinacji
Współczynnik indeterminacji
Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Współczynnik determinacji
Współczynnik indeterminacji
Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Korelacja między wartościami zmiennej na osi Y
doświadczalnymi a obliczonymi z równania
Im r bliższy 1 tym lepsza jakość modelu
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Współczynnik determinacji
Współczynnik indeterminacji
Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik determinacji
r2 – współczynnik korelacji liniowej Pearsona
podniesiony do kwadratu
Podawany w postaci:
- ułamkowej [0,1]
- procentowej 0-100%
Im bliższy 1 tym lepsza jakość modelu
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Współczynnik determinacji
Współczynnik indeterminacji
Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik indeterminacji
2 = 1- r2 – tzw. współczynnik rozbieżności
Podawany w postaci:
- ułamkowej [0,1]
- procentowej 0-100%
Im bliższy 0 tym lepsza jakość modelu
Analiza regresji liniowej
Ocena dobroci dopasowania
Współczynnik korelacji liniowej Pearsona
Współczynnik determinacji
Współczynnik indeterminacji
Analiza reszt
Analiza regresji liniowej
Ocena dobroci dopasowania
Analiza reszt ei
ei = yi – yi obl
Reszty powinny spełniać rozkład normalny, mieć
charakter losowy i nie wykazywać autokorelacji
• Normalność reszt – badamy testem chi-kwadrat lub
testem Kołmogorowa-Smirnowa
• Losowość reszt oceniamy na wykresie
Analiza regresji liniowej
reszty
Reszty losowo znajdują się powyżej
i poniżej 0
Analiza regresji liniowej
Ocena dobroci dopasowania
Analiza reszt ei
Autokorelacja – korelacja serii pierwotnej reszt z
serią przesuniętą
ei
e(i-1)
2,89
-4,958
4,466
-3,39
2,458
1,2084
0,898
-3,55
2,89
-4,958
4,466
-3,39
2,458
1,2084
0,898
-3,55
Jeśli przesunięcie jest o 1 miejsceautokorelacja 1-go rzędu
𝑎𝑢𝑡𝑜𝑘𝑜𝑟. =
𝑒𝑖 ∙ 𝑒𝑖−1
𝑒𝑖2 ∙
𝑒𝑖−1
2
Analiza regresji liniowej
Sprowadzanie innych funkcji do f. liniowej
Funkcja potęgowa
y=axb
y1 = a 1 + b  x1
ln(y)
ln(y)=ln(a)+bln(x)
ln(x)
Analiza regresji liniowej
Sprowadzanie innych funkcji do f. liniowej
Funkcja wykładnicza
y=aebx
y1 = a 1 + b  x
ln(y)
ln(y)=ln(a)+bx
x
Analiza regresji liniowej
Sprowadzanie innych funkcji do f. liniowej
1
𝑦=
𝑎+𝑏∙𝑥
Funkcja
1
=𝑎+𝑏∙𝑥
𝑦
1
=𝑎+𝑏∙𝑥
𝑦
x
𝑥
𝑦=
𝑎+𝑏∙𝑥
1
1
=𝑎∙ +𝑏
𝑦
𝑥
1
=𝑎+𝑏∙𝑥
𝑦
1
1
=𝑎∙ +𝑏
𝑦
𝑥
Analiza regresji liniowej
Sprowadzanie innych funkcji do f. liniowej
Funkcja
1
𝑦=
𝑎 + 𝑏 ∙ 𝑒 −𝑥
1
= 𝑎 + 𝑏 ∙ 𝑒 −𝑥
𝑦
1
=𝑎+𝑏∙𝑥
𝑦
e-x
Analiza regresji liniowej
y
Sprowadzanie innych funkcji do f. liniowej
𝑏
Funkcja 𝑦 = 𝑎 +
𝑥
1
1
=𝑎∙ +𝑏
𝑦
𝑥
Analiza regresji liniowej
Sprowadzanie innych funkcji do f. liniowej
Funkcja
𝑦=𝑎∙
𝑏
𝑒𝑥
ln(y)
𝑏
ln 𝑦 = ln 𝑎 +
𝑥
1
1
=𝑎∙ +𝑏
𝑦
𝑥