regresja liniowa

Download Report

Transcript regresja liniowa

Liniowe współzależności
pomiędzy zmiennymi
Korelacje, regresja liniowa
KORELACJA LINIOWA PEARSONA
Korelacja: miara powiązania pomiędzy dwiema lub
większą liczbą zmiennych
Wartość współczynnika korelacji liniowej
Pearsona:
 z przedziału od -1 do +1
 Wartość -1 reprezentuje doskonałą korelację
ujemną
 Wartość +1 reprezentuje doskonałą korelację
dodatnią
 Wartość 0 wyraża brak korelacji.
WYMOGI
 Normalność rozkładów zmiennych
 Liniowość zależności
KORELACJA LINIOWA PEARSONA
KORELACJA LINIOWA PEARSONA
Zależność
wprostproporcjonalna
Zależność odwrotnie
proporcjonalna
KORELACJA LINIOWA PEARSONA
R2 – współczynnik determinacji:
 wartość r Pearsona podniesiona do kwadratu
 Wyraża proporcję wspólnej zmienności dwóch
zmiennych (tzn. siłę lub wielkość powiązania).
KORELACJA LINIOWA PEARSONA
Aby ocenić korelację pomiędzy zmiennymi należy
znać:
 wartość r (siła korelacji)
 znak +/- przy r (zależność wprost/odwrotnie
proporcjonalna)
 poziom istotności p współczynnika r (określa,
czy korelacje jest/nie jest statystycznie istotna)
KORELACJA LINIOWA PEARSONA
Macierze korelacji:
 tabela współczynników korelacji pomiędzy
wieloma zmiennymi
 jedna lista zmiennych -> kwadratowa macierz
korelacji (każdy z każdym)
 dwie listy zmiennych -> prostokątna macierz
korelacji
REGRESJA LINIOWA
Regresja liniowa jest rozszerzeniem korelacji
liniowej i pozwala na:
 graficzną prezentację linii prostej dopasowanej
do wykresu rozrzutu
 określenie równania opisujące zależność dwóch
zmiennych w postaci y = a * x + b
zmienna
zależna
współczynnik
kierunkowy
prostej
zmienna
niezależna
wyraz
wolny
REGRESJA LINIOWA
Równanie regresji liniowej
Statystyki dopasowania
liniowego
Przedział ufności
REGRESJA LINIOWA
Równanie regresji liniowej
O2 ROZP = 12.72 – 0.11*TEMP
y = a*x +b
REGRESJA LINIOWA
W jaki sposób wyznaczana jest linia regresji
liniowej?
 przez minimalizację sumy kwadratów odchyleń
punktów doświadczalnych od linii regresji
REGRESJA LINIOWA
KORELACJA LINIOWA PEARSONA /
REGRESJA LINIOWA
Zagrożenia wiarygodności wniosków:
 problem obserwacji odstających
 inny kształt zależności
KORELACJA LINIOWA PEARSONA /
REGRESJA LINIOWA
Obserwacje odstające:
 wartości nietypowe, występujące rzadko
 punkty nie pokrywające się z rozkładem
pozostałych danych
 mogą odzwierciedlać rzeczywiste własności
badanego zjawiska LUB być tylko anomalią,
błędem pomiarowym
KORELACJA LINIOWA PEARSONA /
REGRESJA LINIOWA
Obserwacje odstające:
 mają duży wpływ na współczynnik kierunkowy
linii regresji i w konsekwencji na wartość
współczynnika korelacji
 Nawet jedna obserwacja odstająca może
poważnie zmienić współczynnik korelacji. sztucznie zwiększyć lub zmniejszyć jego
wartość.
KORELACJA LINIOWA PEARSONA /
REGRESJA LINIOWA
Obserwacje odstające- jak z nimi postępować?:
 wyklucza się obserwację, która wychodzi poza
przedział obejmujący ±2 odchylenia
standardowe (lub nawet ±1,5 odchylenia
standardowego) od wartości średniej
 Zdefiniowanie tego, co uznajemy za obserwację
odstającą, jest sprawą subiektywną i decyzję o
identyfikacji odstających obserwacji musi badacz
podejmować opierając się na swoim
doświadczeniu oraz powszechnie akceptowanej
praktyce w danej dziedzinie badań.
KORELACJA LINIOWA PEARSONA /
REGRESJA LINIOWA
Obserwacje odstające- jak z nimi postępować?:
 przekształcenie log(x+1)
 Ogranicza ono rozrzut zmiennych, eliminuje
wpływ wartości dominujących, błędów
pomiarowych
KORELACJA LINIOWA PEARSONA /
REGRESJA LINIOWA
Kształt zależności:
 Odstępstwa od liniowości spowodują wzrost
sumy kwadratów odchyleń od linii regresji,
nawet jeśli reprezentują one prawdziwy i ścisły
związek dwóch zmiennych
 Analizowanie wykresów rozrzutu jest
niezbędnym elementem analizy przy obliczaniu
korelacji i regresji liniowej
KORELACJA LINIOWA PEARSONA /
REGRESJA LINIOWA