Regresja wieloraka

Download Report

Transcript Regresja wieloraka

Regresja wieloraka
Regresja wieloraka
Ogólny problem obliczeniowy: dopasowanie
linii prostej do zbioru punktów.
Najprostszy przypadek - jedna zmienna
zależna i jedna zmienna niezależna
(można zobrazować na wykresie rozrzutu)
Regresja wieloraka
Estymacja najmniejszych kwadratów:
Program tak dobierze równanie tej linii, że
suma kwadratów odległości punktów na
wykresie rozrzutu od linii regresji będzie
minimalna.
Równanie regresji
Linia prosta w przestrzeni dwuwymiarowej (na
płaszczyźnie): Y=a+b*X
Stała- wyraz wolny, nachylenie- współczynnik
regresji.
W przypadku wielowymiarowym (mamy do czynienia
z więcej niż jedną zmienną niezależną) linia regresji
nie może już być tak prosto przedstawiona wizualnie
w przestrzeni dwuwymiarowej. Postać równania:
Y=a+b1*X1+b2*X2+...+bp*Xp
Równanie regresji
Y=a+b1*X1+b2*X2+...+bp*Xp
Współczynniki regresji (b) reprezentują niezależne
wkłady każdej ze zmiennych niezależnych do
predykcji zmiennej zależnej.
Równanie regresji
Y=a+b1*X1+b2*X2+...+bp*Xp
Kierunek zależności od poszczególnej zmiennej
ustala się na podstawie znaku wartości
współczynnika regresji (b).
Jeśli b ma wartość dodatnią- związek jest dodatni
(wraz ze wzrostem zmiennej X rośnie wartość Y)
Jeśli b jest ujemne- związek jest negatywny
b=0 - między zmiennymi nie ma zależności
Równanie regresji
Wartości przewidywane a wartości resztowe
Linia regresji wyraża najlepszą predykcję zmiennej
zależnej (Y) przy danych zmiennych niezależnych
(X).
Zazwyczaj mamy do czynienia z odchyleniami
punktów pomiarowych od linii regresji
Wartość resztowa: odchylenie danego punktu na
wykresie od linii regresji (czyli od jego wartości
przewidywanej)
Równanie regresji
Wariancja resztowa a R2
Im mniejsza wariancja wartości resztowych wokół
linii regresji w stosunku do zmienności ogólnej, tym
lepsza jakość predykcji.
Równanie regresji
Wariancja resztowa a R2
Brak zależności pomiędzy zmiennymi X i Y stosunek zmienności resztowej Y do zmienności
całkowitej równa się 1,0.
X i Y ściśle (w sensie zależności funkcyjnej) zależne
od siebie- zmienność resztowa równa się 0 i taki
stosunek również 0,0.
Najczęściej: stosunek zmienności resztowej Y do
zmienności całkowitej zawiera się gdzieś pomiędzy
tymi wartościami ekstremalnymi.
Równanie regresji
Wariancja resztowa a R2
1 minus ten stosunek= R2 (współczynnik
determinacji)- wskaźnik jakości dopasowania modelu
do danych
Bliski 1,0 wskazuje, że prawie cała zmienność
zmiennej zależnej może być objaśniona przez
zmienne niezależne włączone do modelu).
Równanie regresji
Wariancja resztowa a R2
1 minus ten stosunek= R2 (współczynnik
determinacji)- wskaźnik jakości dopasowania modelu
do danych
Interpretacja: Gdyby wartość R2 wynosiła 0,4
wówczas wiadomo byłoby, że wariancja wartości Y
wokół linii regresji wynosi 1-0,4 razy pierwotna
wariancja Y (40% pierwotnej zmienności Y zostało
wytłumaczone przez regresję, a 60% pozostało w
zmienności resztowej).
Równanie regresji
Interpretacja współczynnika korelacji R
Stopień, w jakim dwie lub więcej zmiennych
objaśniających (niezależnych lub X) jest
powiązanych ze zmienną objaśnianą (zmienna
zależna Y), wyrażany jest przez wartość
współczynnika korelacji R (pierwiastek kwadratowy z
R2) .
W regresji wielorakiej R może przyjmować wartości
pomiędzy 0 i 1.
Równanie regresji
Założenia i ograniczenia
• założenie braku obserwacji odstających
(normalności rozkładów zmiennych)
•założenie liniowości
• założenie normalności reszt
• wybór liczby zmiennych
Równanie regresji
Założenia i ograniczenia
Założenie braku obserwacji odstających: należy
przeanalizować pod tym kątem wykresy P-P.
histogramy, przeprowadzić testy normalności.
1,4
1,2
1,0
0,8
0,6
0,4
0,2
D ystryb u a n ta e m p iryczn a
0,0
-0,2
-0,4
-0,2
0,0
0,2
0,4
0,6
Dystrybuanta teoretyczna
0,8
1,0
1,2
Równanie regresji
Założenia i ograniczenia
Założenie liniowości: założenie, że zależność
między zmiennymi jest liniowa.
Rada: przeanalizowanie pod tym kątem
dwuwymiarowych wykresów rozrzutu badanych
zmiennych.
Równanie regresji
Założenia i ograniczenia
Założenie normalności reszt: reszty (różnice
między wartością obserwowaną a obliczoną z
równania regresji) podlegają rozkładowi
normalnemu.
Równanie regresji
Założenia i ograniczenia
Wybór liczby zmiennych: Zaleca się, aby brać do
analizy przynajmniej około 10 do 20 razy więcej
przypadków niż występuje w niej zmiennych. W
przeciwnym wypadku oceny linii regresji będą
bardzo niestabilne i będą się silnie zmieniać wraz
ze wzrostem liczby przypadków.