Zagadnienia regresji i korelacji Regresja i korelacja dwóch zmiennych, regresja wielokrotna i krzywoliniowa.

Download Report

Transcript Zagadnienia regresji i korelacji Regresja i korelacja dwóch zmiennych, regresja wielokrotna i krzywoliniowa.

Zagadnienia regresji i korelacji
Regresja i korelacja dwóch
zmiennych, regresja wielokrotna i
krzywoliniowa
1
Regresja liniowa
Powiedzmy, że w pewnej populacji generalnej  rozważamy
dwie zmienne:
zmienną losową Y ~ N ( m ( x );  y / x ) oraz zmienną rzeczywistą
(lub losową) X.
O wartości oczekiwanej zmiennej losowej Y zakładamy, że
jest funkcją liniową zmiennej X postaci:
m ( x )  a  bx
Wariancja  y / x oznacza, że zmienność cechy (zmiennej) Y
jest niezależna od zmiennej X (jest stała).
2
2
Regresja liniowa (c.d.)
3
Estymacja parametrów modelu
Parametry modelu m ( x )  a  bx nie są znane i muszą być
estymowane na podstawie odpowiedniej próby losowej.
Niech ( y i , x i ) oznacza elementy dwucechowej próby losowej.
Wyniki te można zilustrować na wykresie w układzie OXY
uzyskując rozrzut empiryczny punktów. Zagadnienie
estymacji parametrów modelu sprowadza się do takiego
dobrania ich wartości, aby wykres prostej “jak najlepiej”
pasował do punktów empirycznych.
Odpowiednie kryterium można sformułować tak: chcemy tak
poprowadzić prostą regresji, aby suma kwadratów odległości
każdego punktu empirycznego od tej prostej była jak
najmniejsza.
4
Estymacja parametrów modelu (c.d.)
Zgodnie z modelem każdą obserwację empiryczną można
zapisać jako:
y i  a  bx i  ei
a kryterium estymacji odpowiednio jako:
n
s

i 1
n
ei 
2
  y i  ( a  bx i )   m in
2
i 1
Problem estymacji sprowadza się więc do wyznaczenia
minium funkcji s.
5
Estymacja parametrów modelu (c.d.)
Funkcja s jest funkcją dwóch niewiadomych (a i b), aby
znaleźć minimum tej funkcji musimy wyznaczyć pochodne
cząstkowe funkcji s względem obu niewiadomych:
s
a
s
b
n
  2  ( y i  a  bx i )
i 1
n
  2  x i ( y i  a  bx i )
i 1
Przyrównując te pochodne do zera otrzymujemy tzw. układ
równań normalnych (w układzie tym, w miejsce a i b
wstawiamy ich oszacowania z próby, czyli a i b ).
6
Estymacja parametrów modelu,
układ równań normalnych
Układ równań normalnych ma postać:
 n

  ( y i  a  b x i )  0
i 1
 n
  x i ( y i  a  b x i )  0
 i  1
Rozwiązując powyższy układ otrzymujemy:
n
b 
 (y
i
 y )( x i  x )
i 1

n

( xi  x )
2
cov xy
var x
a  y  b x
i 1
7
Istotność regresji
Istotność wyestymowanego równania regresji zbadamy
weryfikując hipotezę zerową H : b  0 w obec H 1 : b  0
0
Przy prawdziwości H0 statystyka:
t 
b

b
2
sb
sy/x
var x
ma rozkład t Studenta z liczbą stopni swobody v = n - 2.
2
s
Wyrażenie y / x jest oszacowaniem wariancji odchyleń od
regresji z próby:

2
y/x
 s
2
y/x

var y  b cov xy
n2
8
Istotność regresji i interpretacja
współczynnika regresji
Jeżeli t em p .  t  ,n  2 , to H0:b = 0 odrzucamy jako zbyt mało
prawdopodobną i wnioskujemy o istotności wyznaczonego
równania regresji postaci:
m ( x )  a  b x
W sytuacji, gdy t em p .  t  ,n  2 wyniki naszej próby nie przeczą
hipotezie zerowej. Tym samym funkcja regresji ma postać:
m ( x )  y
Współczynnik regresji mówi nam o tym, o ile zmieni się
zmienna zależna y przy wzroście zmiennej x o jednostkę.
9
Inne hipotezy związane z regresją
Korzystając z rozkładu t-Studenta możemy także weryfikować
hipotezy zerowe postaci:
H 0 : b  b0
przy alternatywie obustronnej jak i jednostronnej. Funkcja
testowa ma zawsze tę samą postać:
t 
b  b 0
sb
a zmieniać się będą jedynie obszary krytyczne (zależnie od H1)
albo krytyczne poziomy istotności (jeżeli korzystamy z
pakietów statystycznych).
10
Dokładność dopasowania prostej
regresji
Odchylenie obserwowanej wartości od jej średniej można
zapisać następująco:
y i  y   y i  y    y i  y i 
Pierwszy składnik  y i  y 
można traktować jako tę część
całkowitego odchylenia zmiennej y, która jest wyjaśniona
regresją liniową y względem x.
Drugi zaś składnik jest tą częścią zmienności całkowitej, która
nie została wyjaśniona regresją.
Na kolejnym slajdzie zależność ta jest zilustrowana graficznie.
11
Dokładność dopasowania prostej regresji
(c.d.)
12
Dokładność dopasowania prostej regresji (c.d.)
Podnosząc do kwadratu obie strony równości y  y   y  y    y
i sumując po i = 1, 2,..., n otrzymamy (po odpowiednich
przekształceniach) analogiczną równość dla sum kwadratów
odchyleń:
  y  y     y  y     y  y 
i
n
n
2
i
 y i 
2
i
i 1
i
n
2
i 1
i
i
i
i 1
Równość ta wyraża podział całkowitej sumy kwadratów
odchyleń dla zmiennej y na dwa składniki:
- sumę kwadratów odchyleń wyjaśnioną regresją,
- resztową sumę kwadratów odchyleń (nie wyjaśnioną
regresją).
13
Współczynnik determinacji
Równość
n
  yi  y 
i 1
n
2

  y i  y 
n
2

i 1
  y i  y i 
2
i 1
można wykorzystać do konstrukcji miary dopasowania
prostej regresji. Wyrażenie:
n
  y i  y 
r 
2
2
i 1
n
  yi  y 

2
b cov xy
var y
i 1
w którym sumę kwadratów odchyleń wyjaśnioną regresją
odnosimy do całkowitej sumy kwadratów odchyleń
nazywamy współczynnikiem determinacji.
14
Współczynnik determinacji (c.d.)
Wartość współczynnika determinacji zawiera się w przedziale
<0; 1> i informuje nas o tym, jaka część zmienności
całkowitej zmiennej losowej Y została wyjaśniona regresją
liniową względem X.
Jeżeli między zmiennymi Y i X istnieje pełna zależność, to
wszystkie punkty empiryczne leżą na prostej, reszty są
zerowe, a r2 = 1.
W przypadku braku zależności ( b  0 ) funkcja regresji jest
równa m ( x )  y  y i w konsekwencji r2 = 0.
15
Jeszcze raz o weryfikacji hipotezy o
istotności regresji
n
 yi  y 
Równość 
i 1
n
2

  y i  y 
i 1
n
2

  y i  y i  daje także
i 1
2
możliwość weryfikacji hipotezy o istotności regresji testem F
Fishera-Snedecora. Analiza wariancji ma postać:
Zmienność
df
S.S
M.S
Regresji
1
SSR
MSR
Odchyleń
n-2
SSE
MSE
Całkowita
n-1
SST
n
gdzie:
SS T 
  yi  y 
i 1
2
Femp.
FR
n
 var y
SS R 

F
F ,1 , n  2
2

 y i  y   b cov xy
i 1
16
Predykcja na podstawie regresji liniowej
Wyestymowany model regresji można wykorzystać do
przewidywania, jakie wartości przyjmie zmienna Y przy
ustalonych wartościach zmiennej niezależnej X. Zagadnienie
to nosi nazwę predykcji lub prognozowania.
Niech m ( x )  a  b x będzie oszacowaniem równania
regresji z próby, a
S
2
y/x

var y  b cov xy
n2
oszacowaniem wariancji odchyleń od regresji.
17
Dokładność predykcji
Wariancja wartości regresyjnej
2
S m ( x )
m ( x )
określona jest wzorem:
2


1
(
x

x
)
2
 S y/x  

n
var
x


Z powyższego wzoru wynika, że wariancja wartości regresyjnych (teoretycznych) zależy od wielkości różnicy x  x .
Im wartość x, dla której dokonujemy predykcji jest bardziej
odległa od średniej x , tym mniejsza dokładność prognozy.
18
Przedział ufności dla wartości
regresyjnej
Przy założeniu, że rozważany model jest klasycznym
modelem normalnej regresji liniowej statystyka:
t 
m ( x )  m ( x )
S m ( x )
ma rozkład t Studenta z liczbą stopni swobody v = n - 2.
Na tej podstawie możemy wyznaczyć przedział ufności dla
wartości regresyjnych:
m ( x )   m ( x )  t  ,n  2 S m ( x ) ; m ( x )  t  ,n  2 S m ( x ) 
z P  1 
19
Przedział ufności dla wartości
regresyjnej (c.d.)
Plot of Fitted Model
28
W oda
24
20
16
12
8
0
2
4
6
8
10
Produkcja
20
Współczynnik korelacji
Powiedzmy, że w pewnej populacji generalnej 
obserwujemy dwie zmienne losowe Y i X. Miarą siły związku
między zmiennymi losowymi jest współczynnik korelacji , a
jego oceną w próbie wyrażenie:
  r 
co v xy
v ar x v ar y
Współczynnik korelacji r ma wszystkie własności określone
dla współczynnika korelacji  w populacji:
• r   1; 1 
• r  0 , jeżeli cechy (zmienne) są liniowo nieskorelowane
• r  1  r  ,1 jeżeli między zmiennymi zachodzi zależność
liniowa (wprost lub odwrotnie proporcjonalna).
21
Współczynnik korelacji (c.d.)
Współczynnik korelacji określa, oprócz siły związku między
zmiennymi, także kierunek zależności.
Zależności między wartościami współczynnika korelacji r a
kształtem rozrzutu danych empirycznych pokazane będą na
dwóch kolejnych slajdach.
Kwadrat współczynnika korelacji z próby będziemy nazywać
współczynnikiem determinacji i jest on, drugim poza
współczynnikiem korelacji miernikiem siły związku między
zmiennymi. Interpretacja współczynnika determinacji jest
nam już znana: podaje, w jakiej części zmienność jednej
cechy jest wyjaśniona przez drugą cechę.
22
Wartości r a rozrzut empiryczny
punktów
r bliskie -1
0r 1
23
Wartości r a rozrzut empiryczny
punktów (c.d.)
r 0
r 0
24
Weryfikacja hipotezy o istotności
korelacji
Załóżymy, że rozkład zmiennych losowych Y i X w populacji
generalnej jest normalny. Na podstawie n-elementowej próby
chcemy zweryfikować hipotezę, że zmienne te są liniowo
niezależne:
H 0 :   0 wobec H 1 :   0
Jeżeli H0 jest prawdziwa, to statystyka:
t 
r
1 r
n2
2
ma rozkład t Studenta z liczbą stopni swobody v = n - 2
Wnioskowanie co do losów H0 jest standardowe.
25
Istotność regresji a korelacji
Hipoteza o istotności korelacji może być także zweryfikowana
poprzez porównanie wyznaczonego współczynnika z próby z
wartościami krytycznymi współczynnika korelacji
wielokrotnej Pearsona.
Jeżeli rem p .  R , k ,n  k  1 (gdzie k oznacza liczbę zmiennych
niezależnych), to H 0 :   0 odrzucamy na korzyść H 1 :   0
Hipotezy o istotności regresji i korelacji są równoważne, tym
samym weryfikując jedną z nich wypowiadamy się
jednocześnie o losach drugiej.
26
Regresja wielokrotna liniowa
Dotychczas zajmowaliśmy się taką sytuacją, gdzie w populacji
generalnej rozpatrywaliśmy tylko dwie zmienne: Y i X.
Znacznie częściej będziemy mieć do czynienia z sytuacjami,
gdzie w populacji generalnej  rozpatrywać będziemy k+1
zmiennych: zmienną losową Y oraz k zmiennych X (stałych lub
losowych).
O zmiennej Y sformułujemy założenie, że jest to zmienna
normalna:
Y ~ N ( m ( x1 , ... , x k ), 
y / x1 ,..., x k
)
27
Regresja wielokrotna liniowa (c.d.)
Załóżmy dalej, że wartość oczekiwana zmiennej losowej Y jest
funkcją liniową zmiennych xi (i=1, ...,k):
m ( x 1 , ... x k )  b0  b1 x 1      b k x k
Zapis wariancji 
sformułowany w założeniu
oznacza, podobnie jak w przypadku regresji jednej zmiennej,
stałość rozrzutu wartości cechy Y dla dowolnej kombinacji
wartości zmiennych xi.
Parametry powyższego modelu liniowego nie są znane i muszą
być oszacowane na podstawie n-elementowej próby losowej.
Współczynniki modelu b1, ..., bk będziemy nazywać
cząstkowymi współczynnikami regresji.
2
y / x 1 ,..., x k
28
Regresja wielokrotna liniowa, estymacja
modelu
Oznaczmy elementy próby losowej jako ( y j , x1 j , ... , x kj ) .
Zgodnie z modelem dla j-tej wartości mamy:
y j  b0  b1 x1 j      b k x kj  e j
Kryterium estymacji sformułujemy analogicznie jak
poprzednio: chcemy tak dobrać parametry modelu, aby suma
kwadratów odchyleń od modelu była jak najmniejsza:
s
e
j
2
j

 y
j
 b 0  b1 x 1 j      b k x kj

2
 m in
j
29
Regresja wielokrotna liniowa, estymacja
modelu (c.d.)
Minimalizacja funkcji s wymaga rozwiązania k+1 układów
równań. Można częściowo uprościć obliczenia zapisując
model funkcji regresji w postaci:
y j  y  b1 ( x1 j  x1 )      b k ( x kj  x k )  e j
gdzie
b0  y  ( b1 x 1      b k x k ) .
Kryterium estymacji ma teraz postać:
s
 ( y
j
 y )  b1 ( x 1 j  x 1 )      b k ( x kj  x k )

2
 m in
j
30
Regresja wielokrotna liniowa, estymacja
modelu (c.d.)
Minimalizacja funkcji s wymaga teraz rozwiązania układu k
równań normalnych, które otrzymamy obliczając pochodne
cząstkowe funkcji s względem poszczególnych bi i przyrównując je do zera.
Otrzymany układ równań normalnych można zapisać
macierzowo w postaci:
V B  C
Macierz V jest macierzą kwadratową współczynników przy
niewiadomych, wektor B jest wektorem ocen cząstkowych
współczynników regresji, a wektor C jest wektorem wyrazów
wolnych. Na kolejnym slajdzie podana jest definicja elementów
tych macierzy.
31
Układ równań normalnych
Elementami macierzy V są odpowiednio:
 var x i
v ij  
 cov x i x j
dla i  j
dla i  j
Wektor kolumnowy ocen cząstkowych współczynników
regresji ma postać:
T
T
B  ( b1 ,  , bk )
a wektor kolumnowy wyrazów wolnych postać:
C  (cov x 1 y ,  , cov x k y )
T
T
32
Przykład układu równań normalnych
Dla dwóch zmiennych niezależnych układ równań
normalnych można zapisać w postaci:
 b1 var x 1  b2 cov x 1 x 2  cov x 1 y


 b1 cov x 1 x 2  b2 var x 2  cov x 2 y
W zapisie macierzowym ten sam układ równań ma postać
gdzie:
 var x 1
V  
 cov x 1 x 2
V B  C
cov x 1 x 2 

var x 2 
 b1 
B   

 b2 
 cov x 1 y 
C 

cov
x
y
2 

33
Rozwiązanie układu równań
normalnych
Aby rozwiązać równanie macierzowe V B  C
musimy pomnożyć obie strony powyższego równania przez
macierz odwrotną do macierzy V.
V V B  IB  B  V
1
1
C
Tak więc oceny nieznanych cząstkowych współczynników
regresji są równe
B  V
1
C
a ocenę wyrazu wolnego znajdziemy
z zależności:
i
b0  y   bi x i
34
Badanie istotności regresji
wielokrotnej
Hipotezę o istotności regresji wielokrotnej możemy zapisać
jako:
H 0 : b1  b2      b k  0
a do jej weryfikacji wykorzystać test F Fishera-Snedecora.
Tabela analizy wariancji ma postać:
Zmienność
d.f
SS
MS
Femp.
F
F , k ,n  k 1
Regresji
k
SSR
MSR
FR
Odchyleń
n-k-1 SSE
MSE
Całkowita
n-1
SST
35
Badanie istotności regresji
wielokrotnej (c.d.)
Sumy kwadratów odchyleń i średnie kwadraty potrzebne do
zweryfikowania hipotezy o istotności regresji mogą być
wyznaczone z niżej podanych wzorów.
SS T  var y
SS R   bi cov x i y
MSR 
i
SS E
 var y   bi cov x i y
i
SS R
k
MSE 
SS E
n  k 1
36
Badanie istotności regresji
wielokrotnej (c.d.)
Hipotezę H 0 : b1  b2      b k  0 będziemy odrzucać wtedy,
gdy
FR  F , k , n  k  1 .
Odrzucenie hipotezy H0 jest równoznaczne z tym, że co
najmniej jeden współczynnik regresji jest różny od zera.
Tym samym istnieje związek funkcyjny liniowy między
zmienną zależną Y a zmiennymi niezależnymi Xi.
Problemem statystycznym będzie dalej ustalenie, które
zmienne niezależne powinny pozostać w modelu regresji.
37
Weryfikacja hipotez o istotności
cząstkowych współczynników regresji
Teoretycznie problem sprowadza się do zweryfikowania serii
k hipotez zerowych mówiących o tym, że i-ty cząstkowy
współczynnik regresji jest równy zero.
H 0 : bi  0
w obec
H 1 : bi  0
dla i  1, 2 , .... , k
Hipotezy te mogą być weryfikowane testem t-Studenta, a
funkcja testowa ma postać:
bi
bi
ti 

2
ii
sb
s y / x1 ,..., x k v
i
38
Weryfikacja hipotez H 0 : bi  0
Wyrażenie
var y 
s y / x1 ,... x k 
2
 b cov x y
i
i
i
n  k 1
jest oszacowaniem średniego kwadratu odchyleń od regresji,
a element vii jest elementem diagonalnym macierzy odwrotnej
do macierzy V.
Przy prawdziwości hipotez zerowych tak określone statystyki
mają rozkład t-Studenta z liczbą stopni swobody v = n-k-1
39
Weryfikacja hipotez H 0 : bi  0 , wnioskowanie
Hipotezę H 0 : bi  0 będziemy więc odrzucać, jeżeli wartość
empiryczna statystyki t znajdzie się w odpowiednim obszarze
krytycznym.
Tym samym zmienna, przy której stoi weryfikowany cząstkowy
współczynnik regresji powinna pozostać w modelu.
I tu pojawia się pewien trudny problem. Jeżeli zmienne
niezależne są z sobą powiązane (macierz V nie jest macierzą
diagonalną), to oceny istotności cząstkowych współczynników
regresji nie są niezależne.
40
Problem doboru zmiennych
W przypadku istnienia silnych współzależności między
zmiennymi niezależnymi Xi (mierzonymi choćby
współczynnikami korelacji miedzy parami zmiennych) może to
prowadzić do paradoksalnej (z pozoru) sytuacji.
Analizując funkcję regresji wielokrotnej dochodzimy do
wniosku, że jest ona istotna statystycznie (testem F).
Weryfikując dalej hipotezy o istotności cząstkowych
współczynników uzyskujemy takie wartości empiryczne testu t
Studenta, które nie przeczą hipotezom zerowym.
Z jednej strony mamy więc istotną funkcję regresji, a z drugiej
wszystkie zmienne (analizowane oddzielnie) są nieistotne,
powinny więc być usunięte z modelu.
41
Problem doboru zmiennych (c.d.)
Problem występowania współzależności między zmiennymi
niezależnymi, w aspekcie doboru zmiennych istotnych,
zmusza nas do wypracowania innego sposobu określania
zestawu zmiennych niezależnych.
Można sformułować takie podejście: zaczynamy od pełnego
zestawu potencjalnych zmiennych niezależnych, a następnie
kolejno usuwamy z modelu tę zmienną niezależną, której rola
w opisywaniu zależności między zmienną Y a zmiennymi
niezależnymi jest najmniejsza. Podejście takie nosi nazwę
regresji krokowej, ale przed jej omówieniem wprowadzimy
jeszcze mierniki dobroci dopasowania modelu.
42
Ocena stopnia dopasowania modelu
Miarą stopnia dopasowania modelu może być współczynnik
korelacji wielokrotnej R lub jego kwadrat (współczynnik
determinacji D).

b
R 
i
co v x i y
i
D R
2
v ar y
Dobierając model funkcji regresji powinniśmy dążyć do
uzyskania jak największego współczynnika determinacji
(korelacji), ale przy możliwie małym średnim kwadracie
odchyleń od regresji:
var y 
s y / x1 ,... x k 
2
 cov x y
b
 i
i
i
n  k 1
43
Regresja krokowa
W świetle poprzednich rozważań można sformułować
następujący tok postępowania:
1. Zaczynamy od pełnego (potencjalnie) zestawu zmiennych
2
2
R
o
raz
s
niezależnych. Estymujemy model i wyznaczamy
y / x ,..., x
2. Wyznaczamy wektor wartości empirycznych statystyk t
dla hipotez H 0 : bi  0 .
3. Usuwamy z modelu tę zmienną, dla której uzyskaliśmy
najmniejszą wartość empiryczną statystyki t (co do wartości
bezwzglednej) i ponownie estymujemy model.
Postępowanie takie kontynuujemy tak długo, dopóki w
modelu nie pozostaną tylko zmienne istotne.
1
44
k
Regresja krokowa (c.d.)
W trakcie wykonywania regresji krokowej powinniśmy
obserwować zmiany wartości współczynnika determinacji jak i
średniego kwadratu błędu.
Usuwanie zmiennych niezależnych będzie oczywiście
zmniejszać wartości współczynnika determinacji, ale usunięcie
zmiennej nieistotnej spowoduje niewielkie zmniejszenie wartości
tego parametru.
Generalnie nasze postępowanie ma doprowadzić do
maksymalizacji wartości współczynnika determiancji przy
jednoczesnej minimalizacji średniego kwadratu błędu.
45
Regresja krzywoliniowa
W wielu przypadkach interesuje nas nieliniowy związek
między zmienną Y a zmienną X. Przykładowo może to być
związek typu wielomianu stopnia drugiego:
m ( x )  b0  b1 x  b2 x
2
Problem estymacji tego modelu staje się prosty, jeżeli
dokonamy formalnego podstawienia:
x1  x x 2  x
w wyniku którego sprowadzamy model krzywoliniowy do
modelu liniowego postaci:
2
m ( x )  b0  b1 x 1  b2 x 2
46
Regresja krzywoliniowa (c.d.)
Rozważmy jeszcze jeden przykład modelu nieliniowego z
dwoma zmiennymi niezależnymi:
y  m ( x1 , x 2 )  b0  b1 x1  b2 x1  b3 x 2  b4 x 2  b5 x1 x 2
2
2
Poprzez formalne podstawienia model ten daje się sprowadzić
do standardowego modelu liniowego.
y  b0  b1 z1  b2 z 2  b3 z 3  b4 z 4  b5 z 5
Postępowanie, które pozwala na sprowadzenie modelu
krzywoliniowego do standardowego modelu liniowego nosi
nazwę linearyzacji modelu regresji.
47
Wnioskowanie w regresji wielokrotnej
Podobnie jak w przypadku regresji liniowej jednej zmiennej
cząstkowe współczynniki regresji mają następującą interpretację
merytoryczną:
i-ty, cząstkowy współczynnik regresji mówi nam o tym, o ile
średnio zmieni się wartość zmiennej Y przy wzroście i-tej
wartości zmiennej X o jednostkę i przy ustalonych wartościach
pozostałych zmiennych niezależnych.
W przypadku większości modeli regresji krzywoliniowej taka
interpretracja nie jest możliwa.
48
Funkcje przekrojowe
Rozważmy model regresji wielomianowej dwóch zmiennych
niezależnych postaci:
2
2
y  m ( x1 , x 2 )  b0  b1 x1  b2 x1  b3 x 2  b4 x 2  b5 x1 x 2
Dość wygodną formą analizowania takiego modelu jest
wyznaczenie funkcji przekrojowych, czyli takich, gdzie
zmienna Y jest funkcją tylko jednej zmiennej niezależnej. W
naszym przykładzie mamy dwie takie funkcje:
`
`
2
y  m ( x1 x 2  x 20 )  b0  b1 x1  b2 x1
y  m ( x 2 x1  x10 )  b0  b1 x 2  b4 x 2
`
`
2
49
Problemy związane z estymacją
funkcji regresji
Estymacja funkcji regresji jest trudnym zagadniem z kilku
powodów:
1. Eksperymentator nie ma pewności, że zbiór analizowanych
zmiennych niezależnych jest pełny.
2. Kształt funkcji regresji z reguły nie jest znany, stąd pojawia
się problem doboru zmiennych.
3. W wielu sytuacjach można uzyskać porównywalną dobroć
dopasowania modelu dla różnych zestawów zmiennych
niezależnych.
50