Dwie zmienne losowe Korelacje i regresja liniowa.

Download Report

Transcript Dwie zmienne losowe Korelacje i regresja liniowa.

Dwie zmienne losowe
Kowariancja, współczynnik korelacji i regresja liniowa
dr hab. Ryszard Walkowiak prof. nadzw.
Kowariancja i współczynnik korelacji
W przypadku badania wielu cech danej populacji, a więc
wielu zmiennych losowych, np. masa ciała matki i masa
ciała noworodka, rozkład prawdopodobieństwa każdej z
tych zmiennych jest tylko częścią wiedzy, którą musimy
posiąść aby dokładnie zobrazować populację.
Nie daje on odpowiedzi na temat wzajemnych zależności
między zmiennymi.
Wiedzę na temat tych zależności możemy uzyskać
badając tzw. łączny rozkład prawdopodobieństwa tych
zmiennych, a przede wszystkim tzw. momenty mieszane,
czyli kowariancje i korelacje.
Kowariancja i współczynnik korelacji
Ograniczymy się do badania dwóch zmiennych w danej
populacji.
Odwołując się do oznaczeń wprowadzonych w wykładzie pt.
„Zmienne losowe. Rozkład prawdopodobieństwa zmiennej
losowej”, możemy dwa interesujące nas momenty wyrazić w
postaci następującej.
Kowariancja zmiennych losowych X i Y :
Cov (X, Y) = E(X - X)(Y - Y),
gdzie
X i Y oznaczają wartości oczekiwane odpowiednio
zmiennych losowych X i Y.
Kowariancja i współczynnik korelacji
Współczynnik korelacji zmiennych losowych X i Y:
 XY
Cov X , Y 

Var  X Var Y 
Warto zauważyć, że jeśli zmienne wyrażają się w
różnych jednostkach, np. w metrach i gramach, to
jednostką kowariancji jest metr  gram.
Współczynnik korelacji zawsze jest niemianowany.
Kowariancja i współczynnik korelacji
Współczynnik korelacji może przyjmować wartości z
przedziału -1, 1.
XY > 0 oznacza korelację dodatnią, tzn. wraz ze
wzrostem wartości jednej z cech, wzrastają wartości
drugiej.
XY < 0 oznacza korelację ujemną, tzn. wraz ze wzrostem
wartości jednej z cech, maleją wartości drugiej.
XY = 0 oznacza brak zależności.
XY = -1 lub XY = 1 oznacza dokładną zależność liniową.
Kowariancja i współczynnik korelacji z
próby
Oczywiście, przedstawione wzory dotyczą sytuacji, gdy
możemy przebadać całą populację. Zazwyczaj takiej
możliwości nie ma. Musimy wówczas pobrać próbę n
jednostek z populacji i na każdej jednostce zmierzyć
wartości zmiennych X i Y.
Otrzymujemy wówczas n par (xi, yi), i = 1, 2, …, n.
Estymatorem kowariancji jest wówczas
S XY
1 n
1 n
xi  x  yi  y  x   xi


n  1 i 1
n i 1
1 n
y   yi
n i 1
Estymatorem współczynnika korelacji jest rXY 
S XY
2
2
ˆ
ˆ
 XY
Kowariancja i współczynnik korelacji z
Masa ciała (kg)
próby
Kobiety
Noworodki
Przykład
Aby sprawdzić, czy
istnieje zależność między
masą ciała matki a masą
ciała jej dziecka
(noworodka), zbadano
próbę n = 20 kobiet ich
dzieci.
61
55
62
55
52
60
70
63
50
49
53
93
63
55
66
68
54
60
57
57
3,79
3,55
3,27
4,3
3,05
3,25
3,45
3,4
3,1
2,51
3,65
3,95
3,1
2,63
3,85
3,65
3,42
2,91
3,2
3,4
Kowariancja i współczynnik korelacji z
Masa ciała (kg)
próby
Kobiety
Noworodki
Na podstawie tej próby,
oznaczając przez K masę
ciała kobiety a przez N
masą ciała noworodka,
otrzymano:
2
ˆ

xK  60,15
K  93,39736
2
ˆ

xN  3,37150 N  0,1899
rKN = 0,444714 .
61
55
62
55
52
60
70
63
50
49
53
93
63
55
66
68
54
60
57
57
3,79
3,55
3,27
4,3
3,05
3,25
3,45
3,4
3,1
2,51
3,65
3,95
3,1
2,63
3,85
3,65
3,42
2,91
3,2
3,4
Kowariancja i współczynnik korelacji z
próby
Regresja liniowa
Skoro stwierdziliśmy istnienie wyraźnej zależności między
wartościami dwóch zmiennych losowych, np. między masą ciała
kobiety i jej dziecka, to chcielibyśmy tę zależność wyrazić w
postaci funkcji.
Przypomnę, że na wykładzie pt.” Właściwości danych
geograficznych” wprowadziłem już pojęcie zmiennej objaśnianej i
zmiennych objaśniających, oraz pojęcie wielozmiennej funkcji
regresji
Y = f(X1, X2, X3, …, Xn) + .
Tutaj ograniczymy się do liniowej funkcji jednej zmiennej, co
będzie analogiczne do omawianego na wykładzie pt.
”Generalizacja danych przestrzennych” dopasowania trendu
liniowego rozumianego jako generalizacja statystyczna danych.
Regresja liniowa
Za pomocą równania regresji liniowej nie estymujemy
poszczególnych wartości objaśnianej zmiennej losowej
Y, lecz jej wartości oczekiwane przy konkretnych
wartościach objaśniającej zmiennej X.
Równanie regresji jest w istocie równaniem prostej
y = ax + b, w którym współczynniki dobiera się w ten
sposób, aby, na wykresie takim jak poprzednio pokazany,
odległość punktów obserwacji od tej prostej była
najmniejsza.
Regresja liniowa
Współczynnik kierunkowy prostej regresji, nazywany
odtąd współczynnikiem regresji oblicza się według
wzoru
S XY
ˆ Y2
aˆ  2  rXY
ˆ X
ˆ X2
a wyraz wolny według wzoru
bˆ  y  aˆx
Równanie regresji przyjmuje więc postać y  aˆx  bˆ
Regresja liniowa przykład
Kobiety - Noworodki
Noworodki = 2,1653+0,0201*x
4,4
4,2
4,0
3,8
Noworodki
3,6
3,4
3,2
3,0
2,8
2,6
2,4
2,2
45
50
55
60
65
70
Kobiety
75
80
85
90
95
Regresja liniowa przykład
Noworodki - Kobiety
Kobiety = 26,8994+9,8622*x
95
90
85
80
Kobiety
75
70
65
60
55
50
45
2,2
2,4
2,6
2,8
3,0
3,2
3,4
Noworodki
3,6
3,8
4,0
4,2
4,4
Regresja liniowa
Na przykładzie dwóch poprzednich wykresów
zobaczyliśmy, że zamiana ról pomiędzy zmiennymi
objaśnianą i objaśniającą prowadzi do znacznie
różniących się prostych regresji. Tak więc kluczową rolę
gra prawidłowy dobór tych zmiennych.
Zmienną objaśniającą jest ta, która ma wpływ na
zmienną objaśnianą.
W naszym przykładzie oczywiście masa ciała kobiety
wpływa na masę ciała jej dziecka a nie na odwrót. Tak
więc prawidłowo zdefiniowana jest pierwsza prosta
regresji.
Współczynnik determinacji
Po wyestymowaniu parametrów prostej regresji
otrzymujemy następujący model zmiennej objaśnianej
yi  yˆi   i
gdzie yˆi  aˆxi  bˆ
Aby stwierdzić, czy zmienna objaśniana zależy
rzeczywiście od zmiennej objaśniającej, oraz jak dobrze
prosta regresji dopasowana jest do obserwacji, należy ten
model porównać do modelu nie zawierającego zmiennej
objaśniającej
yi  y   i
Wprowadzamy w tym celu pojęcia odchyleń od regresji,
yi  yˆ , i odchyleń od średniej yi  y
Współczynnik determinacji
Odchylenie od regresji
Regresja liniowa
Noworodki = 2,1653+0,0201*x
Średnia
Noworodki = 3,37
4,4
4,2
4,0
Odchylenie od średniej
3,8
Noworodki
3,6
3,4
3,2
3,0
2,8
2,6
2,4
2,2
45
50
55
60
65
70
Kobiety
75
80
85
90
95
Współczynnik determinacji
Prosta regresji jest dobrze dopasowana do obserwacji
jeśli suma kwadratów odchyleń od regresji jest znacznie
mniejsza (nigdy nie jest większa) od sumy kwadratów
odchyleń od średniej.
Miarą dopasowania jest współczynnik determinacji:
n
R2  1
2
ˆ


y

y
 i i
i 1
n
2


y

y
 i
i 1
, 0  R2  1
Współczynnik determinacji
Współczynnik determinacji R2 opisuje procentowy
udział zmienności spowodowanej przez zmienną X w
całkowitej zmienności zmiennej Y .
Jeżeli jest bliski zeru, oznacza to, że zmienna X nie ma
wpływu na zmienną Y.
Jeżeli R2 jest bliski jedności, to zmienna X ma istotny
wpływ na Y i regresja jest dobrze dopasowana.
W naszym przykładzie R2 = 0,198. Zatem wpływ masy
ciała kobiety na masę ciała noworodka jest niewielki.
Z analizy wariancji, o której tutaj nie mówimy, wynika
jednak, że jest on istotny.
Literatura
Radosław Kala (2002): Statystyka dla przyrodników.
Wydawnictwo Akademii Rolniczej im. A.
Cieszkowskiego w Poznaniu.
Czesław Platt (1981): Problemy rachunku
prawdopodobieństwa i statystyki matematycznej,
PWN Warszawa