Transcript wykład 6

Metody analizy współzależności cech (zmiennych)

Wykład 6

dr Małgorzata Radziukiewicz

 Poszczególne jednostki populacji mogą być badane: • ze względu na

jedną cechę

; • jednocześnie ze względu na

dwie lub więcej cech .

Przykład 1.

Gospodarstwa domowe mogą być badane nie tylko ze względu na wysokość miesięcznych dochodów, lecz również ze względu na liczbę osób w gospodarstwie, wiek głowy gospodarstwa, wysokość miesięcznych wydatków, liczbę osób pracujących, czy stosowany lek (wielkość dawki) ma wpływ na stan zdrowia itp.

 Inaczej mówiąc możemy badać populację ze względu na

m

cech. Wektor cech zapisujemy:

x

= [x 1 , x 2 ,…, x m ] 

Przykład 2.

Studenci statystyki WSMiZ w Sochaczewie byli badani ze względu na wagę (x). Teraz mogą być badani nie tylko ze względu na wagę (x 1 ), lecz również według wzrostu (x 2 ), wieku (x 3 ), płci (x 4 ), charakteru studiów (dzienne, zaoczne) (x 5 ) itp.

 Poszczególne cechy mogą być: • od siebie odizolowane; • wzajemnie ze sobą powiązane.

 Dział statystyki zajmujący się badaniem związków między kilkoma cechami (zmiennymi) nosi nazwę

teorii współzależności

.

 

Wykrycie zależności między cechami nie jest łatwe, nawet jeśli ich występowanie wydaje się oczywiste.

Przykład 3.

- chociaż dany lek jest bardzo dobry, to jednak nie dla każdej osoby będzie skuteczny; - chociaż dane gospodarstwo ma wysoki dochód, to nie koniecznie musi dużo wydawać na dobra luksusowe, itp..

Występowanie zależności można wykryć tylko przez obserwację większej liczby przypadków.

Przykład 4.

- chorzy, którzy zażywają skuteczny lek są częściej wyleczeni, niż ci, którzy go nie przyjmują; - gospodarstwa z wysokimi dochodami wydają przeciętnie więcej na dobra luksusowe niż ubogie gospodarstwa; - określona liczba studentów poświęca tę samą ilość czasu na przygotowanie się do egzaminu, ale uzyskane wyniki są różne; - działki zasilamy tą samą dawka nawozu, ale w efekcie możemy mieć różne plony itp.. Zaprezentowane w przykładzie 3 związki cech (zmiennych) są stochastyczne.

  Współzależność zjawisk

współzależność funkcyjna

– zmiana wartości jednej zmiennej (X) powoduje ściśle określoną zmianę drugiej zmiennej (Y). Oznacza to, że zmiennej X odpowiada tylko jedna wartość zmiennej Y np. pole kwadratu jest funkcją jego boku, czyli P = a 2 (wszystkie kwadraty o boku a maja takie samo pole);

współzależność stochastyczna

Szczególnym przypadkiem jest – wraz ze zmianą jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. zależność korelacyjna.

● Stochastyczny związek cech można prezentować tabelarycznie.

● Tablicę ujmującą ten związek nazywa się

tablicą korelacyjną

(

łac. corelatio

: współzależność, wzajemny stosunek).

● przyjmujemy zasadę: Y – cecha zależna; X – cecha niezależna (lub odwrotnie), a więc mówiąc o związku cech, rozumiemy

związek 2-óch cech

.

● W tablicy korelacyjnej mamy s + r szeregów rozdzielczych warunkowych oraz 2 szeregi rozdzielcze główne (brzegowe).

● Wszystkie rozkłady są jednowymiarowe (zastosowanie mają uprzednio poznane statystyczne miary opisu dotyczące jednej cechy) x i yi

y 1 y 2 … y s

j

x 1 x 2 … x r 

i

n 11 n 21 … n n r1 ●1 n 12 n 22 … n n r2 ●2 … … … … … n 1s n 2s … n n rs ●s n 1● n 2● … n n r● x przyjmuje r wariantów - i = 1,2,3,4…r y przyjmuje s wariantów - j = 1,2,3,4,…s (odmiany cechy niezależnej) (odmiany cechy zależnej)

Przykład 5.

Wydajność pracy Y (w tys. sztuk wyrobów na osobę) oraz staż pracy X (w latach) pracowników w zakładzie A przedstawia tablica 1.

Tablica 1.

 n ij – liczba jednostek, które posiadają jednocześnie wariant x i wariant y j cechy Y cechy X oraz x i

y i

1 - 3 3 - 5 5 - 7 7 - 9 Razem  0 - 2 2 - 4 4 - 6 6 - 8 6 2 4 10 8 4 16 18 12 20 10 12 36 42 Razem 8 26 34 32 100 I tak np. liczbę 20 (znajdująca się w dolnym prawym rogu) można interpretować jako liczbę osób o wydajności w granicach 7 – 9 tys. sztuk wyrobów i o stażu pracy od 6 do 8 lat.

 Tablica korelacyjna, którą budujemy zazwyczaj według uporządkowania cechy niezależnej (X), może być także czytana „odwrotnie”, jeśli zamiana cech ma sens z merytorycznego punktu widzenia.

Przykład 6.

Interesuje nas związek między liczbą osób w gospodarstwie domowym a spożyciem mleka.

W tym przypadku liczba osób wpływa na spożycie mleka, ale nie na odwrót. Zatem spożycie mleka będzie zmienną zależną (Y) a liczba osób w gospodarstwie zmienną niezależną (X).

 Poza tabelaryczną prezentacją związków stochastycznych (w postaci tablicy korelacyjnej) istnieją graficzne sposoby ich obrazowania.

Badanie populacji na 2 cechy

   

Przykład 7.

Załóżmy, że populacja studentów (n = 15) jest opisywana za pomocą dwóch cech

(

x 1

)

i

(

x 2

)

, tzn.

m = 2, n = 36.

Wtedy macierz obserwacji ma wymiary

n

obserwacja opisywana jest parą liczb

x i1

x

m

oraz

x

(36 x 2), a

i2

.

i - ta

W układzie współrzędnych odpowiada to punktowi

p i

Mamy więc 15 punktów.

= [x i1

,

x i2 ]

.

Numer obserwacji i Wartość cechy x 1

Tablica 2. Wartości cech odpowiadające poszczególnym obserwacjom (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 2 2 3 4 4 4 4 5 7 7 8 9 10

Wartość cechy x 2

1 3 2 4 5 6 7 5 8 9 7 9 9 14 11 10 15 12 10

 Źródło: dane fikcyjne

Rys.1. Wykres punktowy populacji badanej na 2 cechy x 1 i x 2

12 10 8 2 4 6 0 0 2 2; 3 3; 2 2; 1 4; 7 4; 6 4; 5 4; 4 5; 5 4 7; 9 7; 8 8; 7 11; 10 9; 9 10; 9 12; 10 8 10 12 14

 Z rys.1 widać wyraźnie, iż „na ogół” im większa wartość cechy (x 1 ), tym większą wartość przyjmuje cecha (x 2 ) i odwrotnie.

12 10 8 6 2 4 0 0 2 4 8 10 12 14

 

Przykład 4.

Załóżmy, że obecnie populacja studentów (n = 15) jest opisywana za pomocą dwóch innych cech

(

x 1

)

i

(

x 3

).

Wyniki próby 15-elementowej badane ze względu na te cechy prezentują się na poniższym rysunku 2: Rys.2.

12 10 2 0 8 6 4 0 2 4 6 wartość cechy x1 8 10 12

  Z rys.2 , w odróżnieniu od rys.1, nie widać wyraźnie, aby wartości cechy x powiązane.

1 i x 3 były w jakiś sposób ze sobą „Na oko” można tylko stwierdzić, iż cechy x 1 i x 2 (rys.1)są zapewne ze sobą ściślej powiązane niż cechy x 1 i x 3 (rys.2).

Pytanie 1?

– Jak ocenić i zmierzyć siłę związku dwóch cech?

0 2 4 12 10 8 6 0 Rys.1

12 10 8 6 4 2 0 0 2 4 6 8 wartości cechy x1 10 12 14 Rys.2

2 4 6 wartość cechy x1 8 10 12

 Metoda pozwalająca na ocenę i mierzenie siły związku cech stanowi przedmiot

analizy korelacji.

   Uwaga!

Badanie związków korelacyjnych ma sens jedynie tylko wtedy, gdy między zmiennymi istnieje więź przyczynowo-skutkowa, dająca się logicznie wytłumaczyć.

Analiza związków między zjawiskami powinna być dwukierunkowa: jakościowa i ilościowa.

Zawsze na podstawie analizy merytorycznej należy uzasadnić logiczne występowanie związku a dopiero potem można przystąpić do określania kierunku i siły zależności.

   Badanie korelacji między zmiennymi (szeregami) Zestawienie kilku szeregów=szukanie wzajemnych związków i porównanie wartości liczbowych cech w tych szeregach= wykrycie określonych prawidłowości Zmienna=szereg liczbowy=wartości liczbowe cech w szeregu

 Parametrem wykorzystywanym do oceny siły i kierunku zależności pomiędzy zmiennymi jest

współczynnik korelacji

,

zwany również

współczynnikiem korelacji Persona.

   Współczynnik korelacji Pearsona r xy jest miernikiem związku liniowego między dwiema cechami (zmiennymi) mierzalnymi jest wyznaczany poprzez standaryzację kowariancji kowariancja (wariancja wspólna cech x i y) jest średnią arytmetyczną iloczynu odchyleń wartości liczbowych tych cech (zmiennych) x i y od ich średnich arytmetycznych

r xy

i n

  1 (

n

x i S

 (

x

)(

x

) 

S y i

( 

y

)

y

)

r xy

 cov(

x

,

y

)

S

(

x

) 

S

(

y

) cov(

x

,

y

)  cov(

y

,

x

)  1

n i n

  1 (

x i

x

)(

y i

y

) 

x

y

x

y

       Współczynnik korelacji jest symetryczny, tzn.

r xy

przyjmuje wartości z przedziału <-1,1>.

= r yx

i Równy jest zeru, gdy między cechami nie zachodzi liniowa zależność.

Moduł (wartość bezwzględna) współczynnika korelacji równy jest jedności, gdy pomiędzy cechami zachodzi związek funkcyjny.

Im wartość modułu współczynnika korelacji jest bardziej zbliżona do jedności, tym zależność między badanymi cechami jest silniejsza.

Znak współczynnika charakteryzuje kierunek zależności.

Jeżeli współczynnik korelacji jest dodatni, wówczas wzrost wartości jednej cechy powoduje wzrost wartości drugiej cechy (ewentualnie spadek wartości jednej cechy powoduje spadek wartości drugiej cechy).

W przypadku ujemnej wartości współczynnika korelacji możemy stwierdzić, iż wzrost wartości jednej cechy powoduje spadek wartości drugiej cechy.

Inna postać współczynnika korelacji Pearsona

r XY

i n

  1 (

x i

x

)(

y i

y

)

i n

  1 (

x i

x

) 2 

i n

  1 (

y i

y

) 2   W analizach statystycznych przyjmuje się, że jeżeli współczynnik korelacji wynosi: • mniej niż 0,2 - brak związku liniowego między badanymi cechami; • 0,2 – 0,4 → zależność liniowa wyraźna, lecz niska; • 0,4 – 0,7 → zależność umiarkowana; • 0,7 – 0,9 → zależność znacząca; • powyżej 0,9 → zależność bardzo silna.

Kwadrat współczynnika korelacji nazywamy współczynnikiem determinacji R 2 .

Współczynnik korelacji Pearsona

dla danych pogrupowanych obliczamy zgodnie ze wzorem:

r xy

r yx

 

i j

(

x i

x

)(

y j

S

(

x

)

S

(

y

) 

n y

) 

n ij

 gdzie: S(x) i S(y) są odchyleniami standardowymi rozkładów brzegowych

   Każdy związek korelacyjny jest ze swej istoty związkiem stochastycznym (ale nie odwrotnie!).

Czy poznając zależność liniową miedzy cechami, istnieje metoda umożliwiająca w pewnym przybliżeniu przewidzieć wartość jednej cechy na podstawie znajomości drugiej?

(gdyby badane cechy x i y były powiązane ścisłym związkiem funkcyjnym typu y = f ( x ), to znając wartość jednej z cech np. x , można by w sposób jednoznaczny przewidzieć wartość drugiej cechy y).

Jeśli tak, to jak dobre jest to przybliżenie?

   Zagadnienie opisu zależności między cechami x i y (zmiennymi X i Y) jest przedmiotem

analizy regresji

.

Zależność między cechami (zmiennymi) przedstawiona jest za pomocą

funkcji regresji

.

Funkcja regresji przyjmuje postać

modelu regresji

.

Pojęcie funkcji regresji

Przykład

8.

Podstawą analizy zależności będzie zbiór danych w postaci n uporządkowanych par liczb: (x 1 ,y 1 ), (x 2 ,y 2 ), …(x n ,y n ) reprezentujących liczbę osób i spożycie mleka w zbiorze n gospodarstw.

Wszystkie obserwacje na dwóch zmiennych odwzorowane w układzie współrzędnych w postaci n punktów tworzą wykres rozrzutu punktów empirycznych (zob. wcześniej prezentowane rys.1i 2).

Rysunek 4. Wykres rozrzutu punktów empirycznych charakteryzujących wielkość gospodarstw i spożycie mleka

35 30 25 20 15 10 5 0 0 1 2 3 4 liczba osób 5 6 7 8

    Gospodarstwa o danej liczbie osób spożywają różne ilości mleka (różne są ich dochody, upodobania, wiek itp..).

Każdej ustalonej wartości x odpowiada na ogół nie jedna wartość zmiennej Y, lecz zbiór różnych wartości tworzących pewien rozkład.

Rozkład Y dla ustalonej wartości x nazywamy

warunkowym rozkładem Y.

Rozkłady warunkowe spożycia (Y) są reprezentowane na wykresie przez ułożone pionowo nad każdą wartością x punkty.

    Na rys.5 widoczne jest np., że przy wzroście wartości x rozkłady warunkowe „przemieszczają” się w górę ku wyższym wartościom Y.

Najłatwiej zaobserwować różnicę miedzy rozkładami warunkowymi zmiennej Y obliczając dla każdego z nich średnią.

Średnie w warunkowych rozkładach spożycia zaznaczono czerwonymi kółkami.

Zbiór punktów reprezentujących te średnie określa regresję Y względem X (regresję spożycia mleka względem liczby osób w gospodarstwie).

Rysunek 5. Wykres rozrzutu punktów empirycznych charakteryzujących wielkość gospodarstw i spożycie mleka

15 10 5 0 0 35 30 25 20 1 2 3 4 liczba osób 5 6 7 8

   

E

( Funkcja regresji to analityczny obraz przyporządkowania średnich wartości zmiennej Y (zmiennej zależnej) konkretnym wartościom zmiennej X (zmiennej niezależnej):

Y X

x i

) 

f

(

x i

)

i

 1 , 2 ,...,

k

Funkcja f (x i ) średniej warunkowej zmiennej Y jest funkcją regresji I rodzaju

(odnosi się do całej populacji).

Analityczna postać funkcji f (x i ) jest zwykle nieznana.

Na podstawie zaobserwowanych wyników w próbce możemy przedstawić graficznie w układzie współrzędnych jedynie

empiryczną linię regresji

zmiennej Y względem zmiennej X.

Rysunek 6. Empiryczna linia regresji

35 30 25 20 15 10 5 0 0 1 2 3 4 liczba osób 5 6 7 8

Empiryczna linia regresji

współrzędnych: zmiennej Y względem zmiennej X jest linią łamaną powstałą przez połączenie punktów o

(

x i

,

y x i

)

i

1 , 2 ,...,

k

czyli: (cecha niezależna, odpowiadająca jej średnia warunkowa)  Wykres empirycznej linii regresji pozwala postawić hipotezę na temat typu funkcji matematycznej Rysunek 7. Empiryczna linia regresji zmiennej Y względem X

35 30 25 20 15 10 5 0 0 1 2 3 4 liczba osób 5 6 7 8

● Wykres rozrzutu punktów empirycznych sporządzony na podstawie obserwacji na zmiennych X i Y sugeruje, że regresja zmiennej Y względem Y jest liniowa.

● Inaczej - zakładamy, że średnie w warunkowych rozkładach zmiennej Y są liniową funkcją zmiennej X, czyli funkcją o postaci:

Y

ˆ   0   1

X

  (

postać liniowa funkcji regresji I rodzaju

).

● Składnik losowy w równaniach regresji pełni rolę błędu przypadkowego, zakłócającego funkcyjny związek między wartościami zmiennej objaśnianej a wartościami zmiennej objaśniającej.

●Składnik losowy jest w istocie pewną zmienna losową o odpowiednim rozkładzie prawdopodobieństwa

30 25 20 15 10 5

Rysunek 8 i 9. Wykresy rozrzutu punktów empirycznych sugerujący liniową regresję Y względem X

1 2 3 4 liczba osób 5 6 7 30 25 20 15 10 5 0 1 2

y

ˆ   0   1

X

 

3 4 liczba osób 5 6 7 8

Y

Rysunek 10. Wykres rozrzutu punktów empirycznych oraz prosta regresji I rodzaju   0   1

x

 

y i

}

y i

(Xi; Yi)

x i

X

   Szukamy takiej prostej, by najlepiej „pasowała” do punktów na wykresie.

Prosta określona będzie za pomocą parametrów: współczynnika kierunkowego 1 oraz wyrazu wolnego 0 .

Stopień tego dopasowania możemy oceniać na podstawie wielkości odchyleń punktów reprezentujących obserwowane wartości zmiennej Y od prostej.

   Do poszukiwania najlepiej dopasowanej prostej stosuje się kryterium minimalizacji sumy kwadratów odchyleń.

Metoda wyznaczania parametrów prostej oparta na tym kryterium nosi nazwę

metody najmniejszych kwadratów

(MNK).

Stosując MNK wyznacza się na podstawie danych (x i , y i ), i=1,2,…, n, parametry 0 i 1 prostej tak, by suma kwadratów odchyleń y i od 0 + 1 x i była najmniejsza:

Y Y

Rysunek 10 i 11. Ilustracja metody najmniejszych kwadratów

(Xi; Yi) X

  0   1

x

    0   1

x

 

(Xi; Yi)

S

i

n

 1 (

y i

y

ˆ ) 2 

i

n

 1 (

y i

  0   1

x i

) 2  min

X

Wyznaczanie parametrów prostej regresji  Wyrażenie S przyjmuje najmniejszą wartość dla:

a

1 

i n

  1

x i y i i n

  1

x i

2 

n

x

 

n

x

2

y

i n

  1 (

x i

i

n

 1 (

x i x

)(

y i

x

) 2 

y

)

a

0 

y

a

1

x

Oszacowaniem funkcji regresji Y względem X w populacji generalnej jest funkcja regresji y względem x w próbie losowej (zwana aproksymantą) mająca następującą postać:

30 25 20 15 10 5 0 1 2

 12 , 107

3 4 liczba osób 5

 2 , 025

X

6 7 8