Analiza współzależności cech statystycznych Dr hab. Dariusz Piwczyński Hasła z domu i mediów  Ucz się a wyrosną z Ciebie ludzie Pij mleko będziesz wielki Każdy wypalony.

Download Report

Transcript Analiza współzależności cech statystycznych Dr hab. Dariusz Piwczyński Hasła z domu i mediów  Ucz się a wyrosną z Ciebie ludzie Pij mleko będziesz wielki Każdy wypalony.

Analiza współzależności
cech statystycznych
Dr hab. Dariusz Piwczyński
1
Hasła z domu i mediów

Ucz się a wyrosną z Ciebie ludzie
Pij mleko będziesz wielki
Każdy wypalony papieros skraca Twoje życie
o 5 minut
2
Wzrost i stopy
3
Graficzna ocena zależności
Możliwe sytuacje:
 Zależności dodatnie
 Zależności ujemne
 Brak zależności
4
Szereg dwucechowy, winniczek
(21, 18)
6
7
8
9
Przemieszczamy wskaźnik
myszy na jeden z punktów, a
następnie z pop-menu
wybieramy Dodaj linię trendu
Zaznaczamy wskazane
pola!
10
11
Określanie zależności między cechami za
pomocą liczb
 Analiza korelacji
 Analiza regresji
12
Korelacje
to inaczej zależność między zmiennymi.
 Współczynnik korelacji – jest
podstawową, najczęściej stosowaną miarą
zależności. Określa on ogólną zależność
między badanymi cechami.
 Najczęściej obliczaną miarą zależności jest
współczynnik korelacji prostoliniowej
(Pearsona)

13
Współczynnik korelacji
rxy jest liczbą niemianowaną, przyjmującą
wartości od -1 do +1.
rxy zbliżony do „-1” lub „1” – całkowita
zależność cech X i Y
rxy zbliżony do „0” – brak jakiejkolwiek
zależności
Skala Guillforda
14
Współczynnik korelacji
Znak korelacji informuje nas
o kierunku zależności a wartość
bezwzględna o sile zależności
 rxy = ryx (zależność symetryczna)

rxy 
S xy
S S
2
x
2
y
lub
rxy 
S xy
Sx  S y
15
Kowariancja między cechami (Sxy)
Jest to średnia z iloczynów odchyłek każdej
pary punktu danych. Należy używać
kowariancji w celu określenia zależności
pomiędzy dwoma zbiorami danych.
Na przykład można sprawdzić, czy większe
przychody związane są z wyższym
poziomem wykształcenia.
S xy 
x y

 xy 
n 1
n
16
Badanie istotności współczynnika
korelacji
Hipoteza zerowa w przypadku badania
zależności między cechami posiada
następującą postać:
 H0:  = 0, zaś alternatywna H1:   0
 (ro)

Istotność korelacji badana jest po to, aby przekonać się czy
zależność jaką stwierdzono w próbie będzie miała miejsce również
w populacji, z której próba ta pochodzi.
17
Testy istotności dla współczynnika korelacji,
n < 122
t  rxy 
n2
1  rxy2
Jeżeli |t| > t; n-2 to mamy podstawę do odrzucenia H0.
t; n-2 odczytujemy z tabeli testu t dla poziomu istotności 0,05 i 0,01
oraz dla liczby stopni swobody równej n – 2.
Testy istotności dla współczynnika korelacji,
duże próby
z  rxy 
n
1  rxy2
Jeżeli |z| > u to mamy podstawę do odrzucenia H0.
Rozwiązanie
Długość (X) Szerokość
(Y)
suma
759,50
637,50
suma kwadratów
25685,75 18092,25
wariancja
27,53
19,20
XY
21533.00
759,50  637,5
21533 
23
S xy 
 21,893
23  1
rxy 
21,893
 0,952
27,53 19,20
20
Weryfikacja hipotezy zerowej
t  0,952 
t0,05
t0,01
23  2
1  0,952
2
 14,588
2,074
2,819
21
Współczynnik korelacji Spearmana (lokat)

Ten typ korelacji wykorzystujemy do
korelowania cech niemierzalnych oraz
mierzalnych, ale gdy interesuje nas
lokata w próbie. Z tego też względu,
muszą istnieć dwa kryteria wg, których
możemy uporządkować elementy w
próbie. Współczynnik korelacji rang rs
Spearmana waha się w przedziale
liczbowym od –1 do +1.
22
Współczynnik korelacji rang
n
rs  1 
6  d2
i
i 1
2
n(n  1)
di – różnica pomiędzy lokatami uzyskanymi
przez obiekt w dwóch ocenach
 n – liczba elementów w próbie

23
Zadanie: (Żuk, Biometria stosowana)

Na wystawie zootechnicznej dwóch
sędziów oceniało niezależnie od siebie,
pokrój zwierząt i na podstawie tych ocen
każdy z sędziów uszeregował stawkę 10
osobników od najlepszego do
najgorszego. Sprawdź czy pomiędzy
ocenami sędziów istnieje zależność
między tymi ocenami?
24
Dane

ID
1
 2
 3
 4
 5
 6
 7
 8
 9
 10

sędzia 1 sędzia 2
1
4
2
7
8
3
10
6
9
5
4
1
3
10
2
6
5
8
7
9
25
rs = 0,261?
Istnieje pewna zależność między
ocenami sędziów, lecz nie wiadomo, czy
taka zależność wystąpi w populacji (czy
przy ocenie dalszych zwierząt przez tych
sędziów będzie występować taka
zgodność jak w pierwszej ocenie?).
 Przeprowadzamy wnioskowanie
statystyczne, weryfikujemy hipotezę
o niezależności uporządkowań.

26
Istotność
Wartości krytyczne odczytujemy dla
n=10 i =0,05 i 0,01 (ale tylko do 10
obiektów).
 Wartość krytyczna równa się 0,64 zatem
nie można odrzucić hipotezy zerowej, iż
obydwa uporządkowania są niezależne.

27
Regresja
 Regresja prostoliniowa – ocena
wartości jednej cechy na podstawie
drugiej.
 Prognozowanie (predykcja) wartości
jednej cechy Y na podstawie wartości
drugiej cechy X.
28
Współczynnik regresji
 Informuje o ile zmieni się wartość
jednej zmiennej, jeżeli wartość
drugiej zmieni się o jednostkę.
 Punkty równania szacuje się metodą
najmniejszych kwadratów (MNK).
29
MNK
30
Równanie prostej regresji
 Jeżeli założymy, że y jest funkcją x, to
równanie prostej regresji y względem x
ma następującą postać:
y  y byx (x x)
a  y b yx  x
b yx 
Sxy 
Sxy
2
x
S
x  y

 xy 
n1
n
Równanie prostej regresji
 Jeżeli założymy, że x jest funkcją y, to
równanie prostej regresji x względem y
ma następującą postać:
b xy 
x  x bxy (y y)
a  x bxy  y
S xy 
Sxy
2
y
S
x y

 xy 
n 1
n
Współczynnik regresji
b yx  rxy 
Sy
Sx
Sx
b xy  rxy 
Sy
 Y - zmienna zależna,
X - zmienna niezależna
 X - zmienna zależna,
Y - zmienna niezależna
bxy  byx
33
Graficzna interpretacja
b = tg()

a
34
Graficzna interpretacja
y = a + byx  x
 b - współczynnik regresji – tangens
kąta tworzonego przez prostą regresji
i oś OX
(skośność - slope)
 a - odległość punktu przecięcia osi OY
przez prostą (wyraz wolny - constant,
intercept)
35
Zastosowanie równia regresji
 Jeżeli (b) i (a) są znane, to
równanie regresji można użyć do
przewidywania wartości jednej cechy
(Y) na podstawie zmiennej wartości
drugiej cechy (X) dla dowolnego
elementu populacji.
 Estymatorami parametrów  i  są
wymiary uzyskane z prób: b i a.
36
Analiza regresji w SAS
Pierw.bł.śr.-kw. (Root MSE) –
odchylenie standardowe błędu,
pierwiastek kwadratowy MSE
(Średni kwadrat odchyleń dla
zmienności spowodowanej
modelem). Służy do określania
jakości modelu, im niższy Root
MSE, tym lepszy model.
Wsp.Zmienności (CoeffVar) =
(RootMSE)/średnia arytmetyczna
zmiennej Y*100;
Model - zmienność zmiennej zależnej wyjaśniona poprzez
model regresji.
Błąd - zmienność zmiennej zależnej niewyjaśniona
równaniem regresji.
Ocena parametru – oszacowane
parametry,
Wartość t – statystyka t,
t = parameter / błąd standardowy
Miara jakości modelu regresji
 R2 (współczynnik determinacji) –
informacja o tym, w jakim stopniu
równanie regresji wyjaśnia zmienność
zmiennej zależnej. Przyjmuje wartość
od 0 do 1 (0-100%).
2
y

p
2
R 
2
y
yp – odchylenie wartości przewidywanej równaniem od wartości średniej
y – odchylenie rzeczywistej wartości zmiennej zależnej od wartości średniej
38
Wykres rozrzutu
Współczynnik determinacji
40
Modele regresji
 Związki między cechami można
rozpatrywać za pomocą 2 różnych
modeli.
Modele regresji model I
 Jesteśmy w stanie wyodrębnić zmienną
niezależną X i zmienną zależną Y. Zmienna
niezależna X nie jest zmienną losową,
zależy od eksperymentatora, np.
temperatura, liczba osobników. Nie posiada
ona rozkładu zgodnego z normalnym.
Z kolei zmienna zależna Y jest zmienną
losową, a jej rozkład jest zgodny z
normalnym. Model I charakteryzuje
zależność jednokierunkowa, tj. Y od X.
 y = a + bx
42
Modele regresji – model II
 Obie zmienne mają rozkład zgodny z normalnym,
traktowane są równorzędnie. Kłopotliwe jest
wyróżnienie zmiennej zależnej i niezależnej, gdyż obie
nie znajdują się pod bezpośrednim wpływem
eksperymentatora. Zamiast prostej regresji,
obliczamy tzw. oś główną zredukowaną. Oś główna
zredukowana to linia prosta, której suma powierzchni
wszystkich trójkątów (punkt opisujący parę pomiarów
połączony równoległymi do osi x i y odcinkami
tworzącymi trójkąty prostokątne) jest najmniejsza. Jej
postać jest następująca: y = a + x ( – ni)
43
Istotność współczynnika regresji
Model I
 H0: =0, zaś alternatywna H1: 0
Model II
 H0: =0, zaś alternatywna H1: 0
REGRESJA WIELOKROTNA
 Y= b0 + b1X1 + b2X2 + b3X3.... + ei,
gdzie:
 b0– wyraz wolny;
 b1, b2, b3 – cząstkowe współczynniki
regresji wielokrotnej;
 e – błąd losowy (reszta);
 b1 – przyrost wartości zmiennej Y przy
zmianie wartości zmiennej niezależnej X1 o
jednostkę, niezależnie od pozostałych
zmiennych niezależnych.
45
Kilka zaawansowanych
statystycznie problemów
dotyczących analizy regresji
Analiza wariancji a analiza
regresji
47
Analiza wariancji a analiza regresji
y  Y-Y
y – odchylenie wartości zmiennej
zależnej od wartości średniej dla tej
zmiennej
d  Y  Yp
d – odchylenie wartości zmiennej
zależnej od wartości przewidywanej
równaniem regresji
yp  Yp - Y
yp – odchylenie wartości przewidywanej
od wartości średniej, jest to
odchylenie wyjaśnione równaniem
regresji
Odchylenie pomiaru od średniej
można rozbić na dwie części:
y  yp  d
Sumy kwadratów powyższych
odchyleń pozostają względem siebie
w następującej relacji:
y2 = y2p + d2
Istotność modelu regresji
Odchylenie przewidywane, czyli yp wyjaśnia
współczynnik regresji b, czyli yp= bx.
Można więcej przyjąć, że kwadrat tegoż
odchylenia ma następującą postać:
 y   b x  b   x
2
p
2 2
2
 xy   x
 x 
2
2

2 2
wzór na współczynnik korelacji:
xy


x
2
2
2
rxy 
 xy
x2  y2
Analizy wariancji cd.
MSS   y  r   y
2
p
2
xy
2


ESS   yd2   y 2   y 2p   y 2  rxy2   y 2  1 rxy2   y 2
TSS   y
2
Sum of Squares – Sumy kwadratów odchyleń
 TSS – suma kwadratów odchyleń (Zmienność ogólna – Razem
skorygowane)
 MSS – suma kwadratów odchyleń, zmienność międzygrupowa
(Model)
 ESS – suma kwadratów odchyleń, zmienność wewnątrzgrupowa
(Błąd)
50
 Ogólna suma kwadratów = wyjaśniona +
niewyjaśniona,
tj. TSS = MSS + ESS
51
Wartość F – to stosunek zmienności zmiennej zależnej wyjaśnionej modelem do zmienności, która nie
została wyjaśniona modelem regresji.
Automatyczne metody doboru zmiennych
do modelu (Regresja hierarchiczna)
Metody selekcji krokowej:
 FORWARD (krokowa postępująca)
Jest to metoda, która polega na stopniowym
dołączaniu do modelu kolejnych zmiennych.
W pierwszym kroku tworzony jest model z jedną
zmienną niezależną, zmienną, którą charakteryzuje
najniższy poziom istotności z nią związany.
 W następnym kroku tworzony jest na tej samej
zasadzie model z dwiema zmiennymi niezależnymi
itd.
 Postępowanie trwa tak długo, aż nie zostanie
znaleziona już zmienna, dla której poziom istotności
jest mniejszy aniżeli 0.50, w takiej też sytuacji R2 jest
najwyższe.
52
Selekcja postępująca FORWARD
53
Metody selekcji
 BACKWARD (krokowa wsteczna)
Punktem wyjścia jest model z wszystkim
deklarowanymi zmiennymi. Kolejne kroki tejże metody
polegają na usuwaniu pojedynczo zmiennych, które
najmniej wnoszą do modelu, tzn. p jest największe.
Analiza trwa do momentu, gdy pozostałe w modelu
zmienne charakteryzują się p poniżej 0.10.
 STEPWISE (krokowa)
Metoda będąca kombinacją dwóch poprzednich
metod. Domyślny poziom istotności, przy którym
zmienna jest wprowadzana i usuwana z modelu
wynosi 0.15.
54
Miary jakości (dobroci) modelu
 R-Square, R2 (współczynnik determinacji)
 Adj R-sq – poprawiony współczynnik
 Statystyka Cp
 SBC – Schwarz’s Bayesian Criterion,
 AIC – Akaike’s Information Criterion.
55
R-Square (współczynnik determinacji)
 Informacja o tym, w jakim stopniu równanie
regresji wyjaśnia zmienność zmiennej zależnej.
To jest inaczej kwadrat współczynnika korelacji.
Przyjmuje wartość od 0 do 1 (0-100%).
56
Adj R-sq
 Poprawiony współczynnik determinacji, zawiera
poprawkę na liczbę zmiennych niezależnych
w równaniu regresji.
57
Statystyka Cp, prosty wskaźnik
MSEp  MSEfull n  p
Cp  p 
MSE full
 MSEp – średni kwadrat odchyleń dla modelu z liczbą
zmiennych niezależnych równą p (włącznie z wyrazem
wolnym)
 MSEfull – średni kwadrat odchyleń dla modelu z wszystkimi
wskazanymi zmiennymi (włącznie z wyrazem wolnym)
 n – liczba obserwacji
 p – liczba parametrów, tj. liczba cech + 1.
58
Cp
 Biorąc pod uwagę liczbę zmiennych oraz statystykę
Cp, należy stwierdzić, że te modele są właściwe, dla
których Cp jest mniejsze lub równe p+1, tzn. Cpp+1.
 Spośród porównywanych modeli, ten jest lepszy, dla
którego Cp jest najniższe.
59
Kryteria oceny modelu AIC i SBC
 AIC (Akaike’s Information Criterion)
AIC = n  ln(ESS/n)+2p
 SBC (Schwarz’s Bayesian Criterion)
SBC = n  ln(ESS/n)+(p)  ln(n)
 Spośród rozpatrywanych modeli ten jest
najlepszy, w przypadku którego obie statystyki
przyjmują najniższą wartość.
60
Wybór na podstawie R2
61
Sugerowanie modele
62
Ocena założeń regresji
Włączenie do modelu regresyjnego zmiennej
wymaga spełnienia wielu założeń:
 Zmienne niezależne winny być nielosowe.
 Model winien być linowy względem parametrów.
 Liczba obserwacji musi być większa od liczby
parametrów.
 Niezmiernie ważna jest między innymi ocena
reszt. Resztę należy rozumieć jako różnicę
między rzeczywistą a oszacowaną wartością
zmiennej zależnej:
ˆ
yi  Yi  Yi
63
Badanie reszt
 Wartość oczekiwana reszt, dla każdej
oszacowanej wartości wynosiła 0.
 Reszty powinny posiadać rozkład normalny w
każdym punkcie szacowanej wartości zmiennej
zależnej.
 Reszty posiadają podobną wariancję w każdym
punkcie szacowanej zmiennej
(homoscedastyczność)
 Są niezależne (nieskorelowane).
64
Współliniowość
 Oprócz oceny reszt konieczne jest prześledzenie
współliniowości zmiennych (collinearity). Do
wskaźników oceniających współliniowość należy,
m.in. VIF, CI i VP.
 Eliminacja współliniowości polega na usunięciu z
modelu cech, które są liniową kombinacją innych
zmiennych niezależnych.
65
COLLIN
 Użycie opcji COLLIN w modelu wariancji pozwala
obliczyć, tzw. Condition index (CI) oraz Variance
proportions (VP).
66
VIF (Variance Inflation Factor)
 zwany jest współczynnikiem podbicia wariancji.
VIF pozwala wychwycić wzrost wariancji ze
względu na współliniowość cechy. VIF > 10
wskazuje na obecną współliniowość.
67
Condition index (CI) oraz Variance
proportions (VP)
Jak interpretować CI?
 CI pomiędzy 10 a 30 wskazuje na słabą
współliniowość
 CI między 30 a 100 dowodzi silniejszej
współliniowości.
 CI > 100 świadczy o bardzo silnej współliniowości.
 VP > 0.5 świadczy również o istnieniu
współliniowości.
68
EG
69
Wyniki
70
Współliniowość, SAS
proc reg data=owce.dysekcja;
model prmoszac=KULMIE LATAMIE COMBER
POLEDWI tlzeb POWOKA wydrzzim prmudo
prmLMZ /vif collin;run;quit;