Regresja logistyczna

Transcript Regresja logistyczna

Metody statystyczne II – II poziom ( S.S & SNS)
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak; Ćwiczenia: Wioletta Grzenda, Urszula Gach; Dorota Stala, Iga Sikorska
Regresja logistyczna
- model binarny cz. I
1
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
1. Model regresji logistycznej
2. Metoda estymacji modelu
3. Kodowanie zmiennych jakościowych
4. Przykład i interpretacja wyników
5. Testowanie istotności parametrów
2
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Modelowanie – MODEL BINARNEJ REGRESJI LOGISTYCZNEJ
Interesuje nas, czy jakieś zjawisko wystąpi czy nie wystąpi w przyszłości i co
będzie miało wpływ na prawdopodobieństwo wystąpienia zdarzenia.
Ponadto, interesuje nas też identyfikacja czynników, od których zależy czy
zdarzenie wystąpi, kierunku oraz siły wpływu determinant, co umożliwić ma
prognozowanie interesujących nas zjawisk.
Przykłady problemów:
1.
Dlaczego pewni ludzie chorują na daną chorobę, a inni nie?
2.
Dlaczego jeden konsument kupuje dany produkt, a inny nie?
3
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Zapis modelu RL
Zmienną zależną jest zmienna Y, która przyjmuje tylko dwie wartości
związane z wystąpieniem lub nie wystąpieniem pewnego zdarzenia losowego
A (kodowanie binarne, np. zero-jedynkowe).
•
Y = 1, gdy zaszło zdarzenie A
•
Y = 0, gdy zdarzenie A nie zaszło
Y jest zmienną losową o rozkładzie zerojedynkowym.
4
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Analizę zmiennej objaśnianej o charakterze binarnym umożliwia model binarnej regresji
logistycznej.
W modelu
regresji
logistycznej
estymujemy
bezpośrednio
prawdopodobieństwo wystąpienia zdarzenia A tj. prawdopodobieństwo
P( A)  P(Y  1)  
gdzie µ jest wartością oczekiwaną zmiennej Y. tzn. µ = E(Y). Przyjmujemy, że to
prawdopodobieństwo jest funkcją zależną od zmiennych i zależność ma postać:
P (Y  1) =
1
1 e
   0  1 X 1 ...  k X k 
Oznaczając kombinację liniową zmiennych
objaśniających przez Z możemy zapisać:
oraz
1
P(Y  1) =
1  e Z
Z =  0  1 X 1  ...   k X k
5
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Funkcja logistyczna
Wykres funkcji logistycznej w przedziale -4 < z < 4.
1.0
0.9
0.8
P(A)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
-4
-3
-2
-1
0
1
2
3
z
Zależność P(A)
nieliniowa.
od zmiennych
X1,...,Xk jest
Parametry równania logistycznego szacuje się
metodą największej wiarygodności (MNW,
maksimum likelihood - ML). Jest to metoda
iteracyjna.
4
Kierunek zmian P w zależności
od zmiennej zależy od znaku
współczynnika
występującego
przy tej zmiennej. Jeżeli βi > 0, to
wraz ze wzrostem Xi wartość
prawdopodobieństwa P wzrasta.
Mówimy wtedy, że czynnik
opisywany przez zmienną Xi
działa stymulująco na zdarzenie
A. Jeżeli βi < 0, to wzrost
powoduje spadek wartości P.
Mówimy wtedy, że czynnik
opisywany przez zmienną działa
ograniczająco (limitująco) na
zdarzenie A.
6
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Metoda estymacji
Zaobserwowane w próbie wartości y1,…,yn są realizacją n-wymiarowej zmiennej losowej
(Y1,…,Yn). Każda ze zmiennych Yi (i=1,...n) ma rozkład zerojedynkowy o wartości
średniej μi = P(Yi = 1), gdzie
P(Yi  1) =
1
1  e ( 0 xi 0  1xi 1 ..  k xik )
Jeżeli wartości zmiennych objaśniających są ustalone, to rozkład zmiennej losowej
(Y1,…,Yn) zależy jedynie od parametrów β1,… βk, . Ponieważ zmienne losowe Y1,…,Yn są
niezależne, prawdopodobieństwo otrzymania zaobserwowanych wartości y1,…,yn w próbie
wynosi: PY  y , Y  y ,...,Y  y   PY  y   PY  y   ...  PY  y 
1
1
2
2
n
n
1
n
1
1
2
1
n
  1   
i 1
yi
i
1 yi
i
Dla ustalonej próby powyższe prawdopodobieństwo jest funkcją parametrów β0,... βk zwaną
funkcją wiarogodności próby. W przypadku stosowania wag dla obserwacji funkcja
n
wi 1 y i
wiarogodności ma postać:
wi yi
L 0 , 1 ,..., k ; y1 ,...yn    i
(i-ta obserwacja jest brana pod uwagę wi razy)
i 1
1  i 
7
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Metoda estymacji
Metoda największej wiarogodności (MNW) polega na szukaniu takich wartości nieznanych
parametrów, dla których funkcja L przyjmuje wartość maksymalną. Bierze się to z
założenia, że w wyniku wylosowania próby powinno zrealizować się zdarzenie o
największym prawdopodobieństwie. Wartości estymatorów dla β0,... βk otrzymane metodą
największej wiarogodności oznaczamy b0,...,bk.
Ponieważ funkcja L osiąga maksimum w tych samych punktach, co jej logarytm (tj. funkcja
lnL), w praktyce wyznacza się maksimum funkcji lnL. Maksimum to znajduje się metodami
rachunku różniczkowego, rozwiązując układ równań
 ln L
j=0,...,k
0
 j
W naszym przypadku
n
ln L   wi yi ln i   wi 1  yi ln1   i 
i 1
n
Układ k+1 równań
w y
i 1
i
i
  i xij  0
j=0,...,k
n
 ln L
  wi  yi  i xij
j
i 1
jest układem równań nieliniowych.
Można go rozwiązać stosując algorytm Newtona-Raphsona. Jest to algorytm iteracyjny.
8
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Metoda estymacji
Po wyznaczeniu wartości estymatorów b0,...,bk .należy obliczyć ich
średnie błędy szacunku.
Średnie błędy szacunku estymatorów wyznacza się na podstawie
macierzy kowariancji, której estymatorem jest macierz
1
   2 L 
1
  X T W VX
C   E 
   r  s 
r,s=0,...,k
9
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Przykład modelu logistycznego
W modelu zmienną binarną będzie nadwaga (zmienna zero-jedynkowa; 1ma nadwagę 0-nie ma nadwagi). Wartość zmiennej jest określana na
podstawie Body Mass Indem BMI, który obliczany jest jako iloraz
wzrostu i masy ciała.
Im mniejsza wartość BMI, tym ryzyko wystąpienia chorób jest mniejsze.
Ustalono krytyczną wartość tego indeksu (25). Wartości powyżej 25 są
klasyfikowane jako nadwaga.
Do objaśnienia zmiennej zależnej: nadwaga wybrano 9 następujących
zmiennych niezależnych: dochod, wydatki, syt_mat, komputer, plec
stan_cywilny, wiek, wyd_zyw, fastfood.
10
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Przykład modelu logistycznego
Nazwa zmiennej
Opis zmiennej
Wartości/kody
Nadwaga
Zmienna binarna informująca o nadwadze
1=nadwaga, 0=brak nadwagi
Dochod
Dochod respondenta
Od -3 935 do 19 000 dolarów
Wydatki
Wydatki miesięczne respondenta
Od 184 do 16 456 dolarów
K_miej
Kategoria miejsca zamieszkania
1=mała wieś; 2=wieś, 3=małe miasto, 4=średnie miasto, 5=duże
miasto, 6=metropolia
Syt_mat
Ocena sytuacji materialnej (subiektywna)
1=bardzo dobra, 2=raczej dobra,3=przeciętna, 4=raczej zła, 5=zła
Stan_cywilny
Stan cywilny klienta
1=kawaler, panna
2=żonaty, mężatka
3=wdowiec, wdowa
4=rozwiedziony(a) separowany(a)
Komputer
Zmienna binarna informująca czy osoba
posiada komputer (wykonuje pracę
siedzącą)
1 = posiada komputer, 0 – nie posiada komputera
Wiek
Wiek (kalendarzowy)
Plec
Zmienna binarna
respondenta
Wyd_zyw
Wysokość wydatków przeznaczanych na
produkty żywnościowe
Fastfood
Zmienna jakościowa opisująca jak często
dany respondent je żywność z fastfoodów
określająca
płeć
1= mężczyzna, 2=kobieta
1= często (przynajmniej raz w tygodniu, 0 = rzadko lub prawie 11
nigdy (mniej niż 1 raz w tygodniu)
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Przykład modelu logistycznego
Wśród zmiennych objaśniających mamy dwa rodzaje zmiennych:
a) zmienne ciągłe: dochod, wydatki, wiek, lata, wyd_zyw
Mogą przyjmować dowolne wartości w ustalonym przedziale zmienności, przy czym
wartości obserwowane w próbie są skwantowane jedynie ze względu na dokładność
pomiaru.
b) zmienne wskaźnikowe (dummy variables): plec, k_miej, syt_mat, stan cywilny, fastfood
komputer
Mogą przyjmować wartości 0 lub 1 (lub więcej poziomów dychotomicznych). Mówią one
o tym, czy jednostka posiada określoną cechę, czy jej nie posiada.
12
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Zbiór danych
13
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Tabela BMI na sex
BMI
sex
Tabela BMI na fastfoody
Raze
m
kobieta
mężczyzn
a
brak na
237
24.89
242
25.42
479
50.32
nadwaga
159
16.70
314
32.98
473
49.68
Razem
396
41.60
556
58.40
952
100.00
BMI
fastfoody
często
Tabela BMI na komputery
Razem
BMI
komputery
często
prawie
Razem
rzadko
brak na
71
7.46
408
42.86
479
50.32
brak na
101
10.61
378
39.71
479
50.32
nadwaga
458
48.11
15
1.58
473
49.68
nadwaga
199
20.90
274
28.78
473
49.68
Razem
529
55.57
423
44.43
952
100.00
Razem
300
31.51
652
68.49
952
100.00
14
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Wstępna analiza rozkładów
Tabela BMI na zamieszk
BMI
zamieszk
Razem
b
małe
bardzo
duże
duże
małe
wieś
średni
e
brak na
65
6.83
62
6.51
54
5.67
103
10.82
150
15.76
45
4.73
479
50.32
nadwaga
58
6.09
70
7.35
49
5.15
77
8.09
167
17.54
52
5.46
473
49.68
Razem
123
12.92
132
13.87
103
10.82
180
18.91
317
33.30
97
10.19
952
100.00
Tabela BMI na syt_materialna
BMI
syt_materialna
Razem
bardzo
dobra
przeciętna
raczej
dobra
raczej
zła
zła
brak na
6
0.63
242
25.42
44
4.62
117
12.29
70
7.35
479
50.32
nadwaga
4
0.42
280
29.41
69
7.25
86
9.03
34
3.57
473
49.68
Razem
10
1.05
522
54.83
113
11.87
203
21.32
104
10.92
952
100.00
15
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
16
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Estymacja – MNW (“maximum likelihood estimation”)
Procedura iteracyjna znaleźć ma najlepszy zbiór parametrów (jedyny).
L( , X )   Li ( , X i )
i
17
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Metoda estymacji
Nieznane parametry β1,… βk, szacujemy na podstawie próby losowej. Niech y1,…,yn będą
zaobserwowanymi wartościami zmiennej zależnej w n-elementowej próbie losowej i niech
x1j,…,xnj będą wartościami j-tej zmiennej objaśniającej (j=1,...,k). Wynik próby możemy
zapisać w postaci macierzowej jako:
 x10 x11 ... x1k 
 y1 

 gdzie xi0=1 (i=1,...,n)
Y  . 
 
 y n 
X
.

 x n 0
. ... .

x n1 ... x nk 
Próba powinna być reprezentatywna dla populacji, z której została wylosowana. Jeżeli
podejrzewamy, że tak nie jest (np. z powodu odmowy przez niektóre osoby udzielenia
odpowiedzi na pytania ankiety), to stosuje się wagi mające na celu zapewnienie zgodności
próby i populacji, Różnym obserwacjom nadajemy wtedy różne znaczenie przypisując im
wagi wi  0 (i=1,...,n). Pożądane jest, aby
n
w
i 1
i
n
tzn. by suma wag była równa liczbie obserwacji.
Oznaczmy wektor wag
 w1 
W . 
 
 wn 
18
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Metoda estymacji
Zaobserwowane w próbie wartości y1,…,yn są realizacją n-wymiarowej zmiennej losowej
(Y1,…,Yn). Każda ze zmiennych Yi (i=1,...n) ma rozkład zerojedynkowy o wartości
średniej μi = P(Yi = 1), gdzie
P(Yi  1) =
1
1  e ( 0 xi 0  1xi 1 ..  k xik )
Jeżeli wartości zmiennych objaśniających są ustalone, to rozkład zmiennej losowej
(Y1,…,Yn) zależy jedynie od parametrów β1,… βk, . Ponieważ zmienne losowe Y1,…,Yn są
niezależne, prawdopodobieństwo otrzymania zaobserwowanych wartości y1,…,yn w próbie
wynosi: PY  y , Y  y ,...,Y  y   PY  y   PY  y   ...  PY  y 
1
1
2
2
n
n
1
n
1
1
2
1
n
  1   
i 1
yi
i
1 yi
i
Dla ustalonej próby powyższe prawdopodobieństwo jest funkcją parametrów β0,... βk zwaną
funkcją wiarogodności próby. W przypadku stosowania wag dla obserwacji funkcja
n
wi 1 y i
wiarogodności ma postać:
wi yi
L 0 , 1 ,..., k ; y1 ,...yn    i
(i-ta obserwacja jest brana pod uwagę wi razy)
i 1
1  i 
19
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Model z jedna zmienną objaśniającą
20
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Ważne jest aby odpowiednio wybrać
kategorię zmiennej objaśnianej, która
staje się modelowanym
prawdopodobieństwem zajścia
zdarzenia
Styl kodowania zmiennej niezależnej jest istotny z punktu widzenia
rodzaju szacowanego modelu regresji logistycznej. Kategoria
odniesienia ma istotne znaczenie w modelu regresji uporządkowanej
21
oraz wielostanowej. W modelu regresji binarnej wpływa na otrzymane
oceny parametrów, ale nie wpływa na wartość ilorazu szans.
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Różnice w kodowaniu zmiennych objaśniających
Z punktu widzenia analizy istotny jest sposób kodowania zmiennych jakościowych. Zmienne mogą,
w zależności od liczby kategorii, być kodowane w sposób nominalny (np. binarny-0,1; poprzez
przyporządkowanie liczby danej kategorii) lub też w sposób jakościowy, poprzez przypisanie
poszczególnym poziomom zmiennej nazwy znakowej (np. kobieta, mężczyzna). Forma kodowania
22
narzuca określony sposób włączenia jej do modelu.
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
23
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
24
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Podstawowe informacje o Modelu
Model Information
Data Set
Response Variable
Number of Response
Levels
Model
Optimization Technique
Response Profile
Ordered
Value
nadwaga
WORK.SORTTEMPTABLESORTED
nadwaga
nadwaga
2
binary logit
Fisher's scoring
Number of Observations Read
943
Number of Observations Used
943
Total
Frequency
1
nadwaga
467
Model Convergence Status
2
brak nadwagi
476
Convergence criterion (GCONV=1E-8) satisfied.
Probability modeled is nadwaga='nadwaga'.
Spełnione zostało iteracyjne kryterium zbieżności,
udało się wyznaczyć parametry największej
wiarygodności.
25
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Mając oszacowany model możemy
obliczać prawdopodobieństwa
teoretyczne dla wybranej osoby.
Według innej interpretacji są to
wartości średnie zmiennej Y , czyli
udziały osób z nadwagą w grupie
osób reprezentowanych przez
określony układ zmiennych
objaśniających.
P(Y  nadwaga ) =
1
1 e
   0  1 X 1 
Probability modeled is nadwaga='nadwaga'.
P( Y  1) =
nadwaga
1
1 e  0  1X 1  ...  k X k 
(należy opuścić czynniki, dla których zmienna
objaśniająca wynosi 0, pozostałe uzupełnić zgodnie z
wartością zmiennej- w tym dychotomicznej)
Analysis of Maximum Likelihood Estimates
Parameter
DF
Estimate
Standard
Error
Wald
Chi-Square
Pr > ChiSq
Intercept
1
-3.2983
0.2629
157.3693
<.0001
fastfood
1
5.1635
0.2926
311.3695
<.0001
W analizowanym przykładzie modelu z
jedną zmienną objaśniającą formalny
zapis przedstawia się następująco!
26
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Przykład modelu logistycznego- interpretacja
P( Y  1) =
1
1 e  0  1X 1  ...  k X k 
P(Y  nadwaga ) =
1
1  e 3.298 5.164 fastfood 
je fastfoody
1
P
 0,866
1  ez
Z=-1,865
P(Y  nadwaga ) =
1
1  e 3.298 5.164*1
nie je fastfoodów
1
P
 0,036 Z=-3,2983
z
1 e
P(Y  nadwaga ) =
1
1  e 3.298 5.164*0 
Oznacza to, że 86,6% osób o wymienionych cechach ma nadwagę, inaczej mówiąc jeżeli je się
fastfoody to prawdopodobieństwo, że będzie się miało nadwagę wynosi 0,866. Dla osób o tych samych
cechach, ale nie jedzących fastfoodów P=0,036. Fakt, że prawdopodobieństwa się nie dopełniają do
jedności wynika to z nieliniowości związku. Dopisek ‘dla osób o tych samych cechach’ lub też ‘przy
pozostałych zmiennych ustalonych’ odnosi się do modelu o większej liczbie zmiennych objaśniajacych
(poziom ustalony to poziom referencyjny danej zmiennej objaśniającej, np. 1 lub Kobieta).
27
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Testowanie hipotez dotyczących współczynników (istotność zmiennej Xj)
Analysis of Maximum Likelihood Estimates
Parameter
DF
Estimate
Standard
Error
Wald
Chi-Square
Pr > ChiSq
Intercept
1
-3.2983
0.2629
157.3693
<.0001
fastfood
1
5.1635
0.2926
311.3695
<.0001
W kolumnach są wyświetlane współczynniki regresji oraz ich błędy szacunku. Zmienna jest istotna w
modelu, jeżeli wartość błędu szacunku jest dostatecznie mała w porównaniu z wartością
współczynnika regresji. Do pomiaru tej istotności służy statystyka Walda, podana w kolumnie
zatytułowanej Chi-Kwadrat Walda.
Statystyka Walda ma rozkład χ2 z liczbą stopni swobody o 1 mniejszą niż liczba kategorii. Dla
zmiennych numerycznych (jak wiek) liczba stopni swobody wynosi zawsze 1. Również dla zmiennych
zerojedynkowych liczba stopni swobody wynosi 1. Liczba stopni swobody jest zamieszczona w
kolumnie zatytułowanej st.sw.(df).
28
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Testowanie hipotez dotyczących współczynników (istotność zmiennej Xj)
Jeżeli mamy df=1, to wartość statystyki Walda obliczamy ze wzoru:
Wald j 
Testowane Hipotezy:
b 2j
sb 
2
j
H0: parametr jest równy zero
H1: parametr jest różny od zera
Analysis of Maximum Likelihood Estimates
dla zmiennej fastfood mamy
Parameter
DF
Estimate
Standard
Error
Wald
Chi-Square
Pr > ChiSq
Intercept
1
-3.2983
0.2629
157.3693
<.0001
fastfood
1
5.1635
0.2926
311.3695
<.0001
2
Wald fastfood
 5,1635

  311,3695
0
,
2926


Prawdopodobieństwo testowe dla statystyki Walda jest wyświetlane w kolumnie
Pr>ChiKw. Należy je porównywać z przyjętym poziomem istotności (np.0,05). Jeżeli
Pr ChiKw < 0,05, to odpowiednia zmienna jest istotna na poziomie 0,05. W modelu
statystycznie istotne na poziomie 0,05 są jedynie zmienne komputer i fastfood oraz stała
(Pr ChiKw< 0,05).
29
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Logit
Zapiszmy równanie logistyczne w postaci:
albo :
P( A)
 eZ
1  P( A)
 P( A) 
ln
  Z   0  1 X 1  ...   k X k
 P( A' ) 
gdzie A’ jest zdarzeniem przeciwnym do A. Wyrażenie znajdujące się po lewej stronie
równania nazywamy logitem.
Problem w tym, że logit jest czymś innym niż prawdopodobieństwo i jest trudny
do interpretacji. Łatwiej rozważać wyrażenie:
  ...e 
P( A)

 e 0  1 X1 ... k X k  e 0  e 1 X1  ...  e k X k  e 0 e 11
P( A' )
X1
1k X k
Wyrażenie to będące stosunkiem prawdopodobieństwa wystąpienia zdarzenia A
do prawdopodobieństwa niewystąpienia zdarzenia A nazywamy szansą
30
(ryzykiem względnym)- odds
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Ryzyko względne
Jeżeli prawdopodobieństwo zdarzenia A wynosi ½. (jak np. wyrzucenia orła w
rzucie monetą), to ryzyko względne wynosi 1
Jeżeli P(A) = 0,9 to
P( A) 0,9

9
P( A' ) 0,1
Teraz znaczenie współczynników regresji jest następujące. Wartość mówi, ile
razy wzrośnie wartość ryzyka względnego, jeżeli wartość j-tej zmiennej
objaśniającej wzrośnie o jednostkę.
 ( X 1)
Jeżeli X j  X j  1 , to
e 0  e 1 X1  ...  e 1 j  e k X k
j

e
X
e 0  e 1 X1  ...  e 1 j  e k X k
31
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Interpretacja parametrów
Analysis of Maximum Likelihood Estimates
Odds Ratio Estimates
Parameter
DF
Estimate
Standard
Error
Wald
Chi-Square
Pr > ChiSq
Effect
Intercept
1
-3.2983
0.2629
157.3693
<.0001
fastfood
1
5.1635
0.2926
311.3695
<.0001
fastfood
Point
Estimate
174.769
95% Wald
Confidence
Limits
98.488
310.128
Stała = -3,2983  exp(stała) = 0,036946  Gdy wszystkie inne zmienne
przyjmują wartość zero, iloraz szans bycia otyłym do nie bycia otyłym wynosi
3,4%
fastfood = 5,1635  exp = 174,769  Przy ustalonych wartościach
pozostałych zmiennych, osoby jedzące często fastfoody mają 175 razy wyższe
szanse bycia w otyłym, niż pozostali (nie jedzący fastfoodów).
Uwaga! Jeżeli do modelu weszłaby zmienna ciągłą wówczas exp(β) interpretuje się jako
przyrost/spadek prawdopodobieństwa bycia otyłym przy wzroście danej cechy o jednostkę
(np. przy ustalonych, pozostałych wartościach zmiennych, wzrost dochodów o jednostkę 32
100 zł, zwiększa szansę bycia otyłym o 1%).
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Przedziały ufności
Przedziały ufności dla ilorazów szans [exp(B)]
na poziomie ufności (domyślnie jest 95%)- domyślnie α=0,05.
Zmienna jest istotna na danym poziomie α, jeżeli przedział ufności dla
exp(β) z współczynnikiem 1-α nie zawiera liczby 1. W modelu
otrzymaliśmy 95% przedział ufności dla zmiennych:
Odds Ratio Estimates
Effect
fastfood
Point
Estimate
174.769
95% Wald
Confidence
Limits
98.488
310.128
Zatem zmienna fastfood jest
istotna statystycznie
33
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Przedziały ufności
Przedział ufności Walda dla parametrów
Oceny ilorazu szans
Efekt
Ocena punktowa
95% granice
przedziału ufności Walda
Parametr
Ocena
95% granice przedziału ufności
dochod
1.000
1.000
1.000
Intercept
-2.9885
-4.7514
-1.2255
wydatki
1.000
1.000
1.000
dochod
-0.00009
-0.00029
0.000121
syt_mat
0.863
0.637
1.170
wydatki
0.000120
-0.00015
0.000389
komputer
2.011
1.161
3.485
syt_mat
-0.1473
-0.4517
0.1570
plec
1.125
0.679
1.865
komputer
0.6988
0.1490
1.2486
stan_cywilny
1.043
0.691
1.574
plec
0.1178
-0.3877
0.6233
wiek
0.999
0.982
1.015
stan_cywilny
0.0421
-0.3694
0.4536
wyd_zyw
0.999
0.998
1.000
wiek
-0.00149
-0.0179
0.0149
fastfood
214.966
102.175
452.267
wyd_zyw
-0.00067
-0.00181
0.000459
fastfood
5.3705
4.6267
6.1143
Przedział ufności Walda dla skorygowanych ilorazów szans
Efekt
Jednostka
Ocena
95% granice przedziału ufności
dochod
1000.0
0.918
0.746
1.129
wydatki
1000.0
1.127
0.861
1.476
wyd_zyw
100.0
0.935
0.835
1.047
34
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Model z 4 zmiennymi objaśniającymi
Różnice w kodowaniu zmiennych- wersja nieprawidłowa!
35
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Model z 4 zmiennymi objaśniającymi
Różnice w kodowaniu zmiennych- wersja 1
Wersja obowiązująca na ćwiczeniach, interpretowana poniżej
36
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Różnice w kodowaniu zmiennych- wersja 2
37
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
KODOWANIE
Odniesienie
Skutki
Informacje o poziomie klasyfikacji
Informacje o poziomie klasyfikacji
Klasa
Wartość
sex
Kobieta
1
Mezczyz
0
bardzo dobra
1
0
0
0
przeciętna
0
1
0
0
raczej dobra
0
0
1
0
raczej zła
0
0
0
1
zła
0
0
0
0
często
1
rzadko lub prawie
nigdy
0
brak komputera
1
komputer
0
syt_mater
ialna
fast
komp
Zmienne
planowania
Klasa
Wartość
sex
Kobieta
1
Mezczyz
-1
komp
brak komputera
komputer
syt_mate
rialna
1
-1
bardzo dobra
1
0
0
0
przeciętna
0
1
0
0
raczej dobra
0
0
1
0
raczej zła
0
0
0
1
-1
-1
-1
-1
zła
fast
Zmienne planowania
często
rzadko lub prawie
nigdy
1
-1
Sposób kodowania nie ma wpływu na istotność tej zmiennej taktowanej jako całość, ale ma
wpływ na wartości stałej regresji i współczynników regresji poszczególnych kategorii danej
zmiennej, a zatem na interpretację modelu.
38
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Kodowanie ODNIESIENIE
Porównywane są efekty należenia i nie należenia do danej kategorii. Jedna z kategorii jest kategorią
referencyjną. W macierzy kontrastów odpowiada jej wiersz złożony z samych zer. Interpretacja
oszacowań powinna być taka, że modelowane prawdopodobieństwo wzrośnie lub spadnie, jeżeli
dana jednostka wykazuję przynależność do jednej z grup względem kategorii referencyjne
(pamiętając, że tylko w jednym przypadku może wystąpić jedynka, bowiem dana osoba musiała
wskazać jedną z kategorii).
Analiza ocen maksymalnej wiarygodności
Parametr
St. sw.
Intercept
1
Błąd
standardowy
Chi-kwadrat
Walda
Pr > chi kw..
-3.3639
0.5085
43.7569
<.0001
Ocena
fast
często
1
5.1402
0.3031
287.5984
<.0001
komp
brak komputera
1
-0.6873
0.2613
6.9162
0.0085
sex
Kobieta
1
0.1461
0.2521
0.3358
0.5623
syt_materialna
bardzo dobra
1
-0.7684
1.1627
0.4367
0.5087
syt_materialna
przeciętna
1
0.6354
0.3840
2.7386
0.0980
syt_materialna
raczej dobra
1
0.4288
0.4746
0.8161
0.3663
syt_materialna
raczej zła
1
0.4511
0.4336
1.0823
0.2982
39
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Kodowanie SKUTKI
Wszystkie współczynniki dla kategorii syt_materialna nieistotnie różnią się od średniej. Współczynnik
dla sytuacji bardzo dobrej (-0,9178) jest niższy od średniej, współczynniki dla sytuacji przeciętnej,
raczej dobrej i raczej złej są wyższe od średniej. Ponieważ w tej metodzie kodowania suma
współczynników dla wszystkich kategorii wynosi 0, więc wartość dla sytuacji materialnej bardzo złej
(kategoria referencyjna) obliczymy jako
-(-0,9178+0,4861+0,2794+0,3017) = -0,1494
Analiza ocen maksymalnej wiarygodności
Parametr
St. sw.
Intercept
1
Błąd
standardowy
Chi-kwadrat
Walda
Pr > chi kw..
-0.9150
0.2656
11.8644
0.0006
Ocena
fast
często
1
2.5701
0.1516
287.5984
<.0001
komp
brak komputera
1
-0.3437
0.1307
6.9162
0.0085
sex
Kobieta
1
0.0731
0.1261
0.3358
0.5623
syt_materialna
bardzo dobra
1
-0.9178
0.8890
1.0656
0.3019
syt_materialna
przeciętna
1
0.4861
0.2750
3.1250
0.0771
syt_materialna
raczej dobra
1
0.2794
0.3462
0.6511
0.4197
syt_materialna
raczej zła
1
0.3017
0.3205
0.8863
0.3465
40
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
41
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
42
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
43
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Testowanie hipotez dotyczących współczynników (istotność zmiennej Xj)
Programy komputerowe podają prawdopodobieństwo testowe (p-value). Jest to
największa wartość poziomu istotności α, przy której nie odrzucamy hipotezy zerowej
H0:βj = 0 (wszystkie parametry są równe zero). Np. gdyby p-value=0,032, to na poziomie
istotności α = 0,05 odrzucamy hipotezę zerową, natomiast na poziomie α = 0,02 nie ma
podstaw do odrzucenia hipotezy zerowej. Ogólnie rzecz biorąc, odrzucamy hipotezę
zerową, gdy p-value przyjmuje dostatecznie małą wartość.
Testowanie globalnej hipotezy zerowej: BETA=0
Test
Chi-kwadrat
St. sw.
Pr > chi kw..
Iloraz wiarygodn
778.3719
7
<.0001
Ocena
646.6142
7
<.0001
Wald
305.0624
7
<.0001
Ogólnie, w modelu jest przynajmniej jeden
parametr istotnie różniący się od zera.
Ponadto testować również można łączną hipotezę o statystycznej istotności
wyestymowanych parametrów modelu. Testowana jest hipoteza zerowa, mówiąca o tym,
że wektor parametrów beta jest równy zero (bety są nieistotne statystycznie). Wyniki
testów sugerują odrzucenie hipotezy zerowej na korzyść alternatywnej, czyli
przynajmniej jeden ze współczynników modelu jest istotnie różny od zera.
44
Regresja logistyczna z wykorzystaniem narzędzi SAS
OcenaZakład
oszacowań
modelu
z 4 zmiennymi
Analizy Historii Zdarzeń
i Analiz Wielopoziomowych
ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Ogólnie, w modelu jest przynajmniej jeden parametr istotnie różniący się od zera.
Analiza ocen maksymalnej wiarygodności
Parametr
St. sw.
Intercept
1
Błąd
standardowy
Chi-kwadrat
Walda
Pr > chi kw..
-3.3639
0.5085
43.7569
<.0001
Ocena
fast
często
1
5.1402
0.3031
287.5984
<.0001
komp
brak komputera
1
-0.6873
0.2613
6.9162
0.0085
sex
Kobieta
1
0.1461
0.2521
0.3358
0.5623
syt_materialna
bardzo dobra
1
-0.7684
1.1627
0.4367
0.5087
syt_materialna
przeciętna
1
0.6354
0.3840
2.7386
0.0980
syt_materialna
raczej dobra
1
0.4288
0.4746
0.8161
0.3663
syt_materialna
raczej zła
1
0.4511
0.4336
1.0823
0.2982
ALE: interesuje nas, który z
parametrów zmiennych w
modelu jest istotny, czy istotne
ponadto są inne zmienne niż w
modelu z jedną zmienną oraz czy
w nowym modelu zmienna, która
była istotna poprzednio nadal
jest istotna.
TEST WALDa:
Testowana jest hipoteza zerowa o braku istotności poszczególnych zmiennych
w modelu na domyślnym poziomie istotności alpha 0,05
W przypadku zmiennych fastfood i komputer brak należy odrzucić hipotezę zerową na korzyść hipotezy alternatywnej.
Decyzja : oszacowane parametry zmienny komputer i fastfood statystycznie istotnie różnią się od od zera i pozostają w
modelu, pozostałe parametry należy uznać za nieistotnie różne od zera (brak podstaw do odrzucenia hipotezy zerowej)
45
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Przykład modelu logistycznego
Jeżeli oszacuje się model z dwiema zmiennymi, wówczas:
P( Y  1) =
1
1 e  0  1X 1  ...  k X k 
Analiza ocen maksymalnej wiarygodności
Parametr
St. sw.
Intercept
Ocena
Chi-kwadrat
Walda
Pr > chi kw..
1
-2.7858
0.3135
78.9494
<.0001
fast
często
1
5.1061
0.2936
302.4811
<.0001
komp
brak komputera
1
-0.6979
0.2539
7.5551
0.0060
Posiada komputer oraz nie je fastfoodów
P(Y  nadwaga ) =
P
Błąd
standardowy
1
1  e  2,79 0,69*05.10*0 
1
 0,092306
z
1 e
Z=-2,2858
Posiada komputer oraz je fastfoody
P(Y  nadwaga ) =
P
1
1  e  2, 79 0,69*05.10*1
1
 0,943763
z
1 e
Z=2,8203
Oznacza to, że 94% osób o wymienionych cechach ma nadwagę. Dla osób o tych samych cechach, ale
nie jedzących fastfoodów P=0,09. Jeżeli powyższe obliczenia wykonamy dla osób jedzących i nie
jedzących fastfoody i nie mających komputerów wówczas prawdopodobieństwa wyniosą odpowiednio46
89,3 oraz 4,8. Wynika to z nieliniowości związku.
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Interpretacja parametrów
Oceny ilorazu szans
Efekt
Ocena
punktowa
95% granice
przedziału ufności
Walda
fast często vs rzadko lub
prawie nigdy
165.029
92.823
293.403
komp brak komputera vs
komputer
0.498
0.303
0.819
UWAGA na interpretację!
Uwaga! Jeżeli do modelu weszłaby zmienna
ciągłą wówczas exp(β) interpretuje się jako
przyrost/spadek prawdopodobieństwa bycia
otyłym przy wzroście danej cechy o
jednostkę (np. przy ustalonych, pozostałych
wartościach zmiennych, wzrost dochodów o
jednostkę 100 zł, zwiększa szansę bycia
otyłym o 1%).
Stała = -2,7858  exp(stała) = 0,06168 
Gdy wszystkie inne zmienne przyjmują wartość
zero, iloraz szans (sznasa, ryzyko) bycia otyłym
do nie bycia otyłym wynosi 5%
Komputer = -0,6979  exp = 0,498  Przy
ustalonych wartościach pozostałych zmiennych,
osoby nie posiadające komputera mają dwa
razy mniejsze szanse bycia otyłym, niż osoby
posiadając komputer.
fastfood = 5,37  exp = 165,029  Przy
ustalonych wartościach pozostałych zmiennych,
osoby jedzące często fastfoody mają o niemal
165 razy wyższe szanse bycia w otyłym, niż
jedzący rzadko.
47
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
ZADANIA dla studentów
Zbiór arthrit zawiera 4 zmienne: better, sex, age oraz treat
1. Proszę zbadać zależność poprawy stanu zdrowia
(better) od sposobu leczenia (treat-jakościowej), ocenić
istotność parametru oraz zinterpretować otrzymane
wyniki oraz ilorazy szans
2. Proszę zbadać zależność poprawy stanu zdrowia od
pozostałych zmiennych, ocenić istotność parametru oraz
zinterpretować otrzymane wyniki oraz ilorazy szans
48
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Projekt 1
- Proszę opracować, na podstawie onlinedoc
SAS, procedury służące do estymacji
modeli binarnej regresji logistycznej
- Szczegółowo pisać należy instrukcje i opcje
dla proc logistic
- Proszę opracować interpretację do drugiego
sposobu kodowania zmiennych
jakościowych (skutki)
49
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Regresja logistyczna
- model binarny cz. I
50
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
1.
2.
3.
4.
Omówienie procedury proc logistic
Dobór zmiennych do modelu
Oszacowanie dobroci modelu
Ocena jakości modelu
51
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Przykład modelu logistycznego
Nazwa zmiennej
Opis zmiennej
Wartości/kody
Nadwaga
Zmienna binarna informująca o nadwadze
1=nadwaga, 0=brak nadwagi
Dochod
Dochod respondenta
Od -3 935 do 19 000 dolarów
Wydatki
Wydatki miesięczne respondenta
Od 184 do 16 456 dolarów
K_miej
Kategoria miejsca zamieszkania
1=mała wieś; 2=wieś, 3=małe miasto, 4=średnie miasto, 5=duże
miasto, 6=metropolia
Syt_mat
Ocena sytuacji materialnej (subiektywna)
1=bardzo dobra, 2=raczej dobra,3=przeciętna, 4=raczej zła, 5=zła
Stan_cywilny
Stan cywilny klienta
1=kawaler, panna
2=żonaty, mężatka
3=wdowiec, wdowa
4=rozwiedziony(a) separowany(a)
Komputer
Zmienna binarna informująca czy osoba
posiada komputer (wykonuje pracę
siedzącą)
1 = posiada komputer, 0 – nie posiada komputera
Wiek
Wiek (kalendarzowy)
Plec
Zmienna binarna
respondenta
Wyd_zyw
Wysokość wydatków przeznaczanych na
produkty żywnościowe
Fastfood
Zmienna jakościowa opisująca jak często
dany respondent je żywność z fastfoodów
określająca
płeć
1= mężczyzna, 2=kobieta
1= często (przynajmniej raz w tygodniu, 0 = rzadko lub prawie 52
nigdy (mniej niż 1 raz w tygodniu)
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
proc logistic data = biblioteka.zbior;
model y = x1 x2 x3;
run;
proc logistic data=reglog.oty;
/* zbiór wejściowy */
class syt_materialna (param=ref) komputer (param=ref)plec (param=ref)stan_cywilny (param=ref) wiek (param=ref) fast;
/* zdefiniowanie zmiennej zależnej i zmiennych niezależnych w modelu
MODEL nadwaga(ref=first)=
oraz kategorii referencyjnej */
dochod wydatki wyd_zyw
syt_mat komputer plec stan_cywilny wiek fastfood/
SELECTION=none /*stepwise*/ /* wybór metody selekcji zmiennych niezależnych do modelu, domyślnie sls i sle=0,05 */
CORRB
/* korelacje cząstkowe */
RSQUARE
/* r-kwadrat i skorygowane R-kwadrat */
LINK=LOGIT
/* funkcja linkująca */
CLPARM=BOTH
/* wyświetlenie przedziałów ufności dla parametrów */
CLODDS=BOTH
/* wyświetlenie przedziałów ufności dla ilorazów szans */
ALPHA=0.05
/* poziom istotności */
OUTROC=WORK.EGOUTROC ROCEPS=0.0001 /* zapisanie zbioru dla krzywej ROC */
aggregate scale=none lackfit;
title 'Model binarny';
UNITS dochod=1000 wydatki=1000 wyd_zyw=100; /* przedziały jednostkowe dla zmiennych ciągłych*/
OUTPUT OUT=WORK.TEMP1456 PREDPROBS=INDIVIDUAL /* zbiór z wyliczonymi prawdopodobieństwami teoret.*/
PREDICTED=_predicted1 /* zmienna z wartościami teoretycznymi*/
RESCHI=_reschi1 RESDEV=_resdev1 /* dewiancja i Pearson Chi-Square*/
DIFCHISQ=_difchisq1 DIFDEV=_difdev1 /*zmiana dewiancji i statystyki Pearson Chi-square przy wykluczeniu jednostki*/
DFBETAS=_dfbetas0-_dfbetas5 /*wartości DfBeta*/
H=_h1 C=_c1;
/*wartości wpływu dla odległości Cook’a oraz pole pod krzywą ROC*/
RUN;
53
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
PROC LOGISTIC < options >;
BY variables ;
CLASS variable <(v-options)> <variable <(voptions)>... > < / v-options >;
CONTRAST 'label' effect values <,... effect
values>< /options >;
EXACT < 'label' >< Intercept >< effects >< /
options > ;
FREQ variable ;
MODEL events/trials = < effects > < /
options >;
MODEL variable < (variable_options) > = <
effects > < / options >;
OUTPUT < OUT=SAS-data-set >
<
keyword=name...keyword=name > / < option
>;
SCORE < options >;
STRATA effects < / options >;
< label: > TEST equation1 < , ... , <
equationk >> < /option >;
UNITS independent1 = list1 < ...
independentk = listk > < /option > ;
WEIGHT variable </ option >;
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
Wskazanie zbioru danych, opcje ogólne
Przeprowadzenie analizy w podgrupach
(zbiór musi być wcześniej posortowany)
Wskazanie zmiennych jakościowych i
określenie ich kodowania
Przeprowadzenie testu liniowych
ograniczeń, przy czym w testowanym
równaniu nie może występować stała
Dokładne testy istotności parametrów
Wskazanie zmiennej określającej częstości
obserwacji (dane pogrupowane)
Określenie postaci modelu i opcji, np:
wyliczenie dodatkowych miar
Zapisanie pewnych informacji do zbioru SAS
Obliczenie score (prawdopodobieństw) z
gotowego modelu na nowych danych
Przeprowadzenie stratyfikowanej regresji
logistycznej
Zadanie dla jakich zmian wartości
zmiennych ciągłych mają być obliczone
ilorazy szans
Przeprowadzenie testów liniowych
ograniczeń
Wskazanie zmiennej zawierającej wagi
obserwacji
54
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Dobór zmiennych objaśniających do modelu
Oprócz weryfikacji istotności oszacowań parametrów modelu istotny
jest logiczny i uzasadniony dobór zmiennych objaśniających do modelu.
Dobór zmiennych objaśniających do modelu:
• Korelacja- typowanie zmiennych wykazujących zależności, identyfikacja współliniowych
zmiennych objaśniających
• Korelacja cząstkowa (szacunkowa)- wkład poszczególnych zmiennych
•
niezależnych do pojemności informacyjnej modelu (relacje typu parametr a zmienna
objaśniana oraz parametr-parametr)
Selekcja- wybór zmiennych do modelu
Kolejną kwestią jest analiza istotności interakcji pomiędzy zmiennymi i
ich statystyczna istotność.
55
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Metody selekcji zmiennych objaśniających
W przypadku małej liczby zmiennych objaśniających jesteśmy w stanie przeanalizować
szczegółowo adekwatność modelu regresji zmiennej objaśnianej względem dowolnego
podzbioru tych zmiennych. Duża liczba zmiennych objaśniających wymusza zastosowanie
automatycznych metod doboru zmiennych objaśniających.
Celem selekcji jest wybór „najlepszego” podzbioru zmiennych objaśniających.
Selekcja umożliwia:
- ograniczenie dużego zbioru potencjalnych zmiennych objaśniających (spośród grona modeli
adekwatnie opisujących dane zjawisko, najlepszym modelem jest model najprostszy),
- wyeliminowanie zmiennych, które jedynie hipotetycznie mogły mieć wpływ na
obserwowane zjawisko,
- zrozumienie istoty zależności pomiędzy zmienną objaśnianą a zmiennymi objaśniającymi,
- duża liczba parametrów osłabia jakość estymatorów (powoduje dużą ich zmienność),
- eliminacja współliniowości zmiennych objaśniających, współliniowość wpływa negatywnie
na stabilność i możliwość interpretacji.
56
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Metody selekcji zmiennych objaśniających
Metody selekcji sekwencyjnej:
-
-
-
metoda eliminacji (backward)
Inicjuje się w modelu, w którym uwzględniono wszystkie potencjalnie interesujące nas
zmienne (krok 1). Następnie, zakładając prawdziwość tego modelu, testuje się
indywidualne hipotezy o istotności poszczególnych zmiennych i usuwa się tę zmienną, dla
której p-value odpowiadającego testu t jest największym p-value przekraczającym
ustalony poziom alpha (krok 2). Potem dopasowujemy mniejszy model z usuniętą
zmienną i powracamy do kroku 2. Procedura zostaje przerwana, gdy w pewnym kroku
wszystkie p-value są mniejsze od alpha.
metoda dołączania (forward)
Startuje od momentu zawierającego tylko stałą (krok 1), następnie wybiera się tę spośród
możliwych zmiennych, dla których p-value odpowiadającego mu testu t jest najmniejszą
wartością p-value mniejszą od alpha (krok 2).Procedura zostaje przerwana, gdy żadnemu
z potencjalnych kandydatów na włącznie do modelu nie odpowiada wartość mniejsza od
alpha.
metoda selekcji krokowej (stepwise)
Na każdym kroku można odrzucić lub dodać zmienną.
57
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Metody selekcji zmiennych objaśniających
Wadą automatycznej selekcji jest to, że pechowy wybór jednej zmiennej
dokonany na pewnym etapie selekcji nie może być już później skorygowany.
Szczególnie widoczne staje się to, gdy zastosowany zostanie wariant selekcji z
ustaloną, wstępną liczbą zmiennych objaśniających (np. dobraną na podstawie
wiedzy eksperckiej).
Ponadto problematyczny jest również dobór odpowiedniego progu alpha
(0,05-0,1 przy procedurze eliminacji; 0,1-0,2 przy procedurze dołączania),
któremu nie można nadać jednoznacznej interpretacji. Związane jest to z tym,
że testowanych jest wiele hipotez, których wyniki zależą od siebie.
58
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Model z 9 zmiennymi objaśniającymi- selekcja
59
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
60
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
61
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
62
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Kodowanie w modelu z 9 zmiennymi
Informacje o poziomie klasyfikacji
Klasa
Wartość
komp
brak komputera
1
komputer
0
bardzo dobra
1
0
0
0
przeciętna
0
1
0
0
raczej dobra
0
0
1
0
raczej zła
0
0
0
1
zła
0
0
0
0
kawaler, panna
1
0
0
rozwiedziony(a
0
1
0
wdowiec, wdowa
0
0
1
zonaty, mezatk
0
0
0
często
1
rzadko lub prawie nigdy
0
Kobieta
1
Mezczyz
0
syt_materialna
stan_cyw
fast
sex
Zmienne
planowania
63
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Model z 8 zmiennymi bez selekcji- ocena istotności
Analiza ocen maksymalnej wiarygodności
Błąd
standardowy
Chi-kwadrat
Walda
Pr > chi kw..
-3.7148
0.6744
30.3437
<.0001
1
-0.00007
0.000110
0.4003
0.5269
wiek
1
0.00408
0.00892
0.2096
0.6471
wydatki
1
0.000114
0.000132
0.7403
0.3896
Parametr
St. sw.
Intercept
1
dochod
Ocena
fast
często
1
5.1342
0.3363
233.1225
<.0001
komp
brak komputera
1
-0.6391
0.2815
5.1544
0.0232
sex
Kobieta
1
0.1732
0.2706
0.4095
0.5222
stan_cyw
kawaler, panna
1
0.1131
0.4542
0.0621
0.8033
stan_cyw
rozwiedziony(a
1
0.7591
0.5548
1.8719
0.1713
stan_cyw
wdowiec, wdowa
1
-0.8482
0.4942
2.9461
0.0861
syt_materialna
bardzo dobra
1
-0.9806
1.3903
0.4975
0.4806
syt_materialna
przeciętna
1
0.6777
0.3984
2.8940
0.0889
syt_materialna
raczej dobra
1
0.4676
0.5090
0.8439
0.3583
syt_materialna
raczej zła
1
0.4973
0.4384
1.2871
0.2566
64
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Model z 8 zmiennymi bez selekcji- ocena istotności
Oceny ilorazu szans
Efekt
Ocena punktowa
95% granice
przedziału ufności
Walda
dochod
1.000
1.000
1.000
wiek
1.004
0.987
1.022
wydatki
1.000
1.000
1.000
169.722
87.804
328.069
komp brak komputera vs komputer
0.528
0.304
0.916
sex Kobieta vs Mezczyz
1.189
0.700
2.021
stan_cyw kawaler, panna vs zonaty, mezatk
1.120
0.460
2.727
stan_cyw rozwiedziony(a vs zonaty, mezatk
2.136
0.720
6.338
stan_cyw wdowiec, wdowa vs zonaty, mezatk
0.428
0.163
1.128
syt_materialna bardzo dobra vs zła
0.375
0.025
5.722
syt_materialna przeciętna vs zła
1.969
0.902
4.299
syt_materialna raczej dobra vs zła
1.596
0.589
4.329
syt_materialna raczej zła vs zła
1.644
0.696
3.882
fast często vs rzadko lub prawie nigdy
65
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Przykład modelu logistycznego- 9 zmiennych po selekcji
Podsumowanie wyboru krokowego
Krok
Efekt
Wstawione
St. sw.
Liczba
w
Chi-kwadrat
punktacji
Usunięt
e
Chi-kwadrat
Walda
Pr > chi kw..
1
fast
1
1
642.6583
<.0001
2
komp
1
2
7.7244
0.0054
Etykieta
zmiennej
No (additional) effects met
the 0.05 significance level
for entry into the model.
Analiza ocen maksymalnej wiarygodności
Parametr
St. sw.
Intercept
1
Błąd
standardowy
Chi-kwadrat
Walda
Pr > chi kw..
-2.7858
0.3135
78.9494
<.0001
Ocena
fast
często
1
5.1061
0.2936
302.4811
<.0001
komp
brak komputera
1
-0.6979
0.2539
7.5551
0.0060
P( Y  nadwaga) =
P(Y  nadwaga ) =
P
1
1 e 3.4837 0.6979komputer 5.1061 fastfood
1
1  e  2,7858 0.6979*15.1061*1
1
 0,893
z
1 e
Interpretacja?
P(Y  nadwaga ) =
1
1  e  2, 7858 0.6979*15.1061*0 
P
1
 0,048
1  ez
66
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Współczynnik korelacji cząstkowej
Wkład poszczególnych zmiennych objaśniających w modelu regresji logistycznej
możemy ocenić na podstawie wartości współczynników korelacji cząstkowej tych
zmiennych ze zmienną zależną.
R j  signb j 
Wald j  2df j
 2 ln L( 0)
gdzie
•sign(bj) - znak współczynnika ,
•dfj
- liczba stopni swobody dla j-tej zmiennej ,
•L(0)
- funkcja wiarogodności modelu początkowego tj. modelu,
w którym nie występują zmienne objaśniające, a jedynie stała)
Jeżeli Wald j  2df j  0 , to jest przyjmowane R j  0
67
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Współczynnik korelacji cząstkowej
W naszym przykładzie mamy –2lnL(0) = 1307,19, więc dla zmiennej wiek
RFASTFOOD
302,4811 2 1
(0)
 2 ln L
 0,4794
a dla zmiennej plec
RKOMPUTER
7,5551 2 1
(0)
 2 ln L
 0,0652
68
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Oszacowanie dobroci modelu
Dotychczas tworzyliśmy różne modele regresji logistycznej. Mniejszą uwagę
zwracaliśmy na to, czy są to dobre modele. Jak ocenić, czy model jest dobry? W
regresji liniowej porównuje się wartości teoretyczne proponowane przez model z
rzeczywistymi wartościami zmiennej objaśnianej w zbiorze danych i konstruuje się
różne mierniki dobroci dopasowania modelu do danych np. współczynnik determinacji
W modelach regresji, w tym w szczególnym przypadku regresji binarnej, sposobów
oceny dobroci oszacowań modelu jest wiele. Poniżej omówione zostaną procedury
weryfikacji modelu.
Przedmiotem weryfikacji modelu jest sprawdzenie czy:
• Model jest dobrze dopasowany do danych (jak często się myli)
• Model ma dużą pojemność informacyjną, dobrze opisuje dane zjawisko
69
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Miary dobroci dopasowania
Na pytanie czy warto szacować model z danym zestawem zmiennych podpowiedzi
pośrednio udzielają testy istotności parametrów, ponieważ nieistotność parametru
sugeruje, że nie wnosi on wiele do analizy. Nie dają one jednak odpowiedzi na
pytanie czy dana zmienna jest bardzo mało ważna czy też jest całkowicie
nieadekwatna dla tego rodzaju analizy.
Z punktu widzenia analizy, jeżeli uda się oszacować kilka modeli z różną ilością
zmiennych, które są istotne statystycznie, przydatna jest metoda wyboru modelu
najlepszego. Warto sobie zadać pytanie który z modeli (z dużą liczbą zmiennych
objaśniających [istotnych, nieistotnych], małą czy może wcale zmienne nie wnoszą
żadnej istotnej informacji) jest lepszy.
70
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Miary dobroci dopasowania
Statystyką przydatną do oceny dobroci dopasowania modelu jest wartość funkcji
wiarogodności. W metodzie estymacji wybieraliśmy wartości b0,…,bk w ten sposób, żeby
zmaksymalizować funkcję wiarogodności L.
Tutaj jako miary stopnia dopasowania użyjemy statystyki -2lnL tj. minus 2 razy logarytm
funkcji wiarogodności (-2 Log Likelihood). Jeżeli hipoteza zerowa mówiąca, że model
idealnie pasuje do danych, jest prawdziwa, to statystyka -2lnL ma rozkład χ2 o n-k
stopniach swobody.
Jeżeli model idealnie pasuje do danych, to funkcji wiarogodności przyjmuje wartość 1 i
wtedy -2lnL = 0. W praktyce otrzymujemy wartości L < 1 i wtedy -2lnL > 0. Zbyt duże
wartości funkcji -2lnL świadczą o tym, że hipoteza zerowa nie może być prawdziwa i
należy ja odrzucić. W tablicy wyników wartość -2lnL odczytujemy w tabeli Model fit
statistics.
71
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Miary dobroci dopasowania
Są dwie modyfikacje kryterium -2lnL
AIC - kryterium informacyjne Akaike (Akaike's Information Criterion)
AIC  2 ln L  2  (n  1  k )
SC - kryterium Schwarza (Schwarz Criterion)
SC  2 ln L  (n  1  k )  ln  p j
j
W kryteriach AIC i SC wprowadza się karę za dużą liczbę obserwacji i dużą liczbę
zmiennych. Należy używać tych statystyk, jeżeli porównujemy modele dla tych samych
danych, ale różniące się liczba szacowanych parametrów np. przy stosowaniu regresji
krokowej.
72
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Miary dobroci dopasowania
Model z 1 zmienną
Statystyki dopasowania modelu
Kryterium
Tylko
wyraz
wolny
AIC
1309.190
SC
-2 log L
Wyraz wolny
i
współzmienne
Model z 4 zmiennymi
Model z 8 zmiennymi
Statystyki dopasowania modelu
Statystyki dopasowania modelu
Kryterium
Tylko
wyraz
wolny
544.944
AIC
1309.190
1314.039
554.642
SC
1307.190
540.944
-2 log L
Wyraz wolny
i
współzmienne
Kryterium
Tylko
wyraz
wolny
Wyraz wolny
i
współzmienne
539.066
AIC
1309.190
550.335
1314.039
553.613
SC
1314.039
618.222
1307.190
533.066
-2 log L
1307.190
522.335
Statystyki: informacyjne kryterium Akaike, kryterium Schwarza, oraz podwojony logarytm funkcji
wiarygodności z ujemnym znakiem dla modeli ze wszystkimi zmiennymi objaśniającymi są
wyraźnie mniejsze niż w przypadku modeli jedynie z wyrazem wolnym, co oznacza, że
dopasowanie jest lepsze w przypadku modeli ze zmiennymi.
Statystyki dopasowania modelu
Kryterium
Tylko
wyraz
wolny
Wyraz wolny
i
współzmienne
AIC
1309.190
539.066
SC
1314.039
553.613
-2 log L
1307.190
533.066
Zastanowić się zatem należy, który spośród wszystkich
modeli ze zmiennymi jest najlepszy i czego to może
wynikać. Czy na podstawie wcześniej uzyskanych
informacji można stwierdzić, że istnieje jeszcze lepszy
model?
73
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Reszty
Reszty są to różnice między wartościami obserwowanymi i przewidywanymi.
Na przykład, jeżeli wystąpiło zdarzenie dla obiektu i, a z modelu wynika, że
prawdopodobieństwo zdarzenia wynosi 0,8, to reszta wynosi
ei  yi  pi  1  0,8  0,2
Są to reszty niestandaryzowane. Reszty standaryzowane wynoszą
zi 
ponieważ zi 
yi  pi
pi 1  pi 
yi  pi
są odchyleniami standardowymi w rozkładzie Bernoulliego.
pi 1  pi 
74
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Reszty
Odchylenia (deviance) są obliczane jako
Dev    ln( pi )
Studentyzowane reszty są obliczane jako zmiana odchylenia (deviance)
modelu, gdy dana obserwacja jest usunięta. Różnice między odchyleniami i
studentyzowanymi resztami mogą identyfikować nietypowe obserwacje.
Reszty logitowe (logit) są obliczane jako
(l )
i
e
ei

pi 1  pi 
75
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Reszty Pearsona i Dewiancji
Reszty Pearsona i Dewiancji są przydatne przy identyfikacji obserwacji, które nie są
dobrze przewidywane przez model. Reszty Pearsona są składową statystyki chi-kwadrat
Pearsona, reszty dewiancji sa składnikiem dewiancji. Statystyka chi-kwadrat Pearsona jest
suma kwadratów reszt Pearsona, dewiancja jest sumą kwadratów reszt dewiancji.
Kolejnym punktem weryfikacji modelu jest analiza statystyk zgodności dewiancji i
Pearsona- mierzących dopasowanie modelu. Zgodnie z teorią, statystyki te mogą być w
modelu binarnym estymowane oraz interpretowane, jeżeli liczba unikalnych subpopulacji
(grup udzielanych odpowiedzi) minus liczba estymowanych parametrów jest większa od 0.
76
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Number of unique profiles: 4
Statystyki zgodności dewiancji i Pearsona
Kryterium
Wartość
St. sw.
Wartość/st.
sw.
Deviance
18.0165
1
18.0165
<.0001
Pearson
19.0485
1
19.0485
<.0001
Pr > chi kw..
W prezentowanym przykładzie wyróżniono 4 unikalne profile przy 2 estymowanych
parametrach modelu, w związku z czym, wartości statystyk zgodności mogą być
interpretowane. Testowana jest hipoteza zerowa, że model jest dobrze dopasowany do
danych. Wartości p-value są niższe od domyślnego poziomu istotności 0,05, zatem
należy odrzucić hipotezę zerową na korzyść hipotezy alternatywnej; model jest źle
dopasowany do danych.
Uwaga: bardzo duża liczba profili w stosunku do liczby obserwacji, świadczy o tym, że w wielu komórkach
tablicy kontyngencji znalazły się pojedyncze jednostki schematu odpowiedzi na poszczególne pytania,
stanowiące zmienne objaśniające w modelu. Bez wątpienia ma to ogromny wpływ na jakość predykcyjną.
77
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Tablice klasyfikacji
Z punktu widzenia jakości modelu istotne jest, aby model dobrze szacował i klasyfikował
wartości teoretyczne. Celem zbadania jakości klasyfikacji sporządzić można tablice
kontyngencji (klasyfikacji) wartości empirycznych zmiennej objaśnianej względem
poszczególnych zmiennych objaśniających.
Na podstawie modelu chcemy przewidzieć, czy dane zjawisko wystąpiło czy nie. Jeżeli
prawdopodobieństwo tego, że osoba ma nadwagę >0.5, to z modelu wynika, że bardziej
prawdopodobne jest wystąpienie zjawiska, jeżeli <0.5, to bardziej prawdopodobne jest, że
osoba nie ma nadwagi. Pojawia się tu kolejna komplikacja w postaci nierównomiernego
rozkładu badanej cechy względem zmiennych objaśniających. W rezultacie model może
lepiej szacować tylko jeden wariant zmiennej objaśnianej (rozpoznaje ‘bezbłędnie’ osoby z
nadwagą, myli się w przypadku osób bez nadwagi).
Response
Po estymacji modelu można podzielić zbiór obserwacji
na dwie części: osoby, dla których pnadwaga>0.5 oraz
osoby, dla których pnienadwaga <0.5. Wartość =0.5
możemy arbitralnie zaliczyć do jednej z wymienionych
grup lub wyszczególnić.
Sample
1
2
...
r
Total
1
n1
n1
...
n1
n1
1
2
n2
n2
1
2
2
r
...
n2
n2
r
78
s
n
n
...
n
n
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Tablice klasyfikacji
Tabela nadwaga na komputer
nadwaga(nadwaga)
komputer(komputer)
Tabela nadwaga na fastfood
Razem
nadwaga(nadwaga)
fastfood(fastfood)
żadko lub prawie nigdy
często
brak nadwagi
406
43.05
70
7.42
476
50.48
467
49.52
nadwaga
15
1.59
452
47.93
467
49.52
943
100.00
Razem
421
44.64
522
55.36
943
100.00
brak komputera
komputer
brak nadwagi
375
39.77
101
10.71
476
50.48
nadwaga
268
28.42
199
21.10
Razem
643
68.19
300
31.81
Tabela 1 fastfood na nadwaga
Tabela 2 fastfood na nadwaga
Sterowanie dla komputer=brak komputera
Sterowanie dla komputer=komputer
fastfood(fastfood)
nadwaga(nadwaga)
Razem
brak nadwagi
nadwaga
żadko lub prawie nigdy
331
51.48
3
0.47
334
51.94
często
44
6.84
265
41.21
Razem
375
58.32
268
41.68
Liczebność
Procent
Raze
m
fastfood(fastfood)
nadwaga(nadwaga)
Razem
brak nadwagi
nadwaga
żadko lub prawie nigdy
75
25.00
12
4.00
87
29.00
309
48.06
często
26
8.67
187
62.33
213
71.00
643
100.00
Razem
101
33.67
199
66.33
300
100.00
79
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Tablice klasyfikacji
Po estymacji modelu można podzielić zbiór obserwacji na dwie części: osoby, dla
których pnadwaga>0.5 oraz osoby, dla których pnienadwaga <0.5. Wartość =0.5
możemy arbitralnie zaliczyć do jednej z wymienionych grup lub wyszczególnić.
Idealna sytuacja jest taka, gdy wartości zmiennej zależnej (nadwaga) pokrywają się z
wartościami przynależności do teoretycznych klas wyznaczonych przez model.
Oznacza to, że model prawidłowo podzielił zbiór osób na dwie kategorie – z nadwagą
i tych, którzy nie mają nadwagi. W praktyce tak nigdy nie jest. Są osoby, które maja
nadwagę, ale model zalicza je do kategorii osób nie mających nadwagi. Są też osoby,
które nie maja nadwagi, ale model zalicza je do kategorii osób z nadwagą.
Dokładniej zagadnienie to zostanie omówione nieco później
Testy chi-kwardat pozwalają na testowanie niezależności analizowanych zmiennych
(pozwala to zweryfikować hipotezę zerową o braku zależności pomiędzy
poszczególnymi kategoriami zmiennych).
80
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Dyskryminacja modelu
Dyskryminacja modelu mówi nam, jak dobrze model rozróżnia obiekty w obu grupach.
Idealny model zawsze przypisuje wyższe prawdopodobieństwo obiektom, dla których
wystąpiło zdarzenie niż obiektom, dla których zdarzenie nie wystąpiło. Oznacza to, że oba
zbiory nie zachodzą na siebie.
Miarami tej zgodności są statystyki dla cech porządkowych.
Mówimy, że para obserwacji z różnymi wartościami zmiennej objaśnianej
• zgodna (concordant), gdy
• niezgodna (discordant), gdy
yi  yl  pi  pl
yi  yl  pi  pl
yi  y l
jest
yi  yl  pi  pl
yi  yl  pi  pl
gdzie pi i pl i są przewidywanymi prawdopodobieństwami zdarzenia.
81
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Dyskryminacja modelu
Wówczas oblicza się następujące statystyki:
Percent Concordant
Percent Tied
Somers' d
nc
%
t
t  nc  nd
%
t
nc  nd
t
Tau Kendalla
nc  nd
0,5n(n  1)
Percent Discordant
nd
%
t
0,5n(n  1)
Pairs
Goodman-Kruskal Gamma
C
nc  0,5t  nn  nd 
t
gdzie
t - liczba par (yi, yl) z różnymi wartościami yi  yl
nc - liczba par zgodnych,
nd - liczba par niezgodnych,
n - liczba obserwacji.
nc  nd
nc  nd
Skojarzenie przewidywanych prawdopodobieństw
i obserwowanych reakcji
Procent zgodnych
88.0
D Somersa
0.844
Procent niezgodnych
3.7
Gamma
0.920
Percent Tied
8.3
Tau-a
0.422
c
0.922
Pary
222292
82
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
W tablicy przedstawione zostały cztery miary skojarzenia
mierzące zdolności predykcyjne modelu. Z 943 analizowanych
przypadków 88,0% zostało poprawnie zakwalifikowanych,
3,8% źle, w 8,1% decyzja nie została ogłoszona.
Skojarzenie przewidywanych prawdopodobieństw
i obserwowanych reakcji
Procent zgodnych
88.0
D Somersa
0.844
Procent niezgodnych
3.7
Gamma
0.920
Percent Tied
8.3
Tau-a
0.422
c
0.922
Pary
222292
Statystyki D Somersa, Gamma oraz Tau-a testują niezależność
zmiennych objaśnianej i objaśniających, na podstawie tablic
kontyngencji.
Statystyka gamma, dla skali porządkowej, jest nadwyżką
zgodnych par ponad niezgodne wyrażana jako procent w
stosunku do wszystkich wyodrębnionych par (poza tied).
Interpretować ją należy jako proporcjonalną redukcję błędu.
Znając zmienne niezależne eliminujemy błąd oszacowania
rangowania par o 91 %. Statystyka D Somersa jest modyfiakcją
gamma i jest to nadwyżka par zgodnych wyrażona jako procent
zgodnych, niezgodnych i związanych. Innymi słowy D Somers
jest warunkowym prawdopodobieństwem, że para jest zgodna
minus para jest niezgodna.
Statystyka c jest polem pod powierzchnią krzywej ROC.
Krzywa ROC jest wykresem zależności sensitivity
(czułości będącej ilorazem liczby przypadków
prawidłowo zakwalifikowanych przez model do grupy
osób z nadwagą oraz liczby wszystkich przypadków
nadwagi); 1-specificity (1- specyficzność; będącej
ilorazem liczby przypadków nieprawidłowo
zakwalifikowanych jako, ci u których wystąpiła nadwaga
do liczby wszystkich przypadków z grupy osób, u których
nie stwierdzono nadwagi). Krzywą ROC przedstawia
kolejny wykres.
83
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Kalibracja modelu
Kalibracja modelu mówi nam, jak silnie wartości obserwowane i przewidywane
pasują do siebie w całym przedziale zmienności. Do oceny tego służy test Hosmera i
Lemeshowa (1989).
Dzielimy obserwacje na 10 w przybliżeniu równych klas rosnąco według
oszacowanego prawdopodobieństwa zdarzenia (są to więc grupy decylowe) i badamy
rozkład obserwowanych i przewidywanych wartości w tych grupach. Następnie
stosujemy test zgodności oparty na statystyce χ2. Powinna być dostateczna liczebność
zbioru, tak aby w większości grup decylowych liczba oczekiwanych zdarzeń
przekraczała 5 i żadna grupa nie miała zerowej liczby oczekiwanych zdarzeń. Oblicza
się różnice między obserwowanymi wartościami ni i przewidywanymi
a następnie
10
ni  nˆi 2
i 1
nˆi

84
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Test Hosmera i Lemeshowa
Test Homera i Lemershowa, na podstawie percentyli wyliczonych prawdopodobieństw, podzielił
wszystkie obserwacje na 10 grup. Stosując statystykę chi-kwadrat testowane są różnice pomiędzy
przewidywaną a obserwowaną liczbą obserwacji w danych grupach.
Test zgodności Hosmera i
Lemeshowa
Chi-kwadrat
St. sw.
Pr > chi kw..
13.3530
8
0.1003
Miejsce na test Hosmera i Lemeshowa
Grupa
Otrzymane wysokie p-value sugeruje, że
model jest dobrze dopasowany, bowiem
testowana była hipoteza zerowa o tym, że
model jest dobrze dopasowany do danych.
Dla rozpatrywanego modelu test ten
pokazał na poziomie istotności 0,05
adekwatność modelu, co jest zjawiskiem
pożądanym.
Razem
nadwaga = 1
nadwaga = 0
Empiryczne
Oczekiwane
Empiryczne
Oczekiwane
1
94
0
1.32
94
92.68
2
94
1
2.29
93
91.71
3
94
1
3.10
93
90.90
4
94
6
4.39
88
89.61
5
94
46
40.18
48
53.82
6
94
79
77.86
15
16.14
7
94
83
80.17
11
13.83
8
94
78
82.15
16
11.85
9
94
88
85.30
6
8.70
10
97
85
90.23
12
6.77
Test zgodności Hosmera i
Lemeshowa
Chi-kwadrat
19.0485
St. sw.
2
Pr > chi kw..
<.0001
…ale w modelu po selekcji (gdzie wyróżniono 4 grupy) na
poziomie istotności stwierdzić należy brak adekwatności!!! 85
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Miary dobroci dopasowania
Statystyki R2 Coxa i Snella i R2 Nagelkerke'a mają na celu oszacowanie zmienności
zmiennej zależnej wyjaśnionej przez model w całkowitej zmienności. Mają one
interpretację zbliżoną do współczynnika determinacji w klasycznej regresji liniowej
(pozwalają ocenić pojemność informacyjną modelu). Większa wartość wartości
przeskalowanej świadczy o tym, że wszystkie wprowadzone do tej pory do modelu
zmienne są istotne statystycznie, a wprowadzanie zmiennych wpływa na poprawę jakości
2/n
modelu.
 L( 0 ) 

R 2 (Coxa i Snella)  1  
L


Ponieważ R2 Coxa i Snella nie osiąga maksymalnej wartości 1, Nagelkerke (1991)
zaproponował korektę tej statystyki.
R 2 (Coxai Snella)
R (Nagelkerke' a) 
R 2max
2
R-kwadrat
0.5600
gdzie
R 2max  1  L( 0 ) 
Maksymalnie przeskalowany r-kwadrat
2/n
0.7467
86
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
ZADANIA dla studentów
1. Proszę na podstawie zbioru arthrit dokonać selekcji
zmiennych do modelu ze zmienną objaśniającą better,
ocenić istotność zmiennych, dokonać weryfikacji
modelu (dopasowania do danych oraz pojemności
informacyjnej),
2. Proszę uzasadnić wybór danej metody kodowania
zmiennych oraz zinterpretować otrzymane wyniki,
3. Proszę na podstawie zbioru gosp zbadać zależność
zmiennej komputer od pozostałych zmiennych w
zbiorze (modelując prawdopodobieństwo ma
komputer oraz nie ma komputera), przeprowadzić
selekcję, zinterpretować wyniki.
87
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Projekt 2
Projekt powinien zawierać:
1. Estymacja modelu (z porównaniami modeli przy
różnych sposobach selekcji zmiennych do modelu)
2. Weryfikacja istotności parametrów
3. Weryfikacja jakości modelu oraz interpretacja
otrzymanych wyników
88
Regresja logistyczna z wykorzystaniem narzędzi SAS
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych ISiD SGH
Wykład: Ewa Frątczak, Marek Pęczkowski; Ćwiczenia: Iga Sikorska
Dziękuję za uwagę
89

Regresja logistyczna

Transcript Regresja logistyczna

Directory