Transcript pourpose

Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Regresja logistyczna ćwiczenia
Budowa karty scoringowej
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
1
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Struktura ćwiczeń
1. Zastosowanie modelu regresji logistycznej w praktyce biznesowej
2. Ocena statystyczna danych
3. Model Regresji Logistycznej- SAS Base
4. Model Regresji Logistycznej- EG
5. Interpretacja wyników
6. Pozostałe zagadnienia
- selekcja zmiennych
- ocena jakości modelu
- dyskryminacja
- obserwacje odstające i wpływowe
- nieliniowość modelu i interakcje
- cross-walidacja
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
2
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Zastosowanie modelu regresji logistycznej w
praktyce biznesowej
• Marketing – do określenia docelowego segmentu/grupy klientów do
których powinna być skierowana akcja promocyjna na podstawie
historycznego zachowania dotychczasowych odbiorców i ich
charakterystyk.
• Scoring kredytowy – do określenia decyzji kredytowej, na podstawie
dotychczasowego zachowania klientów banku określa się czy nowy
klient o danych charakterystykach otrzyma pozytywną decyzję
kredytową czy nie.
• Wykrywanie fraudów – do określenia próby oszustw na transakcjach
typu: karty kredytowe, roszczenia ubezpieczeniowe itp., na podstawie
okoliczności i warunków dotyczących historycznych transakcji oraz
informacji czy doszło do oszustwa określa się czy nowa transakcja lub
roszczenie wymaga szczegółowego przyjrzenia się czy też nie wymaga.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
3
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Budowa aplikacyjnej karty scoringowej
• Grupa docelowa: klient indywidualny, osoba fizyczna występująca do
Banku o kredyt
• Charakterystyki: głównie charakterystyki demograficzne, społecznoekonomiczne i finansowe
• Główny cel budowy karty: celem jest nadanie oceny scoringowej na
podstawie informacji zebranych we wniosku, zazwyczaj jest to podział
na ocenę: zaakceptowany lub odrzucony.
• Dodatkowa informacja z karty: dodatkowo, w zależności od
zastosowanej metody Banki mogą uzyskać informację o
prawdopodobieństwie niewywiązania się klienta z zobowiązań (regresja
logistyczna). W przypadku np. drzew decyzyjnych, funkcji
dyskryminacyjnej lub sieci nuronowych takich informacji nie ma.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
4
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Etapy budowy i monitoringu karty scoringowej
Etap I.
Etap II.
Etap III.
Etap IV.
Etap V.
Zbieranie
danych i
czyszczenie
Budowa
statystycznej
karty
scoringowej
Pre-walidacja i
testy
użytkowania
Wdrożenie
karty w Banku
Cykliczna
walidacja
W zależności od wyników walidacji:
przebudowa karty lub jej dalsze użytkowanie
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
5
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Baza danych do budowy karty
Do obejrzenia struktury danych wykorzystamy następujące procedury:
1. Skopiowanie pliku w celu uniknięcia jego nadpisania:
libname karta 'ścieżka do katalogu';
data karta.Score;
set karta.German;
run;
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
6
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Baza danych do budowy karty
Do obejrzenia struktury danych wykorzystamy następujące procedury:
2. Obejrzenie struktury pliku za pomocą procedury:
proc contents data=karta.Score;
run;
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
7
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Alphabetic List of Variables and Attributes
#
1
13
5
3
10
21
2
7
20
15
8
17
16
14
18
9
4
12
11
6
19
Variable
Type
Len
acc_status
age
credit_amt
credit_history
debtors
default
duration
employment
foreign_worker
housing
instalment
job
number_of_credit
other_instalments
people
personal_status
pourpose
property
residence
savings
telephone
Char
Num
Num
Char
Char
Num
Num
Char
Char
Char
Num
Char
Num
Char
Num
Char
Char
Char
Num
Char
Char
3
8
8
3
4
8
8
3
4
4
8
4
8
4
8
3
4
4
8
3
4
Format
Informat
Label
$3.
$3.
$3.
$4.
$3.
$4.
$3.
$4.
$4.
$3.
$4.
$4.
$4.
$4.
$4.
$4.
$3.
$4.
$4.
$3.
$4.
$4.
$3.
$4.
$3.
$4.
acc_status
age
credit_amt
credit_history
debtors
default
duration
employment
foreign_worker
housing
instalment
job
number_of_credit
other_instalments
people
personal_status
pourpose
property
residence
savings
telephone
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
8
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Ocena statystyczna danych
1. Wartości minimalne i maksymalne
2. Błędy
3. Obserwacje odstające
4. Braki danych
Dla zmiennych numerycznych: ocena za pomocą procedury MEANS
Dla zmiennych nominalnych: ocena za pomocą procedury FREQ
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
9
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Ocena statystyczna zmiennych numerycznych
Dla zmiennych numerycznych ocena może odbyć się za pomocą procedury
MEANS:
proc means data=karta.Score n nmiss mean min p5 p95 max;
var age credit_amt default duration instalment
number_of_credit people residence;
run;
* Na wydruku przedstawiono wyniki w zaokrągleniu do 2 miejsc dziesiętnych.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
10
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
The MEANS Procedure
N
Variable
Label
N
Miss
Mean
Minimum
5th Ptcl
95th Pctl Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
age
age
1000
0
35.55
19.00
22.00
60.00
75.00
credit_amt
credit_amt
1000
0 3271.26
250.00
708.50
default
default
1000
0
0.30
0
0
1.00
1.00
duration
duration
1000
0
20.90
4.00
6.00
48.00
72.00
instalment
instalment
1000
0
2.97
1.00
1.00
4.00
4.00
number_of_credit number_of_credit 1000
0
1.41
1.00
1.00
2.00
4.00
people
people
1000
0
1.15
1.00
1.00
2.00
2.00
residence
residence
1000
0
2.84
1.00
1.00
4.00
4.00
9214.0 18424.00
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
11
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Z przeprowadzonej analizy wynika:
1. Nie występują braki danych, zbiór już jest oczyszczony, w przypadku
braków danych należałoby obserwacje usunąć lub zastosować techniki
imputacji jeśli stanowiłyby zbyt duży odsetek obserwacji.
2. Dwie zmienne: default oraz people to zmienne binarne. Zmienna default to
zmienna celu (zależna) przyjmująca wartość 0 jeśli nie wystąpiło zdarzenie
niewykonania zobowiązań lub 1 w przeciwnym przypadku. Odsetek tzw.
„defaultów” wynosi 30%.
3. Z porównania wartości 95 centyla i maximum wynika że zmienna
credit_amt jest zmienną o rozkładzie asymetrycznym.
4. Zmienne instalment, number_of_credit residence to zmienne numeryczne
dyskretne, tylko zmienne age credit_amt duration to zmienne numeryczne
o charakterze ciągłym.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
12
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Ocena statystyczna zmiennych nominalnych
Dla zmiennych nominalnych ocena może odbyć się za pomocą procedury
FREQ:
proc freq data=karta.Score;
tables acc_status credit_history debtors
employment foreign_worker housing job
other_instalments personal_status pourpose
property savings telephone;
run;
* Na wydruku przedstawiono wyniki w zaokrągleniu do 2 miejsc dziesiętnych.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
13
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
The FREQ Procedure
acc_status
acc_
Cumulative
Cumulative
status
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A11
274
27.40
274
27.40
A12
269
26.90
543
54.30
A13
63
6.30
606
60.60
A14
394
39.40
1000
100.00
credit_history
credit_
Cumulative
Cumulative
history
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A30
40
4.00
40
4.00
A31
49
4.90
89
8.90
A32
530
53.00
619
61.90
A33
88
8.80
707
70.70
A34
293
29.30
1000
100.00
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
14
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
debtors
Cumulative
Cumulative
debtors
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A101
907
90.70
907
90.70
A102
41
4.10
948
94.80
A103
52
5.20
1000
100.00
employment
Cumulative
Cumulative
employment
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A71
62
6.20
62
6.20
A72
172
17.20
234
23.40
A73
339
33.90
573
57.30
A74
174
17.40
747
74.70
A75
253
25.30
1000
100.00
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
15
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
foreign_worker
foreign_
Cumulative
Cumulative
worker
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A201
963
96.30
963
96.30
A202
37
3.70
1000
100.00
housing
Cumulative
Cumulative
housing
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A151
179
17.90
179
17.90
A152
713
71.30
892
89.20
A153
108
10.80
1000
100.00
job
Cumulative
Cumulative
job
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A171
22
2.20
22
2.20
A172
200
20.00
222
22.20
A173
630
63.00
852
85.20
A174
148
14.80
1000
100.00
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
16
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
other_instalments
other_
Cumulative
Cumulative
instalments
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A141
139
13.90
139
13.90
A142
47
4.70
186
18.60
A143
814
81.40
1000
100.00
personal_status
personal_
Cumulative
Cumulative
status
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A91
50
5.00
50
5.00
A92
310
31.00
360
36.00
A93
548
54.80
908
90.80
A94
92
9.20
1000
100.00
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
17
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
pourpose
Cumulative
Cumulative
pourpose
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A40
234
23.40
234
23.40
A41
103
10.30
337
33.70
A410
12
1.20
349
34.90
A42
181
18.10
530
53.00
A43
280
28.00
810
81.00
A44
12
1.20
822
82.20
A45
22
2.20
844
84.40
A46
50
5.00
894
89.40
A48
9
0.90
903
90.30
A49
97
9.70
1000
100.00
property
Cumulative
Cumulative
property
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A121
282
28.20
282
28.20
A122
232
23.20
514
51.40
A123
332
33.20
846
84.60
A124
154
15.40
1000
100.00
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
18
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
savings
Cumulative
Cumulative
savings
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A61
603
60.30
603
60.30
A62
103
10.30
706
70.60
A63
63
6.30
769
76.90
A64
48
4.80
817
81.70
A65
183
18.30
1000
100.00
telephone
Cumulative
Cumulative
telephone
Frequency
Percent
Frequency
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A191
596
59.60
596
59.60
A192
404
40.40
1000
100.00
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
19
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Z przeprowadzonej analizy wynika:
1. Zmienne foreign_worker oraz telephone to zmienne binarne.
2. W
zmiennych
acc_status
credit_history
debtors
employment
foreign_worker job other_instalments personal_status pourpose savings
występują kategorie z niską liczbą obserwacji (poniżej 10%), należy
rozważyć połączenie tych kategorii z innymi o podobnym profilu ryzyka,
profil może być oceniony np. przez proporcję obserwacji „default” czyli
zmiennej celu.
3. W przypadku zmiennych z dużą liczbą kategorii, nawet jeśli nie występują
kategorie z niską liczbą obserwacji należy pogrupować kategorie w grupy o
podobnym profilu np. przez proporcję obserwacji „default”.
4. Zmienne nominalne (nie porządkowe) mogą być włączone do modelu tylko
jako zmienne binarne (z zastosowaniem kodowania zero-jedynkowego).
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
20
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Ocena statystyczna zmiennych nominalnych
W celu poprawnej kategoryzacji zmiennych nominalnych należy porównać
proporcje „default” dla każdej kategorii zmiennych za pomocą procedury
FREQ:
proc freq data=karta.Score;
tables acc_status*default credit_history*default
debtors*default employment*default
foreign_worker*default housing*default job*default
other_instalments*default personal_status*default
pourpose*default property*default savings*default
telephone*default/ nocol nopercent;
run;
tylko udziały w wierszu, bez udziałów
kolumnowych i komórkowych
* Na wydruku przedstawiono wyniki tylko dla zmiennych wymagających zmian.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
21
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Table of acc_status by default
acc_status(acc_status)
default(default)
Frequency‚
Row Pct ‚
0‚
1‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A11
‚
139 ‚
135 ‚
‚ 50.73 ‚ 49.27 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A12
‚
164 ‚
105 ‚
‚ 60.97 ‚ 39.03 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A13
‚
49 ‚
14 ‚
‚ 77.78 ‚ 22.22 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A14
‚
348 ‚
46 ‚
‚ 88.32 ‚ 11.68 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total
700
300
Total
274
269
63
Propozycja:
Połączenie kategorii A13 i A12 ze
względu na:
1. Podobieństwo profilu ryzyka
2. Najbliższe podobieństwo
merytoryczne:
A12 : 0 <= ... < 200 DM
A13 :
... >= 200 DM / salary
assignments for at least 1
year
394
1000
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
22
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Table of credit_history by default
credit_history(credit_history)
default(default)
Frequency‚
Row Pct ‚
0‚
1‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A30
‚
15 ‚
25 ‚
‚ 37.50 ‚ 62.50 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A31
‚
21 ‚
28 ‚
‚ 42.86 ‚ 57.14 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A32
‚
361 ‚
169 ‚
‚ 68.11 ‚ 31.89 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A33
‚
60 ‚
28 ‚
‚ 68.18 ‚ 31.82 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A34
‚
243 ‚
50 ‚
‚ 82.94 ‚ 17.06 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total
700
300
Total
40
49
530
88
Propozycja:
Połączenie kategorii A30 i A31 oraz A32 i
A33 ze względu na:
1. Podobieństwo profilu ryzyka
2. Najbliższe podobieństwo
merytoryczne:
A30 : no credits taken/all credits paid
back duly
A31 : all credits at this bank paid
back duly
A32 : existing credits paid back duly
till now
A33 : delay in paying off in the past
293
1000
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
23
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Table of debtors by default
debtors(debtors)
default(default)
Frequency‚
Row Pct ‚
0‚
1‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A101
‚
635 ‚
272 ‚
‚ 70.01 ‚ 29.99 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A102
‚
23 ‚
18 ‚
‚ 56.10 ‚ 43.90 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A103
‚
42 ‚
10 ‚
‚ 80.77 ‚ 19.23 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total
700
300
Total
907
41
52
1000
Propozycja:
Brak możliwości połączenie kategorii ze
względu na:
1. Niskie podobieństwo profilu ryzyka
2. Brak podobieństwa merytorycznego:
Other debtors / guarantors
A101 : none
A102 : co-applicant
A103 : guarantor
Uwaga: możliwość obciążenia
szacowanych estymatorów ze
względu na małe liczebności
grup!
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
24
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Table of employment by default
employment(employment)
default(default)
Frequency‚
Row Pct ‚
0‚
1‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A71
‚
39 ‚
23 ‚
‚ 62.90 ‚ 37.10 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A72
‚
102 ‚
70 ‚
‚ 59.30 ‚ 40.70 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A73
‚
235 ‚
104 ‚
‚ 69.32 ‚ 30.68 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A74
‚
135 ‚
39 ‚
‚ 77.59 ‚ 22.41 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A75
‚
189 ‚
64 ‚
‚ 74.70 ‚ 25.30 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total
700
300
Total
62
172
Propozycja:
Połączenie kategorii A71 i A72 ze
względu na:
1. Podobieństwo profilu ryzyka
2. Najbliższe podobieństwo
merytoryczne:
A71 : unemployed
A72 :
... < 1 year employment
339
174
253
1000
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
25
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
The FREQ Procedure
Table of foreign_worker by default
foreign_worker(foreign_worker)
default(default)
Frequency‚
Row Pct ‚
0‚
1‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A201
‚
667 ‚
296 ‚
‚ 69.26 ‚ 30.74 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A202
‚
33 ‚
4 ‚
‚ 89.19 ‚ 10.81 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total
700
300
Total
963
37
1000
Propozycja:
Brak możliwości połączenie kategorii ze
względu na:
1. Niskie podobieństwo profilu ryzyka
2. Brak podobieństwa merytorycznego:
foreign worker
A201 : yes
A202 : no
Uwaga: możliwość obciążenia
szacowanych estymatorów ze
względu na małą liczebność
grupy!
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
26
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Table of job by default
job(job)
default(default)
Frequency‚
Row Pct ‚
0‚
1‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A171
‚
15 ‚
7 ‚
‚ 68.18 ‚ 31.82 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A172
‚
144 ‚
56 ‚
‚ 72.00 ‚ 28.00 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A173
‚
444 ‚
186 ‚
‚ 70.48 ‚ 29.52 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A174
‚
97 ‚
51 ‚
‚ 65.54 ‚ 34.46 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total
700
300
Total
22
200
630
Propozycja:
Połączenie kategorii A171 i A172 ze
względu na:
1. Podobieństwo profilu ryzyka
2. Najbliższe podobieństwo
merytoryczne:
A171 : unemployed/ unskilled non-resident
A172 : unskilled - resident
148
1000
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
27
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Table of other_instalments by default
other_instalments(other_instalments)
default(default)
Frequency‚
Row Pct ‚
0‚
1‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A141
‚
82 ‚
57 ‚
‚ 58.99 ‚ 41.01 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A142
‚
28 ‚
19 ‚
‚ 59.57 ‚ 40.43 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A143
‚
590 ‚
224 ‚
‚ 72.48 ‚ 27.52 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total
700
300
Total
139
47
814
Propozycja:
Połączenie kategorii A141 i A142 ze
względu na:
1. Podobieństwo profilu ryzyka
2. Najbliższe podobieństwo
merytoryczne:
Other installment plans
A141 : bank
A142 : stores
1000
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
28
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Table of personal_status by default
personal_status(personal_status)
default(default)
Frequency‚
Row Pct ‚
0‚
1‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A91
‚
30 ‚
20 ‚
‚ 60.00 ‚ 40.00 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A92
‚
201 ‚
109 ‚
‚ 64.84 ‚ 35.16 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A93
‚
402 ‚
146 ‚
‚ 73.36 ‚ 26.64 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A94
‚
67 ‚
25 ‚
‚ 72.83 ‚ 27.17 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total
700
300
Total
50
310
548
Propozycja:
Połączenie kategorii A91, A93 i A94 ze
względu na:
1. Częściowe podobieństwo profilu ryzyka
ale znacznie bardziej:
2. Najbliższe podobieństwo merytoryczne:
A91:male:divorced/separated
A92:female:divorced/separated/married
A93:male : single
A94:male : married/widowed
A95 : female : single
92
1000
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
29
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Table of pourpose by default
pourpose(pourpose)
default(default)
Frequency‚
Propozycja:
Row Pct ‚
0‚
1‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Połączenie kategorii A46, A410 i A48
A40
‚
145 ‚
89 ‚
234
A44 i A45 oraz ze względu na
‚ 61.97 ‚ 38.03 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
podobieństwo profilu ryzyka oraz
A41
‚
86 ‚
17 ‚
103
‚ 83.50 ‚ 16.50 ‚
podobieństwo merytoryczne:
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A410
‚
7 ‚
5 ‚
12
Purpose
‚ 58.33 ‚ 41.67 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A40 : car (new)
A42
‚
123 ‚
58 ‚
181
‚ 67.96 ‚ 32.04 ‚
A41 : car (used)
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A43
‚
218 ‚
62 ‚
280
A42 : furniture/equipment
‚ 77.86 ‚ 22.14 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A43 : radio/television
A44
‚
8 ‚
4 ‚
12
A44 : domestic appliances
‚ 66.67 ‚ 33.33 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A45 : repairs
A45
‚
14 ‚
8 ‚
22
‚ 63.64 ‚ 36.36 ‚
A46 : education
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A46
‚
28 ‚
22 ‚
50
A47 : vacation
‚ 56.00 ‚ 44.00 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A48 : retraining
A48
‚
8 ‚
1 ‚
9
‚ 88.89 ‚ 11.11 ‚
A49 : business
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A49
‚
63 ‚
34 ‚
97
A410 : others
‚ 64.95 ‚ 35.05 ‚ I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total
700
300
1000
oraz
30
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Table of savings by default
savings(savings)
default(default)
Frequency‚
Row Pct ‚
0‚
1‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A61
‚
386 ‚
217 ‚
‚ 64.01 ‚ 35.99 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A62
‚
69 ‚
34 ‚
‚ 66.99 ‚ 33.01 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A63
‚
52 ‚
11 ‚
‚ 82.54 ‚ 17.46 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A64
‚
42 ‚
6 ‚
‚ 87.50 ‚ 12.50 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
A65
‚
151 ‚
32 ‚
‚ 82.51 ‚ 17.49 ‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total
700
300
Total
603
103
63
Propozycja:
Połączenie kategorii A63 i A64 ze
względu na:
1. Podobieństwo profilu ryzyka
2. Najbliższe podobieństwo
merytoryczne:
Savings account/bonds
A63 : 500 <= ... < 1000 DM
A64 :
.. >= 1000 DM
48
183
1000
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
31
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Za pomocą prostego DATA Stepu dokonamy transformacji (grupowania
kategorii) zmiennych aby uzyskać dane umożliwiające poprawną
estymację modelu:
data karta.Score;
set karta.Score;
if acc_status="A13" then acc_status="A12";
if credit_history="A31" then credit_history="A30";
if credit_history="A33" then credit_history="A32";
if employment="A72" then employment="A71";
if job="A172" then job="A171";
if other_instalments="A142" then other_instalments="A141";
if personal_status="A93" or personal_status="A94”
then personal_status="A91";
if pourpose="A410" or pourpose="A48" then pourpose="A46";
if pourpose="A45" then pourpose="A44";
if savings="A64" then savings="A63";
run;
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
32
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Wykorzystanie analizy skupień
 Innym sposobem łączenia kategorii zmiennej jest przeprowadzenie
analizy skupień.
 Jest to przydatna metoda w sytuacji kiedy zmienna posiada
kilkanaście lub więcej kategorii np. województwo i nie można
zastosować kryterium innego niż np. stopy default, odległość itp. brak
podstaw merytorycznych dołączenia kategorii.
 W naszym przykładzie można zastosować tą metodę tylko do
zmienne pourpose i porównać wyniki z zaproponowanym eksperckim
grupowaniem.
 Należy wyznaczyć średnie stopy default dla danej kategorii a
następnie przyjąć te wartości jako charakterystyki będące podstawą
grupowania.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
33
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Wykorzystanie analizy skupień
Analiza obejmuje w takiej sytuacji dwa kroki:
1. Zastosowanie procedury PROC MEANS do wyznaczenia proporcji
defaultów dla danej kategorii zmiennej pourpose:
proc means data=karta.Score noprint nway;
class pourpose; var default;
output out=Cluster mean=proporcja;
run;
2. Zastosowanie procedury PROC CLUSTER do wyznaczenia skupień:
proc cluster data=Cluster method=ward;
freq _freq_;
var proporcja;
id pourpose;
run;
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
34
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
The CLUSTER Procedure
Ward's Minimum Variance Cluster Analysis
Eigenvalues of the Covariance Matrix
Eigenvalue
1
Difference
Proportion
Cumulative
1.0000
1.0000
0.00701187
Root-Mean-Square Total-Sample Standard Deviation = 0.083737
Root-Mean-Square Distance Between Observations
= 0.118422
Cluster History
NCL
--Clusters Joined--9
8
7
6
5
4
3
2
1
FREQ
SPRSQ
A42
A44
193
0.0003
A45
A49
119
0.0004
A410
A46
62
0.0008
A41
A48
112
0.0034
A40
CL8
353
0.0085
CL5
CL7
415
0.0312
CL6
A43
392
0.0421
CL4 I. Edycja Studium
CL9 Podyplomowego
608
0.0665
pod patronatem
CL2
CL3 Polska. 1.III.2008
1000
0.8468
SAS Institute
-28.II.2009.
RSQ
1.00
.999
.999
.995
.987
.955
.913
.847
.000
T
i
e
35
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Podsumowując wyniki analizy skupień:
 Duże rozbieżności pomiędzy wynikami grupowania z analizy
skupień – tylko kryterium ilościowe tzn stopa default a grupowaniem
eksperckim
 Grupowanie eksperckie uwzględnia również podział merytoryczny
 Postępowanie w takich przypadkach powinno obejmować
zarówno ocenę ilościową (analiza skupień) jak i jakościową
(grupowanie eksperckie – merytoryczne).
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
36
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Regresja logistyczna w systemie SAS
Do estymacji modelu regresji logistycznej w systemie SAS z
zastosowaniem metody największej wiarygodności można
wykorzystać następujące procedury:
- PROC LOGISTIC
- PROC GENMOD
- PROC CATMOD
- PROC DMREG (Enterprise Miner)
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
37
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
PROC LOGISTIC – opcje procedury
1.
PROC LOGISTIC < options >;
2.
3.
BY variables ;
CLASS variable <(v-options)> <variable <(voptions)>... > < / v-options >;
4.
5.
CONTRAST 'label' effect values <,... effect
values>< /options >;
EXACT < 'label' >< Intercept >< effects >< /
options > ;
6.
FREQ variable ;
7.
MODEL events/trials = < effects > < / options >;
8.
OUTPUT < OUT=SAS-data-set >
<keyword=name...keyword=name> / <option>;
SCORE < options >;
9.
10. STRATA effects < / options >;
11. < label: > TEST equation1 < , ... , < equationk
>> < /option >;
12. UNITS independent1 = list1 < ... independentk
= listk > < /option > ;
13. WEIGHT variable </ option >;
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
Wskazanie zbioru danych, opcje ogólne
Przeprowadzenie analizy w podgrupach (zbiór musi
być wcześniej posortowany)
Wskazanie zmiennych jakościowych i określenie ich
kodowania
Przeprowadzenie testu liniowych ograniczeń, przy
czym w testowanym równaniu nie może
występować stała
Dokładne testy istotności parametrów
Wskazanie zmiennej określającej częstości
obserwacji (dane pogrupowane)
Określenie postaci modelu i opcji, np: wyliczenie
dodatkowych miar
Zapisanie pewnych informacji do zbioru SAS
Obliczenie score (prawdopodobieństw) z gotowego
modelu na nowych danych
Przeprowadzenie stratyfikowanej regresji
logistycznej
Przeprowadzenie testów liniowych ograniczeń
Zadanie dla jakich zmian wartości zmiennych
ciągłych mają być obliczone ilorazy szans
Wskazanie zmiennej zawierającej wagi obserwacji
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
38
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Model karty scoringowej
Input: zmienna objaśniająca tzw. zmienna celu to zmienna zerojedynkowa: default:
1 oznacza że klient w ciągu roku od uzyskania kredytu przestał regulować
swoje zobowiązania wobec Banku tzw. klient „zły”,
0 oznacza klienta tzw. „dobrego” czyli klienta który w ciągu roku po
otrzymaniu kredytu regularnie wywiązywał się ze swoich zobowiązań
wobec Banku.
Zmienne objaśniające, charakterystyki opisujące klienta w momencie
aplikacji czyli w momencie wniosku o kredyt:
acc_status credit_history debtors employment foreign_worker housing job
other_instalments personal_status pourpose
property savings
telephone age credit_amt default duration instalment number_of_credit
people residence
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
39
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Zastosowanie modelu regresji logistycznej
Estymacja modelu regresji logistycznej do budowy karty scoringowej
będzie obejmowała następujące kroki:
1. Budowa prostego modelu włączającego wszystkie zmienne w EG oraz
w 4GL (nie wszystkie opcje PROC LOGISTIC są dostępne w EG)
2. Zastosowanie różnych metod selekcji zmiennych oraz porównanie
otrzymanych wyników
3. Ocena statystyczna modelu – oszacowanie podstawowych
charakterystyk, wykresy ROC i obserwacji wpływowych
4. Walidacja modelu na próbce testowe tzw. cross-walidacja
5. Interpretacja przydatności otrzymanego modelu w praktyce,
możliwości prognozy na bazie modelu.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
40
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Estymacja modelu w EG – wczytanie zmiennych
order
descending
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
41
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Estymacja modelu w EG – wczytanie zmiennych
Reference
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
42
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Estymacja modelu w EG – tylko efekty główne
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
43
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Estymacja modelu w EG – wszystkie zmienne bez selekcji
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
44
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Estymacja modelu w EG – bez opcji dodatkowych
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
45
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Kod 4GL wygenerowany przez EG
PROC LOGISTIC DATA=Score;
CLASS acc_status (PARAM=REF)credit_history (PARAM=REF) pourpose
(PARAM=REF)savings (PARAM=REF) employment (PARAM=REF)
personal_status (PARAM=REF)debtors (PARAM=REF)property
(PARAM=REF) other_instalments (PARAM=REF) housing (PARAM=REF)
job (PARAM=REF) telephone (PARAM=REF) foreign_worker
(PARAM=REF);
MODEL default=age credit_amt duration instalment
number_of_credit people residence acc_status credit_history
debtors employment foreign_worker housing job other_instalments
personal_status pourpose property savings
telephone/SELECTION=NONE LINK=LOGIT;
RUN;
QUIT;
Wady: brak możliwości ustawienia kategorii referencyjnej; brak możliwości
zmiany jednostki w ODDS ratios
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
46
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Interpretacja wyników z EG
Model Information
Data Set
WORK.SORT9591
Response Variable
default
default
Number of Response Levels 2
Model
binary logit
Optimization Technique
Fisher's scoring
Number of Observations Read 1000
Number of Observations Used 1000
Response Profile
Ogólne informacje o danych
wykorzystanych do modelowania:
Zmienna zależna: default,
300
Kolejność: malejąca
I. Edycja Studium Podyplomowego pod patronatem
Liczebność
„1”=300 „0”=700 razem 1000
700
SAS Institute
Polska. 1.III.2008 -28.II.2009.
Ordered default Total
Value
Frequency
1
1
2
0
47
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Class Level Information
Class Level Information
Class
Value
Design Variables
Class
Value
Design Variables
acc_status
A11
1
0
personal_status
0
1
A12
0
1
1
0
A14
0
0
A101
1
0
A30
1
0
A102
0
1
A32
0
1
A103
0
0
A34
0
0
A121
1
0
0
A40
1
0
0
0
0
0
A122
0
1
0
A41
0
1
0
0
0
0
A123
0
0
1
A42
0
0
1
0
0
0
A124
0
0
0
A43
0
0
0
1
0
0
0
1
A44
0
0
0
0
1
0
1
0
A46
0
0
0
0
0
1
A151
1
0
A49
0
0
0
0
0
0
A152
0
1
A61
1
0
0
A153
0
0
A62
0
1
0
A171
1
0
A63
0
0
1
A173
0
1
A65
0
0
0
A174
0
0
A71
1
0
0
0
1
A73
0 I.1Edycja
0 Studium Podyplomowego pod patronatem
SAS Institute Polska.foreign_worker
1.III.2008 -28.II.2009.
0 0 1
1
0
0
1
credit_history
pourpose
savings
employment
A74
debtors
property
other_instalments
housing
job
telephone
0
Kategoria
referencyjna
48
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Class Level Information
Class
Value Design Variables
acc_status
A11
1
0
A12
0
1
A14
-1 -1
A30
1
0
A32
0
1
A34
-1 -1
A40
1
0
0
0
0
0
A41
0
1
0
0
0
0
A42
0
0
1
0
0
0
A43
0
0
0
1
0
0
A44
0
0
0
0
1
0
A46
0
0
0
0
0
1
credit_history
pourpose
Inny sposób
kodowania: „Effects”.
Trudność:
nieintuicyjna
interpretacja
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
A49
-1 -1 -1 -1 -1 -1
49
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Model Fit Statistics
Criterion
Intercept
Only
Intercept and
Covariates
AIC
1223.729
987.179
SC
1228.636
1168.766
-2 Log L
1221.729
913.179
Testing Global Null Hypothesis: BETA=0
Test
Chi-Square DF Pr > ChiSq
Likelihood Ratio 308.5496
36 <.0001
Score
269.2315
36 <.0001
Wald
197.4215
36 <.0001
Kryterium AIC oraz SC
do porównywania modeli
Testowanie hipotezy H0, że
wszystkie współczynniki
regresji wynoszą 0 z
wyjątkiem wyrazu wolnego
Model Convergence Status
I. Edycja Studium Podyplomowego pod patronatem
Convergence criterion
(GCONV=1E-8) satisfied.
SAS Institute Polska. 1.III.2008 -28.II.2009.
Kryterium zbieżności
modelu zostało
osiągnięte
50
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Type 3 Analysis of Effects
Effect
DF
1
age
1
credit_amt
1
duration
1
instalment
1
number_of_credit
1
people
1
residence
2
acc_status
2
credit_history
2
debtors
3
employment
1
foreign_worker
2
housing
2
job
1
other_instalments
1
personal_status
6
pourpose
3
property
3
savings
1
telephone
Wald Chi-Square Pr > ChiSq
2.4809
0.1152
7.2640
0.0070
9.4888
0.0021
12.0256
0.0005
1.3063
0.2531
0.5300
0.4666
0.0088
0.9253
57.2466
<.0001
18.6506
<.0001
5.3313
0.0696
8.8007
0.0321
4.9292
0.0264
5.4390
0.0659
0.2624
0.8770
6.9681
0.0083
3.8014
0.0512
26.9229
0.0001
3.6033
0.3076
I. Edycja
Studium Podyplomowego
pod patronatem
17.5750
0.0005
SAS Institute Polska. 1.III.2008 -28.II.2009.
2.4802
0.1153
Analiza typu 3
pokazuje które ze
zmiennych są
istotne kontrolując
efekt pozostałych
zmiennych.
Na poziomie
istotności 0,1
siedem zmiennych
jest nieistotnych.
51
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Analysis of Maximum Likelihood Estimates
Parameter
DF Estimate
Intercept
age
credit_amt
duration
instalment
number_of_credit
people
residence
acc_status
acc_status
credit_history
credit_history
debtors
debtors
employment
employment
employment
foreign_worker
A11
A12
A30
A32
A101
A102
A71
A73
A74
0
Standard
Error
1
-5.7918
1.1059
1
-0.0141
0.00897
1
0.000116 0.000043
1
0.0280
0.00911
1
0.2977
0.0859
1
0.1978
0.1730
1
0.1749
0.2403
1
0.00791
0.0844
1
1.6938
0.2270
1
1.1841
0.2183
1
1.3921
0.3319
1
0.7611
0.2393
1
0.9103
0.4158
1
1.1529
0.5603
1
0.2438
0.2636
1
0.1256
0.2472
1 Studium
-0.5520
0.2973
I. Edycja
Podyplomowego
pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
1
-1.3966
0.6290
Wald
Chi-Square
27.4267
2.4809
7.2640
9.4888
12.0256
1.3063
0.5300
0.0088
55.6898
29.4287
17.5916
10.1202
4.7914
4.2335
0.8560
0.2581
3.4469
4.9292
Pr > ChiSq
<.0001
0.1152
0.0070
0.0021
0.0005
0.2531
0.4666
0.9253
<.0001
<.0001
<.0001
0.0015
0.0286
0.0396
0.3549
0.6114
0.0634 52
0.0264
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Analysis of Maximum Likelihood Estimates cd.
Parameter
DF Estimate
Standard
Error
0.7679
0.4631
housing
A151 1
0.2804
0.4382
housing
A152 1
0.000676 0.3214
job
A171 1
0.0923
0.2684
job
A173 1
1
-0.5481
0.2076
other_instalments
0
1
0.3686
0.1891
personal_status
0
1
0.6863
0.3242
pourpose
A40
1
-0.9156
0.4262
pourpose
A41
1
-0.0747
0.3437
pourpose
A42
1
-0.1914
0.3260
pourpose
A43
1
0.3626
0.5096
pourpose
A44
1
0.2392
0.4089
pourpose
A46
-0.7567
0.4118
property
A121 1
-0.4928
0.4022
property
A122 1
-0.5669
0.3907
property
A123 1
1
0.9679
0.2578
savings
A61
1
0.6867
0.3416
savings
A62
I. Edycja Studium Podyplomowego pod patronatem
1 SAS Institute
0.1953
0.3818
savings
A63
Polska. 1.III.2008
-28.II.2009.
1
0.3114
0.1977
telephone
0
Wald
Chi-Square
2.7492
0.4096
0.0000
0.1183
6.9681
3.8014
4.4806
4.6145
0.0473
0.3448
0.5064
0.3422
3.3760
1.5016
2.1057
14.0989
4.0425
0.2616
2.4802
Pr > ChiSq
0.0973
0.5222
0.9983
0.7309
0.0083
0.0512
0.0343
0.0317
0.8279
0.5571
0.4767
0.5586
0.0662
0.2204
0.1468
0.0002
0.0444
0.6091 53
0.1153
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Interpretacja parametrów
1. Wartość parametrów to miara zmiany w logicie (log odds)
odpowiadająca jednostkowej zmianie w zmiennej skorygowana na
efekt wpływu innych zmiennych włączonych do modelu.
2. Interpretacja parametrów jest utrudniona ze względu na
niejednorodną jednostkę pomiaru dla poszczególnych zmiennych,
oszacowanie parametrów standaryzowanych jest możliwe tylko dla
zmiennych numerycznych (brak takiej opcji w EG).
3. „+” pozytywny wpływ czyli wzrost prawdopodobieństwa wystąpienia
zdarzenia.
4. „-” ujemny wpływ czyli spadek prawdopodobieństwa wystąpienia
zdarzenia.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
54
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Odds Ratio Estimates
Effect
Point Estimate
95% Wald
Confidence Limits
0.986
0.969
1.003
age
1.000
1.000
1.000
credit_amt
1.028
1.010
1.047
duration
1.347
1.138
1.594
instalment
1.219
0.868
1.711
number_of_credit
1.191
0.744
1.908
people
1.008
0.854
1.189
residence
5.440
3.487
8.488
acc_status A11 vs A14
3.268
2.130
5.012
acc_status A12 vs A14
4.023
2.099
7.711
credit_history A30 vs A34
2.141
1.339
3.421
credit_history A32 vs A34
2.485
1.100
5.614
debtors A101 vs A103
3.167
1.056
9.499
debtors A102 vs A103
1.276
0.761
2.139
employment A71 vs A75
1.134
0.698
1.840
employment A73 vs A75
0.576
0.322
1.031
employment A74 vs A75
Studium
Podyplomowego pod patronatem
0.247
0.072
0.849
foreign_worker 0 vs 1 I. Edycja
SAS Institute Polska. 1.III.2008 -28.II.2009.
55
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Odds Ratio Estimates cd.
Effect
Point Estimate
95% Wald
Confidence Limits
2.155
0.870
5.342
housing A151 vs A153
1.324
0.561
3.125
housing A152 vs A153
1.001
0.533
1.879
job A171 vs A174
1.097
0.648
1.856
job A173 vs A174
0.578
0.385
0.868
other_instalments 0 vs 1
1.446
0.998
2.094
personal_status 0 vs 1
1.986
1.052
3.750
pourpose A40 vs A49
0.400
0.174
0.923
pourpose A41 vs A49
0.928
0.473
1.820
pourpose A42 vs A49
0.826
0.436
1.564
pourpose A43 vs A49
1.437
0.529
3.901
pourpose A44 vs A49
1.270
0.570
2.831
pourpose A46 vs A49
0.469
0.209
1.052
property A121 vs A124
0.611
0.278
1.344
property A122 vs A124
0.567
0.264
1.220
property A123 vs A124
2.633
1.588
4.363
savings A61 vs A65
1.987
1.017
3.881
savings A62 vs A65
I. Edycja Studium Podyplomowego pod patronatem
1.216
0.575
2.569
savings A63 vs A65
SAS Institute
Polska. 1.III.2008 -28.II.2009.
1.365
0.927
2.012
telephone 0 vs 1
56
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Interpretacja parametrów Odds Ratio
1. Odds Ratio jest miarą efektu wpływu zmiennej niezależnej na
zmienną zależną skorygowanego na wpływ pozostałych zmiennych
włączonych do modelu.
2. Przykładowo: wartość Odds ratio dla zmiennej foreign_worker
wynosi 0,247 czyli odds defaultu jest 0,247 razy mniejsze dla
robotnika zagranicznego niż dla krajowego.
3. Standardowo/domyślnie program SAS podaje 95% przedział ufności
Walda.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
57
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Interpretacja wyników z EG
Association of Predicted Probabilities and
Observed Responses
Percent Concordant 82.5
Somers' D 0.651
Percent Discordant
17.4
Gamma
0.652
Percent Tied
0.2
Tau-a
0.274
Pairs
210000 c
AR=2*c-1
0.825
Miary prezentowane w powyższej tabeli są oparte na tzw. parach zgodnych i
niezgodnych. Para obserwacji jest zgodna jeżeli obserwacja z wynikiem czyli 1
ma prawdopodobieństwo z modelu większe niż obserwacja z wynikiem 0. para
jest niezgodna jeżeli wystąpi odwrotna sytuacja. Dla obserwacji z takim samym
prawdopodobieństwem będzie para tzw. „tied”.
I wyższa wartość statystyk Sommers’D Gamma Tau-a c tym lepszy model.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
58
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Selekcja zmiennych objaśniających
Podstawowe metody selekcji zmiennych objaśniających które powinny
wejść do modelu:
1. Zastosowanie korelacji Spearmana pomiędzy poszczególnymi
zmiennymi a zmienną objaśnianą (binarną) z uzupełnieniem o takie miary
jak statystyka Hoeffdinga (D).
2. Estymacja modeli z wszystkimi możliwymi kombinacjami zmiennych (co
przy dużej liczbie zmiennych będzie raczej uciążliwe) .
3. Metody krokowe: Stepwise Selection (może ominąć istotne zmienne i
niekoniecznie znaleźć optymalny zestaw zmiennych), Forward Selection i
Backward Selection (bezpieczniejsza niż Stepwise Selection)
4. Metoda wyboru zmiennych najmniej ze sobą skorelowanych
(ograniczenie: tylko dla zmiennych numerycznych).
5. Preselekcja na podstawie modelu jednoczynnikowego (nie uwzględnia
I. Edycja Studium Podyplomowego pod patronatem
59
związków i wpływu pomiędzy
zmiennymi objaśniającymi).
SAS Institute Polska. 1.III.2008 -28.II.2009.
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Wybór zmiennych - Selekcja Backward
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
60
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Summary of Backward Elimination
Step
Effect
Removed
DF
Number
In
Wald
Chi-Square
Pr > ChiSq
Variable
Label
1
residence
1
19
0.0088
0.9253
residence
2
job
2
18
0.2618
0.8773
job
3
people
1
17
0.4870
0.4853
people
4
property
3
16
3.6509
0.3017
property
5
number_of_credit
1
15
1.3408
0.2469
number_of_credit
6
telephone
1
14
2.2760
0.1314
telephone
7
age
1
13
3.2442
0.0717
age
8
personal_status
1
12
3.8065
0.0511
personal_status
Zmienne wyeliminowane z modelu
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
61
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Type 3 Analysis of Effects
Effect
DF Wald
Pr > ChiSq
Chi-Square
credit_amt
1
6.0153
0.0142
duration
1
12.7384
0.0004
instalment
1
10.5399
0.0012
acc_status
2
59.2689
<.0001
credit_history
2
20.5192
<.0001
debtors
2
6.0951
0.0475
employment
3
10.8725
0.0124
foreign_worker
1
5.3673
0.0205
housing
2
8.9695
0.0113
other_instalments 1
6.8620
0.0088
27.4786
0.0001
pourpose
6
savings
3
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
17.7085
0.0005
Istotność
poszczególnych
zmiennych bez
uwzględniania
wpływu pozostałych
zmiennych, zmienne
które weszły do
modelu na poziomie
istotności 0,05
62
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Analysis of Maximum Likelihood Estimates
Parameter
DF Estimate
Standard
Error
Wald
Pr > ChiSq
Chi-Square
Intercept
1
-5.6750
0.7708
54.2087
credit_amt
1
0.000098 0.000040 6.0153
0.0142
duration
1
0.0315
0.00884
12.7384
0.0004
instalment
1
0.2703
0.0833
10.5399
0.0012
<.0001
acc_status
A11
1
1.7049
0.2237
58.0764
<.0001
acc_status
A12
1
1.1717
0.2155
29.5687
<.0001
credit_history
A30
1
1.3746
0.3140
19.1592
<.0001
credit_history
A32
1
0.6600
0.2062
10.2404
0.0014
debtors
A101 1
0.9357
0.4033
5.3832
0.0203
debtors
A102 1
1.2196
0.5511
4.8981
0.0269
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
63
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Analysis of Maximum Likelihood Estimates cd.
Parameter
DF Estimate Standard Wald
Error
Chi-Square
0.3892
0.2394
2.6416
employment
A71 1
0.2132
0.2270
0.8815
employment
A73 1
-0.4663 0.2820
2.7341
employment
A74 1
1
-1.4337 0.6189
5.3673
foreign_worker
0
0.5438
0.3156
2.9685
housing
A151 1
-0.0917 0.2712
0.1144
housing
A152 1
1
-0.5336 0.2037
6.8620
other_instalments 0
0.7487
0.3176
5.5570
pourpose
A40 1
-0.8429 0.4137
4.1515
pourpose
A41 1
0.0711
0.3315
0.0461
pourpose
A42 1
-0.1066 0.3165
0.1134
pourpose
A43 1
0.4636
0.5001
0.8591
pourpose
A44 1
0.3550
0.4000
0.7873
pourpose
A46 1
0.9427
0.2521
13.9871
savings
A61 I.1Edycja Studium
Podyplomowego pod patronatem
Institute Polska. 1.III.2008
-28.II.2009.
0.3347
5.0853
savings
A62 1 SAS0.7547
Pr > ChiSq
0.1041
0.3478
0.0982
0.0205
0.0849
0.7352
0.0088
0.0184
0.0416
0.8301
0.7363
0.3540
0.3749
0.0002
0.0241
64
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Odds Ratio Estimates
Effect
Point Estimate 95% Wald
Confidence Limits
credit_amt
1.000
1.000
1.000
duration
1.032
1.014
1.050
instalment
1.310
1.113
1.543
acc_status A11 vs A14
5.501
3.548
8.529
acc_status A12 vs A14
3.227
2.116
4.924
credit_history A30 vs A34 3.954
2.136
7.317
credit_history A32 vs A34 1.935
1.291
2.898
debtors A101 vs A103
2.549
1.156
5.618
debtors A102 vs A103
3.386
1.150
9.972
employment A71 vs A75
1.476
0.923
2.360
employment A73 vs A75
1.238
0.793
1.931
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute0.627
Polska. 1.III.2008 -28.II.2009. 0.361
employment A74 vs A75
1.090
65
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Odds Ratio Estimates cd.
Effect
Point Estimate 95% Wald
Confidence Limits
foreign_worker 0 vs 1
0.238
0.071
0.802
housing A151 vs A153
1.723
0.928
3.197
housing A152 vs A153
0.912
0.536
1.553
other_instalments 0 vs 1
0.586
0.393
0.874
pourpose A40 vs A49
2.114
1.135
3.940
pourpose A41 vs A49
0.430
0.191
0.968
pourpose A42 vs A49
1.074
0.561
2.056
pourpose A43 vs A49
0.899
0.483
1.672
pourpose A44 vs A49
1.590
0.596
4.237
pourpose A46 vs A49
1.426
0.651
3.124
savings A61 vs A65
2.567
1.566
4.207
savings A62 vs A65
2.127
1.104
4.098
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
savings A63 vs A65
1.192
0.570
2.493
66
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Nowy model z 12 zmiennymi
Association of Predicted Probabilities and
Observed Responses
Percent Concordant 81.9
Somers' D 0.640
Percent Discordant
17.9
Gamma
0.642
Percent Tied
0.2
Tau-a
0.269
Pairs
210000 c
0.820
Model ze wszystkimi zmiennymi
Association of Predicted Probabilities and
Observed Responses
Percent Concordant 82.5
Porównując wyniki dla
modelu pełnego ze
wszystkimi zmiennymi
wartości statystyk
Sommers’D Gamma Taua oraz c nieznacznie
spadły. Spadek jednak
jest nieporównywalny do
liczby zmiennych
wykluczonych z modelu.
Somers' D 0.651
Percent Discordant
17.4
Gamma
0.652
Percent Tied
0.2
Tau-a
0.274
Pairs
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
210000 c
0.825
67
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Model jednoczynnikowy
Dla porównania wyników selekcji zastosujemy również analizę
jednoczynnikową, z wykorzystaniem następującego kodu w 4GL:
proc logistic data=tmp1.score;
class zmienna (param=ref); /*dla zmiennych nominalnych*/;
model default=zmienna;
run;
Za zmienną należy podstawić po kolei zmienne ze zbioru a następnie
odczytać wyniki z okna Output
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
68
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
age
credit_amt
duration
instalment
number_of_credit
people
residence
acc_status
credit_history
debtors
employment
foreign_worker
housing
job
other_instalments
personal_status
pourpose
property
savings
telephone
c
0,571
0,555
0,629
0,543
0,525
0,501
0,500
0,701
0,626
0,526
0,580
0,517
0,567
0,520
0,548
0,538
0,603
0,585
I. Edycja Studium Podyplomowego
0,599 pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
0,520
AR
14,2%
11,0%
25,8%
8,6%
5,0%
0,2%
0,0%
40,2%
25,2%
5,2%
16,0%
3,4%
13,4%
4,0%
9,6%
7,6%
20,6%
17,0%
19,8%
4,0%
Backward
TAK
TAK
TAK
TAK
TAK
TAK
TAK
TAK
TAK
TAK
TAK
TAK 69
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Ocena statystyczna modelu
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
70
Profile Likelihood Confidence Interval for Parameters
Studia Podyplomowe 95% Confidence Limits
Parameter
Estimate
ANALIZY STATYSTYCZNE
W BIZNESI
-5.6750 I DATA MINING
-7.2221
-4.1965
Intercept
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
0.000098
0.000020
0.000177
credit_amt
BLOK ZAJĘĆ
„REGRESJA LOGISTYCZNA”
0.0315
0.0143
0.0490
duration
0.2703
0.1086
0.4353
instalment
1.7049
1.2726
2.1509
acc_status
A11
1.1717
0.7546
1.6006
acc_status
A12
1.3746
0.7647
1.9977
credit_history
A30
0.6600
0.2613
1.0710
credit_history
A32
0.9357
0.1789
1.7725
debtors
A101
1.2196
0.1534
2.3241
debtors
A102
0.3892
-0.0789
0.8608
employment
A71
0.2132
-0.2301
0.6610
employment
A73
-0.4663
-1.0251
0.0822
employment
A74
-1.4337
-2.8031
-0.3274
foreign_worker
0
0.5438
-0.0729
1.1662
housing
A151
-0.0917
-0.6215
0.4438
housing
A152
-0.5336
-0.9324
-0.1328
other_instalments
0
0.7487
0.1339
1.3812
pourpose
A40
-0.8429
-1.6693
-0.0424
pourpose
A41
0.0711
-0.5746
0.7272
pourpose
A42
-0.1066
-0.7217
0.5216
pourpose
A43
0.4636
-0.5283
1.4410
pourpose
A44
0.3550
-0.4283
1.1432
pourpose
A46
0.9427
0.4592
1.4494
savings
A61
I. Edycja Studium Podyplomowego pod patronatem
0.7547
0.0995
1.4142
savings
A62SAS Institute
Polska. 1.III.2008 -28.II.2009.
0.1753
-0.5779
0.9046
savings
A63
71
Wald Confidence Interval for Parameters
Studia Podyplomowe
Parameter
Estimate
95% W
Confidence
Limits
ANALIZY STATYSTYCZNE I DATA MINING
BIZNESI
Zakład Analizy Historii Zdarzeń i-5.6750
Analiz Wielopoziomowych, Instytut
Statystyki i Demografii, -4.1643
SGH
-7.1857
Intercept
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
0.000098
0.000020
0.000176
credit_amt
0.0315
0.0142
0.0489
duration
0.2703
0.1071
0.4335
instalment
1.7049
1.2665
2.1434
acc_status
A11
1.1717
0.7494
1.5940
acc_status
A12
1.3746
0.7591
1.9902
credit_history
A30
0.6600
0.2558
1.0642
credit_history
A32
0.9357
0.1453
1.7260
debtors
A101
1.2196
0.1395
2.2998
debtors
A102
0.3892
-0.0801
0.8585
employment
A71
0.2132
-0.2318
0.6581
employment
A73
-0.4663
-1.0190
0.0864
employment
A74
-1.4337
-2.6467
-0.2208
foreign_worker
0
0.5438
-0.0748
1.1624
housing
A151
-0.0917
-0.6234
0.4399
housing
A152
-0.5336
-0.9329
-0.1344
other_instalments
0
0.7487
0.1262
1.3712
pourpose
A40
-0.8429
-1.6538
-0.0321
pourpose
A41
0.0711
-0.5785
0.7208
pourpose
A42
-0.1066
-0.7270
0.5138
pourpose
A43
0.4636
-0.5167
1.4438
pourpose
A44
I.
Edycja Studium
Podyplomowego pod patronatem
0.3550
-0.4291
1.1390
pourpose
A46
SAS Institute Polska. 1.III.2008 -28.II.2009.
0.9427
0.4486
1.4367
savings
A61
72
Profile Likelihood Confidence Interval for Adjusted
Odds Ratios
Studia Podyplomowe
ANALIZY STATYSTYCZNE
I DATA MINING W95%
BIZNESI
Effect
Unit
Estimate
Confidence Limits
Zakład Analizy Historii Zdarzeń
i Analiz Wielopoziomowych,
1.0000
1.000 Instytut Statystyki
1.000i Demografii, SGH
1.000
credit_amt
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
1.0000
1.032
1.014
1.050
duration
1.0000
1.310
1.115
1.546
instalment
1.0000
5.501
3.570
8.593
acc_status A11 vs A14
1.0000
3.227
2.127
4.956
acc_status A12 vs A14
1.0000
3.954
2.148
7.372
credit_history A30 vs A34
1.0000
1.935
1.299
2.918
credit_history A32 vs A34
1.0000
2.549
1.196
5.886
debtors A101 vs A103
1.0000
3.386
1.166
10.218
debtors A102 vs A103
1.0000
1.476
0.924
2.365
employment A71 vs A75
1.0000
1.238
0.794
1.937
employment A73 vs A75
1.0000
0.627
0.359
1.086
employment A74 vs A75
1.0000
0.238
0.061
0.721
foreign_worker 0 vs 1
1.0000
1.723
0.930
3.210
housing A151 vs A153
1.0000
0.912
0.537
1.559
housing A152 vs A153
1.0000
0.586
0.394
0.876
other_instalments 0 vs 1
1.0000
2.114
1.143
3.980
pourpose A40 vs A49
1.0000
0.430
0.188
0.958
pourpose A41 vs A49
1.0000
1.074
0.563
2.069
pourpose A42 vs A49
1.0000
0.899
0.486
1.685
pourpose A43 vs A49
1.0000
1.590
0.590
4.225
pourpose A44 vs A49
1.0000
1.426
0.652
3.137
pourpose A46 vs A49
1.0000
2.567
1.583
4.261
savings A61 vs A65
1.0000
2.127
1.105
4.113
savings A62 vs A65
I. Edycja Studium
Podyplomowego
pod patronatem
SAS Institute
Polska. 1.III.2008
-28.II.2009.
1.0000
1.192
0.561
2.471
savings A63 vs A65
73
Wald Confidence Interval for Adjusted Odds Ratios
Studia Podyplomowe
ANALIZYUnit
STATYSTYCZNE
I DATA MINING W
BIZNESI
Effect
Estimate
95%
Confidence Limits
Zakład Analizy Historii Zdarzeń
i Analiz Wielopoziomowych,
Instytut 1.000
Statystyki i Demografii, SGH
1.0000
1.000
1.000
credit_amt
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
1.0000
1.032
1.014
1.050
duration
1.0000
1.310
1.113
1.543
instalment
1.0000
5.501
3.548
8.529
acc_status A11 vs A14
1.0000
3.227
2.116
4.924
acc_status A12 vs A14
1.0000
3.954
2.136
7.317
credit_history A30 vs A34
1.0000
1.935
1.291
2.898
credit_history A32 vs A34
1.0000
2.549
1.156
5.618
debtors A101 vs A103
1.0000
3.386
1.150
9.972
debtors A102 vs A103
1.0000
1.476
0.923
2.360
employment A71 vs A75
1.0000
1.238
0.793
1.931
employment A73 vs A75
1.0000
0.627
0.361
1.090
employment A74 vs A75
1.0000
0.238
0.071
0.802
foreign_worker 0 vs 1
1.0000
1.723
0.928
3.197
housing A151 vs A153
1.0000
0.912
0.536
1.553
housing A152 vs A153
1.0000
0.586
0.393
0.874
other_instalments 0 vs 1
1.0000
2.114
1.135
3.940
pourpose A40 vs A49
1.0000
0.430
0.191
0.968
pourpose A41 vs A49
1.0000
1.074
0.561
2.056
pourpose A42 vs A49
1.0000
0.899
0.483
1.672
pourpose A43 vs A49
1.0000
1.590
0.596
4.237
pourpose A44 vs A49
1.0000
1.426
0.651
3.124
pourpose A46 vs A49
1.0000
2.567
1.566
4.207
savings A61 vs A65
1.0000
2.127pod patronatem
1.104
4.098
savings A62 vs A65
I. Edycja Studium
Podyplomowego
SAS1.0000
Institute Polska. 1.III.2008
1.192-28.II.2009. 0.570
2.493
savings A63 vs A65
74
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Partition for the Hosmer and Lemeshow Test
Group Total default = 1
default = 0
Observed Expected Observed Expected
1
100
2
2.57
98
97.43
2
100
5
5.78
95
94.22
3
100
12
9.08
88
90.92
4
100
10
13.42
90
86.58
5
100
21
19.41
79
80.59
6
100
31
26.99
69
73.01
7
100
33
37.14
67
62.86
8
100
43
48.23
57
51.77
9
100
70
59.99
30
40.01
10
100
73
77.40
27
22.60
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
Wartości
obserwowane i
oczekiwane w 10
równych grupach
obserwacji dla
default i nie-default
75
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Hosmer and Lemeshow Goodness-of-Fit Test
Chi-Square
DF
Pr > ChiSq
10.3644
8
0.2404
Test Hosmer and Lemeshow – jest testem służącym do weryfikacji
jak prawdopodobieństwa prognozowane są dopasowane do
prawdopodobieństw (częstości) obserwowanych Mała wartość pvalue świadczy o słabym dopasowaniu, wysoka wartość świadczy
do dobrym dopasowaniu. W naszym przykładzie wartość 0,24 jest
wartością średnią świadczącą o umiarkowanej precyzji
dopasowania.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
76
Prob
Level
0.000
0.020
0.040
0.060
0.080
0.100
0.120
0.140
0.160
0.180
0.200
0.220
0.240
0.260
0.280
0.300
0.320
0.340
0.360
0.380
0.400
0.420
0.440
0.460
0.480
0.500
Classification
Table
Studia Podyplomowe
Correct
Incorrect
Percentages
ANALIZY
STATYSTYCZNE I DATA MINING W BIZNESI
Zakład AnalizyEvent
Historii Zdarzeń
i Analiz Wielopoziomowych,
Statystyki i Demografii,
Event
NonNonCorrect Instytut
SensiSpeci- SGH False
Event
Event „REGRESJA LOGISTYCZNA”
tivity
ficity
POS
BLOK ZAJĘĆ
300
0
700
0
30.0
100.0
0.0
70.0
300
27
673
0
32.7
100.0
3.9
69.2
297
94
606
3
39.1
99.0
13.4
67.1
292
150
550
8
44.2
97.3
21.4
65.3
285
205
495
15
49.0
95.0
29.3
63.5
279
254
446
21
53.3
93.0
36.3
61.5
277
302
398
23
57.9
92.3
43.1
59.0
272
334
366
28
60.6
90.7
47.7
57.4
269
364
336
31
63.3
89.7
52.0
55.5
263
391
309
37
65.4
87.7
55.9
54.0
252
421
279
48
67.3
84.0
60.1
52.5
244
436
264
56
68.0
81.3
62.3
52.0
238
452
248
62
69.0
79.3
64.6
51.0
229
469
231
71
69.8
76.3
67.0
50.2
223
486
214
77
70.9
74.3
69.4
49.0
217
501
199
83
71.8
72.3
71.6
47.8
210
518
182
90
72.8
70.0
74.0
46.4
205
525
175
95
73.0
68.3
75.0
46.1
202
540
160
98
74.2
67.3
77.1
44.2
190
550
150
110
74.0
63.3
78.6
44.1
185
563
137
115
74.8
61.7
80.4
42.5
179
570
130
121
74.9
59.7
81.4
42.1
172
581
119
128
75.3
57.3
83.0
40.9
168
593
107
132
76.1
56.0
84.7
38.9
159
603
97
141Podyplomowego
76.2pod patronatem
53.0
86.1
37.9
I. Edycja Studium
149
613
87 SAS Institute
151Polska. 1.III.2008
76.2 -28.II.2009.49.7
87.6
36.9
False
NEG
.
0.0
3.1
5.1
6.8
7.6
7.1
7.7
7.8
8.6
10.2
11.4
12.1
13.1
13.7
14.2
14.8
15.3
15.4
16.7
17.0
17.5
18.1
18.2
19.0
77
19.8
Prob
Level
0.520
0.540
0.560
0.580
0.600
0.620
0.640
0.660
0.680
0.700
0.720
0.740
0.760
0.780
0.800
0.820
0.840
0.860
0.880
0.900
0.920
0.940
0.960
0.980
Classification Table
Studia Podyplomowe
Correct
Incorrect
Percentages
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Event
NonNonCorrect Instytut
SensiFalse
Zakład AnalizyEvent
Historii Zdarzeń
i Analiz Wielopoziomowych,
Statystyki iSpeciDemografii, SGH
Event
Event
tivity
ficity
POS
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
141
627
73
159
76.8
47.0
89.6
34.1
129
632
68
171
76.1
43.0
90.3
34.5
120
643
57
180
76.3
40.0
91.9
32.2
113
648
52
187
76.1
37.7
92.6
31.5
99
653
47
201
75.2
33.0
93.3
32.2
88
657
43
212
74.5
29.3
93.9
32.8
77
666
34
223
74.3
25.7
95.1
30.6
69
667
33
231
73.6
23.0
95.3
32.4
68
673
27
232
74.1
22.7
96.1
28.4
56
674
26
244
73.0
18.7
96.3
31.7
55
679
21
245
73.4
18.3
97.0
27.6
45
684
16
255
72.9
15.0
97.7
26.2
40
687
13
260
72.7
13.3
98.1
24.5
32
690
10
268
72.2
10.7
98.6
23.8
29
693
7
271
72.2
9.7
99.0
19.4
24
696
4
276
72.0
8.0
99.4
14.3
19
696
4
281
71.5
6.3
99.4
17.4
13
697
3
287
71.0
4.3
99.6
18.8
8
697
3
292
70.5
2.7
99.6
27.3
5
698
2
295
70.3
1.7
99.7
28.6
4
698
2
296
70.2
1.3
99.7
33.3
2
699
1
298
70.1
0.7
99.9
33.3
I.0Edycja Studium
1
700
299Podyplomowego
70.1 pod patronatem
0.3
100.0
0.0
SAS Institute Polska. 1.III.2008 -28.II.2009.
0
700
0
300
70.0
0.0
100.0
.
False
NEG
20.2
21.3
21.9
22.4
23.5
24.4
25.1
25.7
25.6
26.6
26.5
27.2
27.5
28.0
28.1
28.4
28.8
29.2
29.5
29.7
29.8
29.9
29.9
78
30.0
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Moc predykcyjna (dyskryminacja) modelu
Ogólną moc dyskryminacyjną modelu można mierzyć za pomocą miar lub
statystyk określających jak dobrze model odróżnia klientów „złych” od
„dobrych”:
- Pomiar odległości pomiędzy rozkładami prawdopodobieństw dla tych
dwóch grup klientów, im bardziej te rozkłady zachodzą na siebie tym
słabszy jest model. Miarą ogólną jest tzw. statystyka Dywergencji oparta na
różnicy średnich pomiędzy rozkładami. Innym sposobem jest zastosowanie
testu t na różnicę dwóch średnich (uwaga na założenia testu).
- Znany ogólnie jest test Kołmogorowa-Smirnowa oparty na róznicy
dystrubuant. Statystyka testująca D przyjmuje wartości 0-1 im bliżej 0 tym
słabszy model, im bliżej 1 tym lepsza separacja.
- Najbardziej odpornym na kształt rozkładu testem jest test Wilcoxon-MannWhitney odpowiadający polu pod krzywą ROC. Pole pod krzywą ROC
odpowiada współczynnikowi Giniego (2*c-1=AR czyli Gini)
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
79
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Macierz klasyfikacji
Macierz klasyfikacji przedstawia dwuwymiarowy rozkład dla wartości
zmiennej zależnej rzeczywistych i prognozowanych przez model. Określa
to dokładność predykcji. Statystyką służącą do pomiaru jest Accuracy.
Jeśli określimy zdarzenie czyli w tym przypadku default jako negatywne
zdarzenie a nie-default jako pozytywne to tablica będzie następująca:
Przewidywana
0
Klasa
1
Aktualna
0
Prawdziwe
pozytywne
Fałszywe
pozytywne
Aktualne
pozytywne
Klasa
1
Fałszywe
negatywne
Prawdziwe
negatywne
Aktualne
negatywne
Przewidywane
pozytywne
Przewidywane
negatywne
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
80
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Accuracy
(prawdziwe pozytywne+prawdziwe negatywne)/(ogółem)
Błąd ogółem:
(fałszywe pozytywne+fałszywe negatywne)/(ogółem)
Sensytywność (Sensitivity)
(prawdziwe negatywne)/(ogółem aktualne negatywne)
Specyficzność (Specificity)
(prawdziwe pozytywne)/(ogółem aktualne pozytywne)
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
81
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Krzywa ROC jest wykresem zależności Sensitivity od (1-Specificty) dla
wszystkich możliwych wartości cut-off czyli inaczej dla wartości
prawdopodobieństwa decydującego czy dana obserwacja jest
zaklasyfikowana do „złych” czy do „dobrych” klientów.
Wartość cut-off można ustalić na dowolnym punkcie np.0.5 lub 0.3
Classification Table
Prob
Correct
Incorrect
Percentages
Level Event Non- Event Non- Correct Sensi- Speci- False False
Event
Event
tivity ficity POS NEG
0.500
148
612
88
152
76.0
49.3
87.4
37.3 19.9
0.300
221
499
201
79
72.0
73.7
71.3
47.6 13.7
Ponad 70% wszystkich przypadków
zostało poprawnie zaklasyfikowanych
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
82
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
ROC curve i AR
Pole pod krzywą ROC czyli c może być określone z rang (określonych w
klasie pierwszej).
-Wartości prawdopodobieństw otrzymane z modelu są posortowane i
porangowane, wartość c wyznacza się wówczas jako:
n1
 R  12 n  n  1
c  {i| y 1}
i
1
1
n1  n0
- Gdzie suma w liczniku to suma rang w pierwszej klasie.
- Dla idealnej sytuacji ROC byłby krzywą poziomą w 1, czyli statystyka c
wynosiła by 1.
- Statystyka c przyjmuje wartości 0-1, nie powinna jednak być niższa niż 0,5.
- Wartość 0,5 to model losowy czyli nie dyskryminuje klientów.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
83
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
0,01
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
84
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Statystyka c wynosi
0,82 czyli
AR=0,82*2-1=0,64.
Poziom
współczynnika
Giniego 64% dla
karty scoringowej
jest poziomem
zadowalającym.
Association of Predicted Probabilities and
Observed Responses
Percent Concordant 81.9
Somers' D 0.640
17.9
0.642
Percent Discordant
Gamma
I. Edycja Studium Podyplomowego pod patronatem
0.2
0.269
Percent Tied
SAS InstituteTau-a
Polska. 1.III.2008 -28.II.2009.
210000 c
0.820
Pairs
85
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Obserwacje odstające i wpływowe
Szczegóły miar – patrz
wykład z regresji
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
86
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
87
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Nieliniowość w modelu i interakcje zmiennych
Wykrycie nieliniowości w modelu zazwyczaj odbywa się poprzez graficzną
analizę empirycznych logitów:
1. Podział zmiennych objaśniających na przedziały (ok. 100) i wyznaczenie
dla każdego przedziału proporcji default (odsetka)
2. Wyznaczenie logitów czyli ln(DRi) dla każdego przedziału gdzie DR jest
to proporcja defaultów
3. Graficzne przedstawienie logitów na wykresie w zależności od wartości
zmiennej (mediana lub średnia lub po prostu środek przedziału dla
każdego przedziału zmiennej)
4. Ocena: czy jest to zależność zbliżona do liniowej, jeśli nie jest należy
dokonać modyfikacji danej zmiennej: transformacja zmiennej (np.
logitowa lub standaryzacja lub dyskretyzacja) lub wprowadzić do modelu
jej iteracje z innymi zmiennymi lub postać wielomianu tej zmiennej.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
88
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
libname karta "D:\Score";
%let zmienna=credit_amt;
Tworzymy
przedziały
proc rank data=Score groups=50 out=wynik;
var &zmienna;
ranks przedzial;
run;
proc print data=wynik (obs=10);
Wyznaczamy
var &zmienna przedzial;
run;
proporcje default
proc means data=wynik noprint nway;
dla przedziałów
class przedzial; var default &zmienna;
output out=przedzialy mean=default &zmienna;
run;
proc print data=przedzialy (obs=10) ;
run;
Wyznaczamy
data przedzialy;
logity
set przedzialy;
logit=log(default);
run;
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
89
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Zależność pomimo silnych wahań (mało obserwacji w przedziałach)
zbliżona jest do liniowej
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
90
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Włączenie interakcji do modelu
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
91
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Type 3 Analysis of Effects
Effect
DF
duration
instalment
acc_status
credit_history
debtors
employment
foreign_worker
housing
pourpose
savings
credit_amt
credit_am*credit_amt
credit*credit*credit
housing*job
job
other_instalments
Wald
Chi-Square
Pr > ChiSq
1
12.6873
0.0004
1
7.2072
0.0073
2
61.8834
<.0001
2
20.2310
<.0001
2
6.3676
0.0414
3
11.8331
0.0080
1
5.1516
0.0232
2
5.8915
0.0526
6
21.3721
0.0016
3
20.2802
0.0001
1
3.9015
0.0482
1
5.7792
0.0162
1
4.4354
0.0352
4
10.6218
0.0312
2 I. Edycja
8.0876
0.0175
Studium Podyplomowego pod patronatem
SAS
Institute Polska. 1.III.2008
-28.II.2009.
1
6.7804
0.0092
Istotne na poziomie
0.05
92
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Association of Predicted Probabilities and
Observed Responses
Percent Concordant 82.7
Somers' D 0.657
Percent Discordant
17.1
Gamma
0.658
Percent Tied
0.2
Tau-a
0.276
Pairs
210000 c
0.828
Wartość statystyki c wzrosła z 0,82 do 0,828 czyli poziom AR=2*0,8281=0,656 czyli 65,6%
Uwaga: dodawanie zmiennych i ich interakcji może doprowadzić do tzw.
overfitting; taki model musi być zweryfikowany na próbie walidacyjnej.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
93
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Cross-walidacja
Walidacja czyli testowanie/sprawdzenie poprawności działania modelu
odbywać się może na kilka sposobów:
1. Podział próby do budowy modelu na: deweloperską i testową
(zazwyczaj 70% i 30%), warunek: wystarczająca liczebność próby i
dostępność zdarzeń czyli w tym przypadku defaultów.
2. Wylosowanie próby np. 30-50% z całej próby wykorzystanej do
budowy modelu i przeprowadzenie walidacji.
3. Resampling (bootstrapping) polegająca na próbkowaniu w takiej
liczebności próbek jak próba wyjściowa użyta do konstrukcji modelu.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
94
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Cross-walidacja
Walidacja czyli testowanie/sprawdzenie poprawności działania modelu
powinna obejmować następujące elementy:
1. Sprawdzenie predykcyjności modelu czyli stabilności siły
dyskryminacyjnej (nie powinna znacznie odbiegać od próby
deweloperskiej).
2. Sprawdzenie stabilności oszacowań parametrów modelu.
3. Sprawdzenie stabilności rozkładów scorów/ocen prawdopodobieństw
wynikających z modelu.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
95
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
96
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Losowanie bez
zwracania
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
97
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Inne zagadnienia
W budowie modelu mogą pojawić się inne zagadnienia których rozwiązanie
wykracza poza ramy ścieżki podstawowej:
1. Oversampling czyli sytuacja kiedy w próbie do budowy modelu jest
bardzo mała liczba obserwacji ze zdarzeniem czyli tzw defaultów a
bardzo duża liczba obserwacji nie-default gdzie odsetek defaultów
wynosi poniżej kilku %, należy wówczas do próby deweloperskiej
włączyć wszystkie defualty i wylosować nie-defaulty w proporcji max.
1:5 a następnie dokonać korekty wyników np. poprzez dodanie czynnika
skalującego:
pˆ i 
1  pˆ   p
*
i
pˆ i*  pndef _ próba  pdef _ org
*
ˆ

p

p
def _ próba
ndef _ org
i  pndef _ próba  pdef _ org
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
98
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Inne zagadnienia
2. Włączenie zmiennych nieistotnych statystycznie, lub współliniowych ale
istotnych z punktu widzenia merytorycznej zawartości np. wielkość firmy,
wiek osoby, region itp. W takiej sytuacji można zastosować metodę
głównych składowych i dopiero główne składowe (liczba zmiennych w
zależności od wyników) włączyć do modelu.
3. Współliniowości zmiennych lub redukcji wymiaru (liczby zmiennych)
można również dokonać stosując analizę skupień. Poprzez
pogrupowanie zmiennych w skupienia, które są wewnątrz skupienia
najsilniej skorelowane a pomiędzy skupieniami jak najsłabiej.
4. Nadawanie ocen punktowych tzw. scorów. Jeżeli oprócz decyzji „tak”
„nie” interesuje nas nadanie klientowi oceny punktowej (np. do
wykorzystania w zróżnicowaniu marży) wówczas można wykorzystać
procedurę PROC SCORE.
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
99
Studia Podyplomowe
ANALIZY STATYSTYCZNE I DATA MINING W BIZNESI
Zakład Analizy Historii Zdarzeń i Analiz Wielopoziomowych, Instytut Statystyki i Demografii, SGH
BLOK ZAJĘĆ „REGRESJA LOGISTYCZNA”
Ćwiczenie do samodzielnego wykonania
1. Przeprowadzić cross-walidację modelu na próbie 25% z oryginalnej
próby klientów
2. Dokonać oceny stabilności otrzymanych wyników na poziomie:
-
Różnica w AR model vs. Test
-
Stabilność parametrów model vs. Test
-
Stabilność rozkładów model vs. Test
Wnioski: Czy model spełnia wymagania do stosowania w praktyce?
I. Edycja Studium Podyplomowego pod patronatem
SAS Institute Polska. 1.III.2008 -28.II.2009.
100