2 MB Analiza skupień - 21 stycznia 2012 r.

Download Report

Transcript 2 MB Analiza skupień - 21 stycznia 2012 r.

ANALIZA SKUPIEŃ
(cluster analysis)
Założenia
Dane są
• zbiór obiektów będących przedmiotem klasyfikacji
  O1 , O2 ,...,ON 
• zbiór K cech (zmiennych) charakteryzujących
przestrzeń klasyfikacji
X1,..., X K 
• obserwacje K cech dla N obiektów tworzą macierz
X  xik  i  1,...,N ; k  1,...,K
Punkt wyjścia procedur klasyfikacji
(grupowania) zbioru obiektów

zdefiniowanie miary
nie/podobieństwa obiektów
Najczęstsze rozwiązanie

odległość OBIEKTÓW = miara ich
niepodobieństwa
Odległość euklidesowa
Odległość miejska (Manhattan)
Odległość Czebyszewa
Odległość (metryka) Mahalanobisa !!!
ODLEGŁOŚĆ MIĘDZY ROZŁĄCZNYMI
SKUPIENIEM * i **
• Na podstawie odległości „rzeczywistych”
obiektów (np. metoda najdalszego sąsiada,
najbliższego sąsiada)
• Na podstawie odległości obiektówreprezentantów (np. metoda środków
ciężkości)
METODY KLASYFIKACJI
Metody hierarchiczne
(wynik – dendrogram)


Procedury
aglomeracyjne
Procedury
podziału
Metody
niehierarchiczne
•
•
•
•
metoda Hartigana
metoda kul
metoda kostek
metoda podziału
przestrzennego
• metoda taksonomii
stochastycznej
• metoda k-średnich
SCHEMAT HIERARCHICZNYCH
PROCEDUR GRUPOWANIA
Etap I:
Poszukuje się pary skupień najmniej odległych, tzn.
d pq  mind ij  d i ,  j , (i, j  1,..., N ), p  q
i, j
Etap II:
Skupienia p oraz q łączy się w jedno skupienie,
zachowując dla niego numer p, czyli p = p  q
Etap III:
Z macierzy D usuwane są kolumna i wiersz q
(zmienia się wymiar na N-1)
Etap IV:
Obliczane są odległości dpj między
„nowym” skupieniem p a pozostałymi
skupieniami i wstawiane są do macierzy D
w miejsce kolumny/ wiersza p.
Powrót do etapu I.
Koniec procedury – wszystkie obiekty =
jedno skupienie.
Wykorzystanie pakietu
STATISTICA
Uruchamianie „Analizy skupień”
w programie Statistica – wybierane
opcje
• Statystyka
• Wielowymiarowe techniki eksploracyjne
• Analiza skupień
Wybór metody grupowania. Możliwe są
dwa zasadnicze warianty:
• Aglomeracja (czyli wybór metody typu
aglomeracyjnego)
• Grupowanie metodą k – średnich (metoda
„optymalizacyjna”)
OPCJA „AGLOMERACJA” – DOSTĘPNE
METODY
Metoda pojedynczego wiązania (najbliższego sąsiada) –
łańcuchy obiektów
Metoda pełnego wiązania (najdalszego sąsiada) – naturalne
„kępki” obiektów
Metoda średnich połączeń (średnia odległość) – „kępki”
Metoda średnich połączeń ważonych (średnia odległość ważona
liczebnością skupień
Metoda środków ciężkości – odległość skupień = odległość
środków ciężkości (centroidów)
Metoda ważonych środków ciężkości
Metoda Warda – szacowanie odległości skupień oparte na
analizie wariancji (zmienność wewnątrz- i międzygrupowa)
Po wyborze opcji „Aglomeracja”
Opcja więcej
Po przeprowadzeniu obliczeń
PRZYKŁAD
W1
Marża
zysku
netto
W2
Stopa
zwrotu z
kapitału
własnego
W3
W4
W5
W6
W7
W8
W9
W10
Stopa
Wskaźnik
Cykl
zwrotu z płynności Rotacja
Rotacja
Rotacja
konwersji
aktywów bieżącej należności zapasów zobowiązań gotówki
AGORA
AMICA
APATOR
BORYSZEW
BUDIMEX
COMPLAND
DEBICA
KETY
KGHM
ORBIS
PKNORLEN
PROKOM
SWIECIE
TPSA
CERSANIT
IRENA
0,173953
0,054014
-0,06608
0,095637
0,046151
0,036745
0,067891
0,085912
-0,0413
0,115218
0,037507
0,143999
0,099228
0,087148
0,167806
0,0566
0,185656
0,144399
-0,14414
0,216205
0,063356
0,179994
0,115578
0,146131
-0,04896
0,094365
0,108105
0,219338
0,105598
0,107004
0,180247
0,066878
0,146215
0,062591
-0,09858
0,173361
0,042277
0,072154
0,089028
0,096903
-0,03479
0,077172
0,060601
0,170678
0,087783
0,043481
0,113679
0,05093
4,715732
1,312957
2,563063
2,733441
1,405892
1,579703
4,009911
1,690597
2,647707
3,146802
1,035782
3,353862
2,86967
0,981527
1,257928
2,07922
42,6
56,2
93,4
46,1
94,7
100,9
52,8
95,4
33,5
22
25,6
80,5
84,3
79,5
50
82,1
12,2
41,8
48,3
44,8
3,4
20,2
44,8
56,9
74,7
11,1
40,2
52,1
21,5
4,6
60
75,4
56,4
90,3
55,6
38,6
99,7
97,2
36,7
104,7
45,1
50,1
67,8
72,7
45,2
140,8
120,2
82,3
-1,6
7,7
86,1
52,3
-1,6
23,9
60,9
47,6
63,1
-17
-2
59,9
60,6
-56,7
-10,2
75,2
428,3
310,7
241,3
198,6
393
183,3
274,5
319,2
427,4
537,5
222,8
303,7
406,9
721,5
531,4
400,1
0,212441
0,566542
0,316047
0,198164
0,332709
0,599131
0,229712
0,336875
0,289449
0,18219
0,439429
0,221851
0,168705
0,593653
0,369318
0,238472
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10
D11
D12
D13
D14
D15
D16
4MEDIA
APEXIM
BEEFSAN
BEST
BICK
BYTOM
CENTROZAP
CLIF
ELEKTROMONTAZ-EXPORT
ELEKTROMONTAZ-W-WA
ELKOP
ENERGOMONTAZ-POLNOC
FAMEG
IBSYSTEM
LETA
-0,22861
0,000954
-0,01882
-0,57164
0,017371
-0,00878
-0,08339
0,046361
-0,06074
0,033712
0,02443
0,020527
0,041461
-0,04653
0,068761
-0,89505
0,002005
-0,38824
-0,61015
0,089293
-0,06482
-0,34152
0,197192
-0,09749
0,072253
0,043235
0,041052
0,069416
-0,12638
0,254119
-0,24517
0,000533
-0,07948
-0,39022
0,046327
-0,01129
-0,11644
0,011822
-0,03795
0,052998
0,024748
0,025792
0,045936
-0,05998
0,093481
1,041146
3,224478
0,819011
0,914175
1,573102
1,158574
1,143437
1,300614
0,880182
2,879765
1,680043
2,369938
1,859172
1,024008
0,676118
137,3
465,7
18,7
38,4
62,2
71,7
118,8
467,2
166,6
83,2
207,3
99,2
46,7
82,1
53,1
28,5
129,1
21,1
0,3
13,2
91,9
37,3
1
41,8
31
42,4
75
121,8
52,2
3,5
139,3
175,5
50,8
111,6
60,4
144,1
151,8
942,2
251,6
49
152,4
77,8
94,1
135,4
102,7
26,5
419,3
-11
-72,9
15
19,5
4,3
-474
-43,2
65,2
97,3
96,4
74,4
-1,1
-46,1
335,7
644,6
85,2
527,4
135
279,9
257,8
1411,8
576,2
229
355,4
286,5
324,9
279,3
264,8
0,726084
0,734331
0,795284
0,360449
0,481178
0,825838
0,659041
0,940048
0,610691
0,266502
0,427605
0,371719
0,33825
0,525368
0,632139
Z1
Z2
Z3
Z4
Z5
Z6
Z7
Z8
Z9
Z10
Z11
Z12
Z13
Z14
Z15
Rotacja
Stopa
aktywów zadłużenia
Z_CLIF
Z_BEST
Z_MEDIA
Z_ELEK_E
Z_IBSYS
Z_CENTRO
Z_BYTOM
Z_BEEFSA
D_TPSA
Z_ELKOP
D_BUDIM
Z_LETA
Z_BICK
D_COMPLA
D_PKNORL
D_AMICA
Z-APEX
D_CERSAN
Z_FAMEG
Z_ENMONT
D_IRENA
D_KETY
D_KGHM
D_APATOR
D_ORBIS
Z_ELEK_W
D_SWIECI
D_DEBICA
D_PROKOM
D_BORYSZ
D_AGORA
Odległośćwiąz.
D
iagramdla31przyp.
M
etodaW
arda
O
dległości euklidesow
e
18
16
14
12
10
8
6
4
2
0
Wykres odległości wiązania względem etapów wiązania
Odległ. euklidesowa
20
18
16
Odległość wiąz.
14
12
10
8
6
4
2
0
-2
0
3
6
9
12
15
Krok
18
21
24
27
30
Wiązania
Odległ.
etap łączenia/ nr
krawędzi (i)
Długość krawędzi
d(i) / d(i-1)
d(i) – d(i-1)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
,8396853
,8832518
,9347008
,9462611
1,087814
1,289634
1,335727
1,449247
1,507871
1,556406
1,779411
1,834890
1,902711
2,078074
2,112621
2,257404
2,354639
2,542308
2,569906
2,622067
2,796135
3,159255
3,490557
3,891270
1,05
1,06
1,01
1,15
1,19
1,04
1,08
1,04
1,03
1,14
1,03
1,04
1,09
1,02
1,07
1,04
1,08
1,01
1,02
1,07
1,13
1,10
1,11
0,04
0,05
0,01
0,14
0,20
0,05
0,11
0,06
0,05
0,22
0,06
0,07
0,18
0,03
0,14
0,10
0,19
0,03
0,05
0,17
0,36
0,33
0,40
25
7,149348
1,84
3,26
26
27
28
29
30
7,863721
9,633989
12,43645
14,50333
17,27562
1,10
1,23
1,29
1,17
1,19
0,71
1,77
2,80
2,07
2,77
To warto jeszcze wiedzieć
o metodach
aglomeracyjnych!
Nr
przypadku
Średnie
Odchylenie
standardow
e
1,161736
D_BUDIM
1,03557
0,04906
-0,32413
0,61445
0,02902
D_COMPLAND
0,20430
0,412182
D_DEBICA
0,889546
Z_BEEFSAN
0,60701
0,30424
-0,19881
0,41486
-0,11900
0,86890
0,48284
0,01563
0,31210
0,16845
-1,62315
0,89489
-0,89224
Z_BEST
-2,36912
1,598446
Z_BICK
-0,01535
-0,33774
-0,76281
0,76733
-0,36082
0,29904
0,21671
0,13958
0,02986
-0,53293
0,08226
0,336894
D_AGORA
D_AMICA
D_APATOR
D_BORYSZ
D_KETY
D_KGHM
D_ORBIS
D_PKNORL
D_PROKOM
D_SWIECIE
D_TPSA
D_CERSANIT
D_IRENA
Z_MEDIA
Z-APEX
Z_BYTOM
Z_CENTRO
Z_CLIF
Z_ELEK_EX
Z_ELEK_WA
Z_ELKOP
Z_ENMONT
Z_FAMEG
Z_IBSYS
Z_LETA
0,527579
0,614082
0,696321
0,329358
0,420864
0,522548
0,720458
0,625328
0,637737
0,401776
0,597181
0,823914
0,210806
1,459039
1,536227
0,472190
0,233982
0,580538
1,586162
0,596843
0,395484
0,464600
0,171558
0,338894
0,257612
0,905589
Metoda k-średnich
PROCEDURA:
1.
2.
wstępne losowe przyporządkowanie obiektów do skupień
iteracyjne przenoszenie obiektów między skupieniami, by
zminimalizować zmienność wewnątrzgrupową i
zmaksymalizować zmienność międzygrupową.
Odległości euklidesowe skupień
Średnie wartości zmiennych
w skupieniach
Odległośc i euk lides owe s kupień (SPOLKI_s tand)
Odległośc i pod przek ąt ną
Sk upien. Kwadr. odległośc i nad przekąt ną
N umer
Nr 1
Nr 2
Nr 3
Nr 1
0,000000 2,369959 4,289298
Nr 2
1,539467 0,000000 0,688643
Nr 3
2,071062 0,829845 0,000000
Analiza wariancji
Analiza wariancji (S POLKI_s tand)
Między df W ewn. df
F
Zmienna
SS
SS
W1
14, 76170 2 15, 23830 28 13, 56214
W2
11, 24258 2 18, 75742 28 8,39114
W3
16, 28229 2 13, 71771 28 16, 61735
W4
18, 39443 2 11, 60557 28 22, 18953
W5
4,56800 2 25, 43200 28 2,51463
W6
4,90911 2 25, 09089 28 2,73914
W7
10, 53611 2 19, 46389 28 7,57842
W8
8,01932 2 21, 98068 28 5,10769
W9
8,04831 2 21, 95169 28 5,13292
W 10
13, 11336 2 16, 88664 28 10, 87174
I st ot n.
p
0,000076
0,001395
0,000017
0,000002
0,098999
0,081946
0,002342
0,012849
0,012614
0,000321
Średnie s k up. (SPOLKI_st and)
Sk upien. Sk upien. Sk upien.
Zmienna N r 1
Nr 2
Nr 3
W1
-1, 95663 0,053574 0,67784
W2
-1, 72146 0,055352 0,57171
W3
-1, 94247 -0, 003163 0,84198
W4
-0, 81868 -0, 351009 1,40389
W5
1,06434 -0, 016117 -0, 40779
W6
-0, 97211 0,249329 -0, 33137
W7
1,71762 -0, 090352 -0, 46507
W8
-1, 55382 0,168106 0,16160
W9
1,55643 -0, 161577 -0, 18231
W 10
1,04670 0,223698 -1, 11968
Wykr. średnich każd. skupienia
4
3
2
Analiza wariancji
1
0
-1
-2
-3
-4
W1
W2
W3
W4
W5
W6
Zmienne
W7
W8
W9
W10
Skupien. 1
Skupien. 2
Skupien. 3
Analiza wariancji (S POLKI_s tand)
Między df W ewn. df
F
Zmienna
SS
SS
W1
14, 76170 2 15, 23830 28 13, 56214
W2
11, 24258 2 18, 75742 28 8,39114
W3
16, 28229 2 13, 71771 28 16, 61735
W4
18, 39443 2 11, 60557 28 22, 18953
W5
4,56800 2 25, 43200 28 2,51463
W6
4,90911 2 25, 09089 28 2,73914
W7
10, 53611 2 19, 46389 28 7,57842
W8
8,01932 2 21, 98068 28 5,10769
W9
8,04831 2 21, 95169 28 5,13292
W 10
13, 11336 2 16, 88664 28 10, 87174
I st ot n.
p
0,000076
0,001395
0,000017
0,000002
0,098999
0,081946
0,002342
0,012849
0,012614
0,000321
St at y st y ki opis owe s k upienia 1 (S POLKI_st and)
Sk upienie ma 3 przy p
Średnie
St andar.
W arianc.
Zmienna
Odc hy lenie
W1
-1, 95663
2,294320 5,263906
W2
-1, 72146
2,239491 5,015322
W3
-1, 94247
1,762003 3,104653
Zmienna
W4
-0, 81868
0,190196 0,036175
W1
W5
1,06434
2,125464 4,517599
W2
W6
-0, 97211
0,487513 0,237669
W3
W7
1,71762
2,959859 8,760764
W4
W8
-1, 55382
2,128893 4,532186
W5
W9
1,55643
2,384739 5,686980
W6
W 10
1,04670
1,367931 1,871235
W7
W8
W9
W 10
St at y st y ki opis owe s k upienia 2 (S POLKI_st and)
Sk upienie ma 21 przy p
Średnie
St andar.
W arianc.
Odc hy lenie
0,053574
0,447164 0,199956
0,055352
0,647107 0,418747
-0, 003163
0,567791 0,322386
-0, 351009
0,655083 0,429134
-0, 016117
0,896673 0,804022
0,249329
1,074360 1,154250
-0, 090352
0,308824 0,095372
0,168106
0,789397 0,623148
-0, 161577
0,672239 0,451905
0,223698
0,806418 0,650311
St at y st y ki opis owe s k upienia 3 (S POLKI_st and)
Sk upienie ma 7 przy p
Średnie
St andar.
W arianc.
Zmienna
Odc hy lenie
W1
0,67784
0,344328 0,118562
W2
0,57171
0,242154 0,058639
W3
0,84198
0,420452 0,176780
W4
1,40389
0,701253 0,491756
W5
-0, 40779
0,229625 0,052727
W6
-0, 33137
0,505067 0,255093
W7
-0, 46507
0,076281 0,005819
W8
0,16160
0,274879 0,075558
W9
-0, 18231
0,506563 0,256606
W 10
-1, 11968
0,151634 0,022993
Z_MED IA
Z_BEST
Z_CLIF
Elementy s kupienia numer 1 (SPOLKI _s t and)
i odległoś c i od środk a właś ciwego sk upienia
Sk upienie ma 3 przy p
Odległ.
1,123509
1,358023
2,167671
D _AMIC A
D _APATOR
D _BU DI M
D _C OMPLAND
D _KETY
D _KGHM
D _PKN OR L
D _TPSA
D _C ERSA NI T
D _I REN A
Z-APEX
Z_BEEFSAN
Z_BIC K
Z_BY TOM
Z_CEN TR O
Elem enty s kupienia num er 2 (SPOLKI _s t and)
i odległoś c i od środk a właś ciwego sk upienia
Sk upienie m a 21 przy p
Odległ.
0,315667
0,622276
0,541653
0,469415
0,405768
0,613671
0,410140
0,775262
0,623731
0,519687
1,801545
0,925866
0,495150
0,670604
Elementy s kupienia numer 1 (SPOLKI _s t and)
0,712202
i odległoś c i od środk a właś ciwego sk upienia
Sk upienie ma 3 przy p
Odległ.
Z_MED IA
1,123509
Z_BEST
1,358023
Z_CLIF
2,167671
FUNKCJA
DYSKRYMINACYJNA
Wyprowadzenie
 1 x 
Z x  

 2 x 
pf1 x 
p f1 x   f 2  x  pf1 x  N 1 ,  



pf2 x 
pf2  x  N  2 ,  
p f1 x   f 2  x 
2   exp 0.5x  1   1 x  1 


0.5
0.5 K
T 1
2   exp 0.5x  2   x  2 
0.5 K
0.5
T
Dx    0  1 
T
1
T 1
 x   0  1    0  1 
2
1
Płynność
Rotacja
Rotacja
bieżąca należności w zapasów
Spółka
dniach
w dniach
Elkop
0,79
97,3
11,5
Elektromontaż-Wwa
0,995
121,1
20
Energomontaż-Północ 1,249
135,9
85,2
Mostostal-Zabrze
0,794
45,4
1,5
Resbud
0,825
69,5
4,5
Mostostal-Płock
Polnord
Mostostal-Export
Bauma
LPP
4,235
1,233
0,917
0,722
1,436
101,1
153,3
224,4
161,1
47,2
8,6
15,9
26,4
20,9
118,8
Równanie funkcji
dyskryminacyjnej:
Dˆ x  1,2562 X1  0,026 X 2  0,0194 X 3  5,27512
Płynność bieżąca
Rotacja należności w dniach
Rotacja zapasów
w dniach
Rotacja
zapasów
w dniach
X3
Wartości
funkcji
X1
Rotacja
należności
w dniach
X2
Elkom
0,79
97,3
11,5
1,5298
Elektromontaż-Warszawa
0,995
121,1
20
0,4886
Energomontaż-Północ
1,249
135,9
85,2
-1,4802
Mostostal-Zabrze
0,794
45,4
1,5
3,0682
Resbud
0,825
69,5
4,5
2,3445
Mostostal-Płock
4,235
101,1
8,6
-2,8403
Polnord
1,233
153,3
15,9
-0,5680
Mostostal-Export
0,917
224,4
26,4
-2,2234
Bauma
0,722
161,1
20,9
-0,2259
LPP
1,436
47,2
118,8
-0,0607
Spółka
Wskaźnik
płynności
bieżącej
Podstawa klasyfikacji
Dˆ x 
OCENA JAKOŚCI FUNKCJI
DYSKRYMINACYJNEJ
Miara ogólnej zdolności dyskryminacyjnej
modelu – współczynnik lambda Wilksa
Se

ST
Wpływ dodatkowych zmiennych na zdolność
dyskryminacyjną ……
Ocena zdolności dyskryminacyjnej
poszczególnych zmiennych (I)
Cząstkowy
współczynnik Wilks’a

1


  0

1  czk
K 1
1
cz
k
Fk 
czk
N r K
wartość współczynnika lambda Wilksa dla modelu
po wprowadzeniu do niego danej zmiennej
o wartość współczynnika lambda Wilksa dla modelu przed
wprowadzeniem danej zmiennej.
określa mnożnikową zmianę wartości statystyki lambda, spowodowaną wprowadzeniem do modelu danej
zmiennej Xk. Wartość współczynnika zawiera się w przedziale <0, 1>
Ocena zdolności dyskryminacyjnej
poszczególnych zmiennych (II)
statystyka k Wilks’a (dla modelu!)
Wartość jaką przyjęłaby statystyka lambda Wilks’a dla ogólnego
modelu, gdyby wyłączyć z niego daną zmienną Xk.
k  <0, 1>
k  
1

czk  ok
k
Ocena zdolności dyskryminacyjnej
poszczególnych zmiennych (III)
współczynnik tolerancji Tk
Tk  1  R
2
k
Rk oznacza współczynnik korelacji wielorakiej
między daną zmienną Xk a pozostałymi
zmiennymi w modelu (< 90%)
Macierz klasyfikacji
Rzeczywista
przynależność
obiektu
Populacja, do której obiekt
zaklasyfikowano na podstawie funkcji
dyskryminacyjnej
Łączna liczebność
próby z danej
populacji
0
1
0
n00
n01
n0
1
n10
n11
n1
Analiza dyskryminacyjna
w pakiecie STATISTICA
Podsumowanie – zmienne w modelu
Lambda dla modelu przed
wprowadzeniem danej X
1 
K 1
cz
k
Fk 
czk
N r K
Zmiana Lambdy dla modelu
po wprowadzeniu danej X
1. Elkom
2. ElektromontażWarszawa
3. EnergomontażPółnoc
4. MostostalZabrze
5. Resbud
6. Mostostal-Płock
7. Polnord
2,3866
0,8588
4,2470
3,7612
7,7308
9,2169
-0,5321
0,8271
8,8930
6,1462
-3,5995
-1,5161
11,7354
6,7174
9,4543
5,7559
4,8476
11,6824
5,9853
4,9144
8. Mostostal-Export
9. Bauma
10.
LPP