Zhluková analýza

Download Report

Transcript Zhluková analýza

ZHLUKOVÁ ANALÝZA
Cluster Analysis
Zhluková analýza
Okruhy, ktorým budeme venovať pozornosť:
 Úvod do problematiky
 Miery podobnosti
 Výber druhu zhlukovacieho postupu
 Výber zhlukovacej metódy
 Určenie počtu významných zhlukov
 Ilustratívny príklad v SAS EG
Zhluková analýza
metód, ktorých cieľom je rozklad súboru
objektov na niekoľko relatívne rovnorodých podmnožín
(zhlukov) tak, aby objekty patriace do rovnakého zhluku
si boli „čo najviac“ podobné, zatiaľ čo objekty
pochádzajúce z rôznych zhlukov majú byť „čo najviac“
nepodobné.
 Každý objekt je popísaný skupinou znakov.
Úloha ZA:
1. Zaradiť objekty do tried
2. Definovať (popísať) vzniknuté triedy
ZA – neparametrická metóda – nekladie požiadavky ani na
tvar, ani na typ rozdelenia.
 Skupina
Formulácia úlohy ZA
 Je daný súbor n-objektov pričom každý objekt je
charakterizovaný p znakmi
 Množinu všetkých pozorovaní predstavuje matica X
rozmeru nxp
 Úloha ZA spočíva v rozklade matice X na množinu
S=S1, S2, ...., Sm (m=počet zhlukov), do ktorých sú
zoskupené objekty xj.
Viacrozmerné metódy
premenné
P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11
1
2
3
4
5
n
Klasifikačné metódy
5
PR
Postup ZA
1. výber miery podobnosti (resp. nepodobnosti) objektov
2. výber druhu zhlukovacieho postupu
3. výber zhlukovacej metódy
4. určenie počtu významných zhlukov
5. interpretácia zhlukov
Miery podobnosti
Podobnosť medzi objektami je možné vyjadriť cez:
1.
miery podobnosti
 koeficienty asociácie – nominálne údaje
 Spearmanov koeficient poradovej korelácie – ordinálne údaje
 Korelačný koeficient – kardinálne údaje
 miery nepodobnosti
 vzdialenosti – nezáporné reálne funkcie d(XY)
Miery vzdialenosti medzi objektami
Vlastnosti:
1.
Pozitivita
d (X, Y)  0
d (X, Y)=0 ak X = Y
2.
Symetria
d (X, Y) = d (Y, X)
3.
Trojuholníková nerovnosť
d (X, Y)  d (X, Z) + d (Y, Z)
Euklidovská vzdialenosť

Najčastejšie používaná.
p
d ij 

( X ik  X
)
jk
2
k 1
Xik – hodnota k-tej premennej u i-teho
objektu
Xik – hodnota k-tej premennej u j-teho
objektu
 Predpokladá nekorelovanosť
premenných.
 Je závislá na merných
jednotkách – odstrániť cez
štandardizáciu.
Hammingova vzdialenosť

Definovaná nasledovne:
p
d ij 

X ik  X
jk
k 1
Xik – hodnota k-tej premennej u i-teho objektu
Xik – hodnota k-tej premennej u j-teho objektu
Prehľad mier vzdialenosti
 Euklidovská vzdialenosť
Dij= (xik- xjk)2
 Hammingova vzdialenosť
Dij= |xik- xjk|
 Minkovskeho vzdialenosť
Dij= (|xik- xjk|r ) 1/r
 Mahalanobisova vzdialenosť
Dij= (Xi – Xj)' .S-1.(Xi – Xj)
Prehľad zhlukovacích procedúr
Zhlukovacie procedúry
 výber druhu zhlukovacieho postupu
 hierarchický postup
 dochádza k rozdeľovaniu, resp. spájaniu na každom kroku
 cieľom je nájdenie dynamickej štruktúry v množine všetkých
objektov, ktorá by ukazovala ako sa jednotlivé podobné objekty
spájajú do väčších celkov.
 hierarchické metódy = dynamické metódy zhlukovania
 výsledok možno zobraziť pomocou hierarchického grafu dendrogramu
 aglomeratívny
 postup, ktorý spočíva v spájaní objektov
 v prvom kroku je každá jednotka samostatným zhlukom
 v poslednom kroku sú všetky jednotky v jednom zhluku
 vytvárame aglomeratívny hierarchický strom
 divízny
 opačný postup – postupné delenie celého súboru
 v prvom kroku sú všetky jednotky v jednom zhluku
 v poslednom kroku každá jednotka predstavuje zhluk
 vytvárame divízny hierarchický strom
Zhluková analýza
 výber druhu zhlukovacieho postupu
 nehierarchický postup
 vopred určený počet zhlukov
 iteratívny postup určenia ich stredov
 postupné zaraďovanie jednotiek k vybraným stredom
 paralelné - iteračný postup – v každom iteračnom kroku
dochádza k preklasifikovaniu všetkých objektov
 určené k zhlukovaniu menšieho počtu objektov
 sekvenčné - iteračný postup – v každom iteračnom
kroku dochádza k preklasifikovaniu len určitej časti
objektov
 určené k zhlukovaniu veľkého počtu objektov
Všeobecný hierarchický zhlukovací
postup
1.
2.
3.
4.
5.
Vypočítame maticu D vhodných mier vzdialeností.
Začneme zhlukovací proces od n zhlukov, z ktorých každý obsahuje
jeden objekt.
Prezrieme maticu D a nájdeme dva zhluky Sh a Sh’, ktorých
vzdialenosť dij je minimálna.
Spojíme zhluk Sh a Sh’ do nového q-teho zhluku. V matici D
vynecháme riadok a stĺpec reprezentujúci vzdialenosť zhlukov Sh a
Sh’ a nahradíme ho novým reprezentujúcim ich spoločnú vzdialenosť
od ostatných zhlukov podľa typu zvolenej metódy. Rozmer matice sa
zníži o 1.
Postup opakujeme od kroku 3, až kým nedôjde k spojeniu všetkých
objektov do jedného zhluku.
Miery vzdialenosti medzi zhlukmi
 Metóda najbližšieho suseda
(nearest neighbour, SINGLE)
• Najstaršia metóda
• Vychádzame z matice
euklidovských vzdialeností
• Do jedného zhluku sa spoja
tie objekty, medzi ktorými je
min. vzdialenosť, resp. do
jedného zhluku sa spoja tie
zhluky, medzi ktorými je
minimálna vzdialenosť
medzi ich najbližšími
prvkami.
• Nevýhoda - zreťazovanie
Miery vzdialenosti medzi zhlukmi
 Metóda najvzdialenejšieho
suseda (furtrest neighbour,
COMPLETE)
• Vychádzame z matice
euklidovských vzdialeností
• Do jedného zhluku sa spoja
tie zhluky, medzi ktorými je
minimálna vzdialenosť
medzi ich najvzdialenejšími
prvkami.
• Vytvárame konzistentné
pomerne izolované zhluky
Miery vzdialenosti medzi zhlukmi
 Metóda priemernej
vzdialenosti (average linkage
method, AVERAGE)
• Kompromis medzi
predchádzajúcimi dvomi
metódami
• Do jedného zhluku sa spoja
tie zhluky, medzi ktorými je
minimálna priemerná
vzdialenosť.
• Vytvárame konzistentné
pomerne izolované zhluky
Miery vzdialenosti medzi zhlukmi
 Wardova metóda (Ward method, WARD)
 V praxi najpoužívanejšia.
 Nevychádzame zo vzdialenosti, zhluky sa formujú
maximalizáciou vnútrozhlukovej homogenity.
 Metóda vedie k vytvoreniu zhlukov relatívne rovnakej
veľkosti, má tendenciu odstraňovať malé zhluky.
Miery vzdialenosti medzi zhlukmi

Centroidná metóda (centroid method, CENTROID)
 Vychádzame zo štvorca euklidovskej vzdialenosti
 Je založená na vzdialenosti priemerov (ťažísk, centroidov).
 Do jedného zhluku sa spoja tie dva zhluky, medzi ktorými je
minimálna vzdialenosť ich ťažísk.

Mediánová metóda (median method, MEDIAN)





Vylepšenie centroidnej metódy.
Vychádzame zo štvorca euklidovskej vzdialenosti
Je založená na vzdialenosti ťažísk, centroidov.
Ťažisko sa vypočíta ako medián.
Do jedného zhluku sa spoja tie dva zhluky, medzi ktorými je
minimálna vzdialenosť ich ťažísk.
Miery vzdialenosti medzi zhlukmi
 k-means
 Iteračný postup
 Existuje viacero modifikácií
 Základná schéma zhlukovania
Výber k začiatočných zhlukových centroidov (k-je počet
apriórne určených zhlukov)
2. Zaradenie každého objektu do zhlukov, ku ktorému je
najbližšie
3. Znovuzaradenie každého objektu do jedného z k zhlukov
podľa určitého pravidla
4. Ukončenie zhlukovania, ak určité pravidlo dosahuje
požadované kritérium.
1.
Určenie počtu významných zhlukov
 heuristický prístup - určenie počtu zhlukov na základe
subjektívneho názoru.
 Index grapovanie – optimálny počet je taký, že krok pred ním
dochádza k maximálnej strate informácií
zhluky
Počet v
novovyt.zhlukoch
Súčin
Kum.
v%
rozdiel
4
1
1
1
1
0,06
3
1
1
1
2
0,12
0,06
2
2
1
2
4
0,24
0,12
1
3
2
6
10
0,59
0,35
Určenie počtu významných zhlukov
 ukazovatele kvality zhlukovania v SAS
 Štandardná odchýlka premenných tvoriacich zhluk (RMSSTD),
- vyjadruje vnútroskupinovú variabilitu daného zhluku. Nižšia hodnota
znamená nižšiu variabilitu, t.j. vyššiu homogenitu daného zhluku.
 Koeficient determinácie (RSQ),
- vyjadruje pomer medziskupinovej sumy štvorcov odchýlok k celkovej sume
štvorcov odchýlok. Vyššia hodnota znamená väčšiu medziskupinovú
variabilitu , t.j. väčšie rozdiely medzi skupinami – homogénnejšie skupiny
Určenie počtu významných zhlukov
 ukazovatele kvality zhlukovania
 Semiparciálny koeficient determinácie (SPRSQ),
- vyjadruje pomer vnútroskupinovej variability (1) mínus vnútroskupinová
variabilita (2) k celkovej variabilite.
- nízke hodnoty znamenajú, že boli spojené podobné skupiny
 Vzdialenosť zhlukov (CD)
- výpočet danej charakteristiky závisí od použitej metódy zhlukovania, napr.
pri metóde najvzdialenejšieho suseda sa vypočíta ako maximálna euklidovská
vzdialenosť medzi všetkými možnými pármi skupín.
- nízke hodnoty signalizujú, že boli spojené podobné zhluky.
Určenie počtu významných zhlukov
 ukazovatele kvality zhlukovania

CCC kritérium (cubic clustering criterion),
- predpokladom použitia tohto kritéria je rovnomerné rozloženie jednotlivých
objektov do zhluku.
Pri hodnotení pomocou CCC by mali byť splnené nasledovné kritériá:
1.
2.
3.
4.
Vhodný počet zhlukov indikuje CCC>3, vo všeobecnosti, čím vyššie je
CCC, tým lepší počet zhlukov získame.
Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko
lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je
pozorované veľmi odlišné globálne maximum CCC v závislosti od
počiatočného určenia počtu zhlukov.
Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú
hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá.
Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny objektov,
CCC nie je vhodným kritériom na stanovenie počtu zhlukov.
Interpretácia zhlukov
 dendrogram
 grafická analýza – prezentované charakteristiky
RMSSTD, RSQ, SPRSQ, CD – hladáme bod zlomu k
určeniu optimálneho počtu zhlukov
 popisná štatistika
 hodnotiaca miera je zhlukový centroid
(ťažisko zhluku) podľa jednotlivých premenných
 popis každého zhluku na základe sledovaných vlastností
napr. podľa metód viackriteriálneho hodnotenia
Dendrogram
Dendrogram - na horizontálnej osi sú zobrazené vzdialenosti medzi objektami a
na vertikálnej osi sú objekty . Čím dlhšie sú v stromovom grafe horizontálne
úsečky, tým väčšie sú rozdiely medzi objektami.