Zhluková analýza
Download
Report
Transcript Zhluková analýza
ZHLUKOVÁ ANALÝZA
Cluster Analysis
Zhluková analýza
Okruhy, ktorým budeme venovať pozornosť:
Úvod do problematiky
Miery podobnosti
Výber druhu zhlukovacieho postupu
Výber zhlukovacej metódy
Určenie počtu významných zhlukov
Ilustratívny príklad v SAS EG
Zhluková analýza
metód, ktorých cieľom je rozklad súboru
objektov na niekoľko relatívne rovnorodých podmnožín
(zhlukov) tak, aby objekty patriace do rovnakého zhluku
si boli „čo najviac“ podobné, zatiaľ čo objekty
pochádzajúce z rôznych zhlukov majú byť „čo najviac“
nepodobné.
Každý objekt je popísaný skupinou znakov.
Úloha ZA:
1. Zaradiť objekty do tried
2. Definovať (popísať) vzniknuté triedy
ZA – neparametrická metóda – nekladie požiadavky ani na
tvar, ani na typ rozdelenia.
Skupina
Formulácia úlohy ZA
Je daný súbor n-objektov pričom každý objekt je
charakterizovaný p znakmi
Množinu všetkých pozorovaní predstavuje matica X
rozmeru nxp
Úloha ZA spočíva v rozklade matice X na množinu
S=S1, S2, ...., Sm (m=počet zhlukov), do ktorých sú
zoskupené objekty xj.
Viacrozmerné metódy
premenné
P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11
1
2
3
4
5
n
Klasifikačné metódy
5
PR
Postup ZA
1. výber miery podobnosti (resp. nepodobnosti) objektov
2. výber druhu zhlukovacieho postupu
3. výber zhlukovacej metódy
4. určenie počtu významných zhlukov
5. interpretácia zhlukov
Miery podobnosti
Podobnosť medzi objektami je možné vyjadriť cez:
1.
miery podobnosti
koeficienty asociácie – nominálne údaje
Spearmanov koeficient poradovej korelácie – ordinálne údaje
Korelačný koeficient – kardinálne údaje
miery nepodobnosti
vzdialenosti – nezáporné reálne funkcie d(XY)
Miery vzdialenosti medzi objektami
Vlastnosti:
1.
Pozitivita
d (X, Y) 0
d (X, Y)=0 ak X = Y
2.
Symetria
d (X, Y) = d (Y, X)
3.
Trojuholníková nerovnosť
d (X, Y) d (X, Z) + d (Y, Z)
Euklidovská vzdialenosť
Najčastejšie používaná.
p
d ij
( X ik X
)
jk
2
k 1
Xik – hodnota k-tej premennej u i-teho
objektu
Xik – hodnota k-tej premennej u j-teho
objektu
Predpokladá nekorelovanosť
premenných.
Je závislá na merných
jednotkách – odstrániť cez
štandardizáciu.
Hammingova vzdialenosť
Definovaná nasledovne:
p
d ij
X ik X
jk
k 1
Xik – hodnota k-tej premennej u i-teho objektu
Xik – hodnota k-tej premennej u j-teho objektu
Prehľad mier vzdialenosti
Euklidovská vzdialenosť
Dij= (xik- xjk)2
Hammingova vzdialenosť
Dij= |xik- xjk|
Minkovskeho vzdialenosť
Dij= (|xik- xjk|r ) 1/r
Mahalanobisova vzdialenosť
Dij= (Xi – Xj)' .S-1.(Xi – Xj)
Prehľad zhlukovacích procedúr
Zhlukovacie procedúry
výber druhu zhlukovacieho postupu
hierarchický postup
dochádza k rozdeľovaniu, resp. spájaniu na každom kroku
cieľom je nájdenie dynamickej štruktúry v množine všetkých
objektov, ktorá by ukazovala ako sa jednotlivé podobné objekty
spájajú do väčších celkov.
hierarchické metódy = dynamické metódy zhlukovania
výsledok možno zobraziť pomocou hierarchického grafu dendrogramu
aglomeratívny
postup, ktorý spočíva v spájaní objektov
v prvom kroku je každá jednotka samostatným zhlukom
v poslednom kroku sú všetky jednotky v jednom zhluku
vytvárame aglomeratívny hierarchický strom
divízny
opačný postup – postupné delenie celého súboru
v prvom kroku sú všetky jednotky v jednom zhluku
v poslednom kroku každá jednotka predstavuje zhluk
vytvárame divízny hierarchický strom
Zhluková analýza
výber druhu zhlukovacieho postupu
nehierarchický postup
vopred určený počet zhlukov
iteratívny postup určenia ich stredov
postupné zaraďovanie jednotiek k vybraným stredom
paralelné - iteračný postup – v každom iteračnom kroku
dochádza k preklasifikovaniu všetkých objektov
určené k zhlukovaniu menšieho počtu objektov
sekvenčné - iteračný postup – v každom iteračnom
kroku dochádza k preklasifikovaniu len určitej časti
objektov
určené k zhlukovaniu veľkého počtu objektov
Všeobecný hierarchický zhlukovací
postup
1.
2.
3.
4.
5.
Vypočítame maticu D vhodných mier vzdialeností.
Začneme zhlukovací proces od n zhlukov, z ktorých každý obsahuje
jeden objekt.
Prezrieme maticu D a nájdeme dva zhluky Sh a Sh’, ktorých
vzdialenosť dij je minimálna.
Spojíme zhluk Sh a Sh’ do nového q-teho zhluku. V matici D
vynecháme riadok a stĺpec reprezentujúci vzdialenosť zhlukov Sh a
Sh’ a nahradíme ho novým reprezentujúcim ich spoločnú vzdialenosť
od ostatných zhlukov podľa typu zvolenej metódy. Rozmer matice sa
zníži o 1.
Postup opakujeme od kroku 3, až kým nedôjde k spojeniu všetkých
objektov do jedného zhluku.
Miery vzdialenosti medzi zhlukmi
Metóda najbližšieho suseda
(nearest neighbour, SINGLE)
• Najstaršia metóda
• Vychádzame z matice
euklidovských vzdialeností
• Do jedného zhluku sa spoja
tie objekty, medzi ktorými je
min. vzdialenosť, resp. do
jedného zhluku sa spoja tie
zhluky, medzi ktorými je
minimálna vzdialenosť
medzi ich najbližšími
prvkami.
• Nevýhoda - zreťazovanie
Miery vzdialenosti medzi zhlukmi
Metóda najvzdialenejšieho
suseda (furtrest neighbour,
COMPLETE)
• Vychádzame z matice
euklidovských vzdialeností
• Do jedného zhluku sa spoja
tie zhluky, medzi ktorými je
minimálna vzdialenosť
medzi ich najvzdialenejšími
prvkami.
• Vytvárame konzistentné
pomerne izolované zhluky
Miery vzdialenosti medzi zhlukmi
Metóda priemernej
vzdialenosti (average linkage
method, AVERAGE)
• Kompromis medzi
predchádzajúcimi dvomi
metódami
• Do jedného zhluku sa spoja
tie zhluky, medzi ktorými je
minimálna priemerná
vzdialenosť.
• Vytvárame konzistentné
pomerne izolované zhluky
Miery vzdialenosti medzi zhlukmi
Wardova metóda (Ward method, WARD)
V praxi najpoužívanejšia.
Nevychádzame zo vzdialenosti, zhluky sa formujú
maximalizáciou vnútrozhlukovej homogenity.
Metóda vedie k vytvoreniu zhlukov relatívne rovnakej
veľkosti, má tendenciu odstraňovať malé zhluky.
Miery vzdialenosti medzi zhlukmi
Centroidná metóda (centroid method, CENTROID)
Vychádzame zo štvorca euklidovskej vzdialenosti
Je založená na vzdialenosti priemerov (ťažísk, centroidov).
Do jedného zhluku sa spoja tie dva zhluky, medzi ktorými je
minimálna vzdialenosť ich ťažísk.
Mediánová metóda (median method, MEDIAN)
Vylepšenie centroidnej metódy.
Vychádzame zo štvorca euklidovskej vzdialenosti
Je založená na vzdialenosti ťažísk, centroidov.
Ťažisko sa vypočíta ako medián.
Do jedného zhluku sa spoja tie dva zhluky, medzi ktorými je
minimálna vzdialenosť ich ťažísk.
Miery vzdialenosti medzi zhlukmi
k-means
Iteračný postup
Existuje viacero modifikácií
Základná schéma zhlukovania
Výber k začiatočných zhlukových centroidov (k-je počet
apriórne určených zhlukov)
2. Zaradenie každého objektu do zhlukov, ku ktorému je
najbližšie
3. Znovuzaradenie každého objektu do jedného z k zhlukov
podľa určitého pravidla
4. Ukončenie zhlukovania, ak určité pravidlo dosahuje
požadované kritérium.
1.
Určenie počtu významných zhlukov
heuristický prístup - určenie počtu zhlukov na základe
subjektívneho názoru.
Index grapovanie – optimálny počet je taký, že krok pred ním
dochádza k maximálnej strate informácií
zhluky
Počet v
novovyt.zhlukoch
Súčin
Kum.
v%
rozdiel
4
1
1
1
1
0,06
3
1
1
1
2
0,12
0,06
2
2
1
2
4
0,24
0,12
1
3
2
6
10
0,59
0,35
Určenie počtu významných zhlukov
ukazovatele kvality zhlukovania v SAS
Štandardná odchýlka premenných tvoriacich zhluk (RMSSTD),
- vyjadruje vnútroskupinovú variabilitu daného zhluku. Nižšia hodnota
znamená nižšiu variabilitu, t.j. vyššiu homogenitu daného zhluku.
Koeficient determinácie (RSQ),
- vyjadruje pomer medziskupinovej sumy štvorcov odchýlok k celkovej sume
štvorcov odchýlok. Vyššia hodnota znamená väčšiu medziskupinovú
variabilitu , t.j. väčšie rozdiely medzi skupinami – homogénnejšie skupiny
Určenie počtu významných zhlukov
ukazovatele kvality zhlukovania
Semiparciálny koeficient determinácie (SPRSQ),
- vyjadruje pomer vnútroskupinovej variability (1) mínus vnútroskupinová
variabilita (2) k celkovej variabilite.
- nízke hodnoty znamenajú, že boli spojené podobné skupiny
Vzdialenosť zhlukov (CD)
- výpočet danej charakteristiky závisí od použitej metódy zhlukovania, napr.
pri metóde najvzdialenejšieho suseda sa vypočíta ako maximálna euklidovská
vzdialenosť medzi všetkými možnými pármi skupín.
- nízke hodnoty signalizujú, že boli spojené podobné zhluky.
Určenie počtu významných zhlukov
ukazovatele kvality zhlukovania
CCC kritérium (cubic clustering criterion),
- predpokladom použitia tohto kritéria je rovnomerné rozloženie jednotlivých
objektov do zhluku.
Pri hodnotení pomocou CCC by mali byť splnené nasledovné kritériá:
1.
2.
3.
4.
Vhodný počet zhlukov indikuje CCC>3, vo všeobecnosti, čím vyššie je
CCC, tým lepší počet zhlukov získame.
Pri hierarchickom postupe zhlukovania možno pozorovať niekoľko
lokálnych, vysokých hodnôt CCC. Pri nehierarchickom zhlukovaní je
pozorované veľmi odlišné globálne maximum CCC v závislosti od
počiatočného určenia počtu zhlukov.
Pri zošikmených rozdeleniach môže hodnota CCC nadobúdať zápornú
hodnotu, pričom s počtom zhlukov jej hodnota ešte klesá.
Pre dáta s nepravidelným tvarom alebo pre predĺžené skupiny objektov,
CCC nie je vhodným kritériom na stanovenie počtu zhlukov.
Interpretácia zhlukov
dendrogram
grafická analýza – prezentované charakteristiky
RMSSTD, RSQ, SPRSQ, CD – hladáme bod zlomu k
určeniu optimálneho počtu zhlukov
popisná štatistika
hodnotiaca miera je zhlukový centroid
(ťažisko zhluku) podľa jednotlivých premenných
popis každého zhluku na základe sledovaných vlastností
napr. podľa metód viackriteriálneho hodnotenia
Dendrogram
Dendrogram - na horizontálnej osi sú zobrazené vzdialenosti medzi objektami a
na vertikálnej osi sú objekty . Čím dlhšie sú v stromovom grafe horizontálne
úsečky, tým väčšie sú rozdiely medzi objektami.