KlaszterezĂŠs

Download Report

Transcript KlaszterezĂŠs

Klaszterezés
2014. ápr. 3.
Cluster Analysis: Basic Concepts
and Algorithms
Lecture Notes for Chapter 8
Introduction to Data Mining
by
Tan, Steinbach, Kumar
Klaszterelemzés
Az objektumok olyan csoportjainak megtalálása felügyelet
nélküli tanulási keretben, hogy az egy csoportban levő
objektumok hasonlóbbak lesznek egymáshoz, mint a más
csoportban levőkhöz.
Klaszteren belüli
távolságok
minimalizáltak
Klaszterek
közötti
távolságok
maximalizáltak
Klaszterezés alkalmazásai
Megértés
– Csoportosítsuk a letöltött dokumentumokat, a hasonló
tulajdonságú fehérjéket, a hasonló változásokat mutató
tőzsdei papírokat
Klaszterezés alkalmazásai
Tömörítés
– Nagy adathalmazok méretének csökkentése
• egyes egyedek helyett klaszterreprezentánsok vagy
• meta-jellemzők
A klaszterezés nem egyértelmű
Hány klaszter?
Hat klaszter
Két klaszter
Négy klaszter
A klaszterezés típusai
• A klaszterezés klaszterek halmazát
adja
• Partícionáló klaszterezés
Az adatok besorolása nem-átfedő részhalmazokba
(klaszterekbe), minden elem pontosan egy
részhalmazban
• Hierarchikus klaszterezés
Egymásba ágyazott klaszterek, hierarchikus rendszerbe
szervezve
Particionáló klaszterezés
Kiindulási pontok
Particionáló klaszterezés
Hierarchikus klaszterezés
p1
p3
p4
p2
p1 p2
p3 p4
p1
p3
p4
p2
p1 p2
Hierarchikus Klaszterek
p3 p4
Dendrogram
Klaszterezés fajtái
• Kizárólagos – nem kizárólagos
– Nem kizárólagosnál egy tárgy több osztályba is tartozhat
• Fuzzy, nem-fuzzy
– A fuzzy klaszterezésnél minden pont valamilyen 0 és 1
közötti súllyal tartozik minden klaszterhez
– A súlyok összege 1
• Részleges, teljes
– Néha nem minden pontot akarunk klaszterezni
• Heterogén, homogén
– A klaszterek különböző méretűek, alakúak, sűrűségűek
lehetnek
Mitől jó egy klaszterezés?
•
•
•
•
•
Jól elválasztott klaszterek
Középpont alapú klaszterek
Folytonos klaszterek
Sűrűség alapú klaszterek
Általános eset: célfüggvény
Jól elválasztott klaszterek
– Egy klaszter olyan pontokból áll, amelyek közelebb
vannak (hasonlóbbak) a saját klaszteren belüli összes
ponthoz, mint a többi klaszterben levőkhöz
3 jól elválasztott klaszter
Középpont alapú klaszterek
– Egy klaszterben levő pontok közelebb vannak saját
klaszterük középpontjához, mint bármely más klaszter
középpontjához
– A klaszterek középpontja gyakran a centroid, vagyis a
klaszterbeli pontok átlaga, vagy a medoid, a klaszter egy
reprezentatív pontja
4 középpont alapú klaszter
Folytonosság
• legközelebbi szomszéd, tranzitív
– Egy klaszterbeli pont közelebb van a saját klaszterének
valamely pontjához, mint a nem klaszterbeli más
pontokhoz
8 folytonos klaszter
Sűrűség alapú
– A klaszterek pontok nagy sűrűségű halmazai, amelyek kis
sűrűségű pontokkal vannak elválasztva
– Szabálytalan alakú, egymásba fonódó esetekben
használhatjuk, zaj és kiugró értékek mellett
6 sűrűség alapú klaszter
Általános eset:
Célfüggvény alapú klaszterezés
– Valamilyen célfüggvény minimalizálnak vagy maximalizálnak
• pl: modularitás
– Általában az összes lehetőséget számba kellene venniük és
mindegyik jóságát meg kellene határozni a célfüggvény
segítségével (NP nehéz)
– Lokális és globális optimum lehet
• A hierarchikus módszereknél általában lokális optimum
• Particionálóknál általában globális
– Nagyon sok esetben parametrizált modellt próbálunk az
adatokhoz illeszteni
• A paramétereket az adatokból határozzuk meg
Az input adatok jellemzői fontosak
• A hasonlóság vagy sűrűség függvény
– Leszármaztatott, de alapvető fontosságú
• Ritkaság
– A hasonlósági mértéket meghatározhatja
– Segítheti a hatékonyságot
• Attribútum típus
– Meghatározhatja a hasonlóságot
• Dimenzionalitás
• Zaj és kiugró értékek
• Eloszlás típusa
k-közép klaszterező
K-közép klaszterezés
•
•
•
•
Particionáló eljárás
centroid : klaszter közepe
Egy pontot ahhoz a klaszterhez csatolunk, amely
centroidja a legközelebb van hozzá
A klaszterek száma, K, előre definiálandó
K-közép algoritmus - részletek
•
A kezdőpontokat gyakran véletlenszerűen
választjuk
–
•
•
•
•
Újabb futtatásnál más eredményt kaphatunk
A centroid általában a klaszterekhez tartozó
pontok átlaga
A közelséget mérhetjük euklideszi távolsággal,
koszinusz távolsággal, korrelációval, …
A K-közép eljárás a fenti mértékeknél konvergálni
fog egy megoldáshoz
A legtöbb esetben az első néhány lépésben
megtörténik a konvergencia
–
A megállási kritériumot gyakran: amikor már csak kevés
pont helyzete változik-ra cserélik
Két különböző K-közép klaszterezés
3
2.5
2.5
2
2
1.5
1.5
y
y
3
1
1
0.5
0.5
0
0
-2
-1.5
-1
-0.5
0
0.5
1
x
Optimális klaszterezés
1.5
2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
x
Sub-optimális klaszterezés
Kezdeti középpontok jó választása
Iteration 6
1
2
3
4
5
3
2.5
2
y
1.5
1
0.5
0
-2
-1.5
-1
-0.5
0
x
0.5
1
1.5
2
Kezdeti középpontok rossz választása
Iteration 5
1
2
3
4
3
2.5
2
y
1.5
1
0.5
0
-2
-1.5
-1
-0.5
0
x
0.5
1
1.5
2
A kezdőpontok választásának problémái
•
Ha a „valódi” klaszterek száma K nagy, úgy nagyon
kicsi az esélye annak, hogy mindegyikből egy
kezdőpontot választunk
–
tfh a klaszterekben azonos számú elem van (n):
–
–
Pl. K = 10 mellett a valószínűség = 10!/1010 = 0.00036
Néha a kezdő középpontok korrigálni tudják magukat,
néha nem
Az „5 pár klaszter” példa
Iteration 4
1
2
3
8
6
4
y
2
0
-2
-4
-6
0
5
10
15
20
x
Minden pár egyik elemében választott kezdőpontok
Az „5 pár klaszter” példa
1
2
3
Iteration 4
8
6
4
y
2
0
-2
-4
-6
0
5
10
15
x
Néhány párban 3 kezdőérték, néhánynál csak egy
20
Megoldások az előző problémára
• Többszörös futtatás
– Hogyan átlagoljuk őket?
– Segíthet néha
– Használjunk hierarchikus klaszterezést a
kezdőpontok meghatározására
• Több, mint k kezdőpont választása,
majd azokból további választás
– Pl. a legközelebbi kezdőpontpárok
összevonása
Klaszterezések összevetése
• Négyzetes távolság (Sum of Squared Error,
SSE)
– minden pontra a legközelebbi középponttól való
távolság
– SSE definíciója:
K
SSE    dist2 (mi , x)
i 1 xCi
– x a Ci klaszterben van, mi a Ci klasztert reprezentáló
pont
• Ha adott két klaszterezésünk, a kisebb hibájút
választjuk
• Az SSE általában csökken K növelésével…
Üres klaszterek kezelése
• A K-közép algoritmus pont nélküli
centroidokat („üres klaszter”) adhat…
Üres klaszterek kezelése
• Lehetséges stratégiák:
– Az SSE-hez a legjobban hozzájáruló
pontba tesszük a pontnélküli
centroidot
– Abból a klaszterből válasszunk pontot
centroidnak, amelyiknek a
legnagyobb az SSE-je
– Ha több üres klaszter van, ismételjük
meg az előzőeket többször
A középpontok lépésenkénti
aktualizálása
• A K-közép algoritmusnál a középpontokat
akkor aktualizáljuk, ha az összes pont
hozzárendelése megtörtént
• Alternatív módszer, ha minden egyes lépés
(hozzárendelés) után aktualizáljuk a
középpontokat
– Minden hozzárendelés nulla vagy két középpontot
érint
– Költségesebb
– Sorrendtől függőséget vezet be
– Sosem ad üres klasztert
A K-közép korlátai
• K-középnek akkor vannak
problémái, ha a klaszterek nagyon
különböznek
– Méretben
– Sűrűségben
– Nem gömbszerű alakúak vagy ha sok
kiugró érték van
A K-közép korlátai : különböző
méretek
Eredeti pontok
K-közép (3 klaszter)
A K-közép korlátai : különböző
sűrűség
Eredeti pontok
K-közép (3 klaszter)
A K-közép korlátai : Nem
gömbszerű
Eredeti pontok
K-közép (2 klaszter)
Elő- és utófeldolgozás
• Előfeldolgozás
– Normalizálás
– Kiugró értékek kiszűrése
• Utófeldolgozás
– Kis klaszterek kiszűrése (kiugró értékek?)
– A laza klaszterek felosztása (nagy SSE
értékek mellettiek)
– Fésüljük össze a közeli, kis SSE-vel
rendelkező klasztereket
A K-közép korlátainak feloldása
Eredeti pontok
K-közép klaszterek
Egy megoldás: sok klaszter keresése, majd a végén
össze kell vonni őket.
A K-közép korlátainak feloldása
Eredeti pontok
K-közép klaszterek
A K-közép korlátainak feloldása
Eredeti pontok
K-közép klaszterek
Hierarchikus klaszterezés
Hierarchikus klaszterezés
• Egymásba ágyazott klasztereket állít elő,
ezek fába rendezhetők
• Vizualizációs módszer: dendrogram
– Egy olyan fa, amely az egyesítések
sorrendjét adja meg
5
6
0.2
4
3
4
2
0.15
5
2
0.1
1
0.05
3
0
1
3
2
5
4
6
1
Hierarchikus klaszterezés
erősségei
• Nem kell előzetesen feltételezni egy
klaszterszámot
• Tetszőleges számú klaszter
kapható a dendogram megfelelő
helyen történő vágásával
Hierarchikus klaszterezés
erősségei
• Értelmes jelentést adhatunk neki
– Pl. biológiában a filogenetikus fa:
Hierarchikus klaszterezés
• Két alaptípus
– Agglomeratív (összevonó):
• Kezdetben minden elem egy klaszter
• Minden lépésben a két legközelebbi klasztert vonjuk
össze
– Divizív (felosztó):
• Minden elem egy klaszterben van
• Minden lépésnél valamelyik klasztert felbontjuk
• A hagyományos hierarchikus módszerek
hasonlósági vagy távolsági mátrixot
használnak
Összevonó klaszterezési eljárás
•
Az alapalgoritmus:
1.
2.
3.
4.
5.
6.
•
Compute the proximity matrix
Let each data point be a cluster
Repeat
Merge the two closest clusters
Update the proximity matrix
Until only a single cluster remains
A kulcsművelet két klaszter hasonlóságának
számítása
–
Ezt különbözőképpen tehetjük meg, és ettől függően
többféle változat van
Kiindulási helyzet
• Minden pont egy-egy külön klaszter, és adott a
hasonlósági mátrix
p1 p2
p3
p4 p5
...
p1
p2
p3
p4
p5
.
.
Proximity Matrix
.
...
p1
p2
p3
p4
p9
p10
p11
p12
Közbülső helyzet
• Néhány lépés után vannak klasztereink
C1
C2
C3
C4
C5
C1
C2
C3
C3
C4
C4
C5
Proximity Matrix
C1
C2
C5
...
p1
p2
p3
p4
p9
p10
p11
p12
Közbülső állapot
• A két legközelebbi (C2 és C5) klasztert szeretnénk
összefésülni, és a mátrixot megfelelően módosítani
C1
C2
C3
C4
C5
C1
C2
C3
C3
C4
C4
C5
Proximity Matrix
C1
C2
C5
...
p1
p2
p3
p4
p9
p10
p11
p12
Összefésülés után
C2
U
C5
C1
C1
C4
C4
?
?
?
?
C2 U C5
C3
C3
?
C3
?
C4
?
Proximity Matrix
C1
C2 U C5
...
p1
p2
p3
p4
p9
p10
p11
p12
Klaszterek közötti hasonlóság?
p1
Similarity?
p2
p3
p4 p5
p1
p2
p3
p4





p5
MIN
.
MAX
.
Csoport átlag
.
Proximity Matrix
Közepek közötti távolság
Célfüggvény által vezérelt módszerek
– Ward módszere négyzetes hibával
...
Klaszterek közötti hasonlóság?
p1
p2
p3
p4 p5
p1
p2
p3
p4





p5
MIN
.
MAX
.
Csoport átlag
.
Proximity Matrix
Közepek közötti távolság
Célfüggvény által vezérelt módszerek
– Ward módszere négyzetes hibával
...
Klaszterek közötti hasonlóság?
p1
p2
p3
p4 p5
p1
p2
p3
p4





p5
MIN
.
MAX
.
Csoport átlag
.
Proximity Matrix
Közepek közötti távolság
Célfüggvény által vezérelt módszerek
– Ward módszere négyzetes hibával
...
Klaszterek közötti hasonlóság?
p1
p2
p3
p4 p5
p1
p2
p3
p4





p5
MIN
.
MAX
.
Csoport átlag
.
Proximity Matrix
Közepek közötti távolság
Célfüggvény által vezérelt módszerek
– Ward módszere négyzetes hibával
...
Klaszterek közötti hasonlóság?
p1
p2
p3
p4 p5
p1


p2
p3
p4





p5
MIN
.
MAX
.
Csoport átlag
.
Proximity Matrix
Közepek közötti távolság
Célfüggvény által vezérelt módszerek
– Ward módszere négyzetes hibával
...
Klaszter hasonlóság: MIN
(Single Link)
• Két klaszter hasonlósága a
legközelebbi pontjának távolsága
– Egyetlen pontpár határozza meg, a
hasonlósági gráfban egyetlen él
I1
I2
I3
I4
I5
I1
1.00
0.90
0.10
0.65
0.20
I2
0.90
1.00
0.70
0.60
0.50
I3
0.10
0.70
1.00
0.40
0.30
I4
0.65
0.60
0.40
1.00
0.80
I5
0.20
0.50
0.30
0.80
1.00
1
2
3
4
5
Hierarchikus klaszterezés: MIN
1
5
3
0.2
5
2
0.15
1
2
3
6
0.1
0.05
4
4
Egymásba ágyazott
klaszterek
0
3
6
2
5
Dendrogram
4
1
MIN előnye
Eredeti pontok
Két klaszter
Nem elliptikus alakokat is jól kezel
MIN korlátai
Eredeti pontok
Két klaszter
Érzékeny a zajra és a kiugró pontokra
Klaszter hasonlóság: MAX
(Complete Linkage)
• Két klaszter távolsága a bennük
levő legtávolabbi pontok távolsága
– A két klaszter összes pontjának
segítségével határozhatjuk meg
I1 I2 I3 I4 I5
I1 1.00 0.90 0.10 0.65 0.20
I2 0.90 1.00 0.70 0.60 0.50
I3 0.10 0.70 1.00 0.40 0.30
I4 0.65 0.60 0.40 1.00 0.80
I5 0.20 0.50 0.30 0.80 1.00
1
2
3
4
5
Hierarchikus klaszterezés: MAX
4
1
2
5
5
0.4
0.35
2
0.3
0.25
3
3
6
1
4
0.2
0.15
0.1
0.05
0
Beágyazott klaszterek
3
6
4
1
Dendrogram
2
5
MAX erőssége
Eredeti pontok
Két klaszter
Kevésbé érzékeny zajokra és kiugró értékekre
MAX korlátai
Eredeti pontok
Két klaszter
Nagy klasztereket hajlamos felbontani
Kör alakúakat előnyben részesit
Klaszter hasonlóság: csoport átlag
(UPGMA)
• Két klaszter hasonlósága a bennük levő pontok átlagos
távolsága
 proximity(p , p )
i
proximity(Clusteri , Clusterj ) 
I1
I2
I3
I4
I5
I1
1.00
0.90
0.10
0.65
0.20
I2
0.90
1.00
0.70
0.60
0.50
I3
0.10
0.70
1.00
0.40
0.30
I4
0.65
0.60
0.40
1.00
0.80
I5
0.20
0.50
0.30
0.80
1.00
j
piClusteri
p jClusterj
|Clusteri ||Clusterj |
1
2
3
4
5
Klaszter hasonlóság: csoport átlag
5
4
1
0.25
2
5
0.2
2
0.15
3
6
1
4
3
Egymásba ágyazott
klaszterek
0.1
0.05
0
3
6
4
1
Dendrogram
2
5
Klaszter hasonlóság: csoport átlag
•
•
Kompromisszum a Single és
Complete Link között
Erősség
– Kevéssé érzékeny kiugró értékekre és
zajra
•
Korlát
– Köralakú klaszterek irányába torzít
Ward módszere
• A hasonlóság két klaszter
összefésülésénél: a négyzetes hiba
növekedése (változása)
– Hasonló a csoportátlaghoz, ha ott a
távolságok négyzeteit vennénk
• Kevéssé érzékeny zajra és kiugró
értékekre
• Torzít köralakú klasztereknél
• Hierarchikus megfelelője a K-középnek
– Használható a K-közép inicializálására
Hierarchikus klaszterezés:
Idő- és tárigény
• O(N2) tárigény (hasonlósági mátrix)
– N a pontok száma
• O(N3) idő
– N lépés van, és minden lépésben a
mátrixmérettel arányos számolás
Hierarchikus klaszterezés:
problémák és határok
• Ha egyszer két klasztert összefésültünk,
nem lehet visszacsinálni
• Nincs közvetlen minimalizálandó
célfüggvény
• A különböző módszereknek problémái
lehetnek az alábbiakkal
– Zajra és kiugró értékekre való érzékenység
– Különböző méretű klaszterek, konkáv
alakzatok kezelése
– Nagyméretű klaszterek
MST:Felosztó Hierarchikus
Klaszterezés
MST (Minimum Spanning Tree) építése
– Prim algoritmusa, O(N2)
MST:Felosztó Hierarchikus
Klaszterezés
• MSTt használ klaszterek
hierarchiájának építésére
Sűrűség alapú klaszterezés
DBSCAN
–
Sűrűség = pontok száma vizsgált pont ε
környezetében
–
Egy pont mag-pont (core point) ha egy
konstansnál (MinPts) több pont van az ε
környezetében
•
Ezek a pontok vannak a klaszter belsejében
–
Egy határpontnak (border point) a MinPts-nél
kevesebb pont van az ε környezetében, de egy
mag-pont környezetében van
–
A zajos pontok (noise point) a többi pont
DBSCAN: Mag, határ, zajos pontok
DBSCAN: Mag, határ, zajos pontok
Eredeti pontok
Pontok: core, border
és noise
Eps = 10, MinPts = 4
DBSCAN Algoritmus
Mikor működik a DBSCAN jól
Eredeti pontok
Klaszterek
Nem érzékeny a zajra
Különböző alakú és méretű klasztereket kezel
Mikor nem jó a DBSCAN?
(MinPts=4, Eps=9.75).
Eredeti pontok
Változó sűrűség
(MinPts=4, Eps=9.92)
DBSCAN: ε és MinPts meghatározása
•
•
•
Alapötlet: a klaszterek k-dik legközelebbi pontjai
közel azonos távolságra vannak
A zajos pontoknál a k-dik legközelebbi pont
messze van
Rajzoljuk fel minden pontnál a k-dik legközelebbi
pont távolságát
Klaszterek validitása
Klaszterek validitása
(validity)
•
•
•
Mennyire jók az eredményül kapott
klaszterek?
A klaszterek a szemlélőtől is függenek!
Akkor miért akarjuk kiértékelni őket?
– „Szemrevételezés”: létezik-e egyáltalán valamilyen
struktúra az adatokban (klaszter tendencia) pl zajban
ne találjunk mintát
– A klaszter elemzés eredményeinek összevetése
előzetesen adott osztálycímkékkel (!?)
– Két különböző klaszterhalmaz összevetése, a jobb
illeszkedés megállapítása
– A klaszterek valódi számának meghatározása
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
y
Véletlen
pontok
y
Klaszterek véletlen adatokban
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
0.2
0.4
0.6
0.8
0
1
DBSCAN
0
0.2
0.4
x
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
y
y
K-közép
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
0.2
0.4
0.6
x
0.6
0.8
1
x
0.8
1
0
Complete
Link
0
0.2
0.4
0.6
x
0.8
1
Klaszterek validitásának mérőszámai
– Külső mérték: azt mérjük, hogy az
klaszterek mennyire illeszkednek előre adott
osztálycímkékhez vagy páros
megkötésekhez
– Belső mérték: a jóságot a struktúrán
mérjük, külső információ felhasználása
nélkül → célfüggvény
• pl. össz négyzetes hiba (SSE)
– Relatív Index: Két különböző klaszterezés
eredményeinek összehasonlítása
Korreláció, mint belső mérték
–
–
Hasonlóság mátrix
Szomszédsági mátrix
•
•
Minden pontnak egy sor és egy oszlop felel meg
Egy elem a mátrixban 1, ha az adott pontok egy klaszterben
vannak, különben 0
• Határozzuk meg a két mátrix közötti
korrelációt
–
Mivel a mátrixok szimmetrikusak, csak n(n-1) / 2 elem között
kell a korrelációt számolni
• Magas korreláció esetén az egy
klaszterbe tartozó pontok közel vannak
egymáshoz
Korreláció, mint belső index
• A szomszédsági és a hasonlóság mátrix
korrelációja két példán (K-közép klaszterezés)
1
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.5
y
y
0.6
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
0.2
0.4
0.6
x
Corr = -0.9235
0.8
1
0
0
0.2
0.4
0.6
x
Corr = -0.5810
0.8
1
Klaszter validáció: hasonlósági mátrix
Rendezzük a hasonlósági mátrix sorait és
oszlopait a klasztereknek megfelelően, és
„figyeljük meg”
1
1
0.9
0.8
0.7
Points
y
0.6
0.5
0.4
0.3
0.2
0.1
0
10
0.9
20
0.8
30
0.7
40
0.6
50
0.5
60
0.4
70
0.3
80
0.2
90
0.1
100
0
0.2
0.4
0.6
x
0.8
1
20
40
60
Points
80
0
100 Similarity
Klaszter validáció: hasonlósági mátrix
1
10
0.9
0.9
20
0.8
0.8
30
0.7
0.7
40
0.6
0.6
50
0.5
0.5
60
0.4
0.4
70
0.3
0.3
80
0.2
0.2
90
0.1
0.1
100
20
40
60
80
0
100 Similarity
Points
y
Points
1
0
0
0.2
0.4
0.6
x
DBSCAN
0.8
1
Klaszter validáció: hasonlósági mátrix
1
10
0.9
0.9
20
0.8
0.8
30
0.7
0.7
40
0.6
0.6
50
0.5
0.5
60
0.4
0.4
70
0.3
0.3
80
0.2
0.2
90
0.1
0.1
100
20
40
60
80
0
100 Similarity
y
Points
1
0
0
0.2
0.4
0.6
x
Points
K-közép
0.8
1
Klaszter validáció: hasonlósági mátrix
1
10
0.9
0.9
20
0.8
0.8
30
0.7
0.7
40
0.6
0.6
50
0.5
0.5
60
0.4
0.4
70
0.3
0.3
80
0.2
0.2
90
0.1
0.1
100
20
40
60
80
0
100 Similarity
y
Points
1
0
0
Points
0.2
0.4
0.6
x
Complete Link
0.8
1
Klaszter validáció: hasonlósági mátrix
1
0.9
500
1
2
0.8
6
0.7
1000
3
0.6
4
1500
0.5
0.4
2000
0.3
5
0.2
2500
0.1
7
3000
DBSCAN
500
1000
1500
2000
2500
3000
0
Belső mérték: SSE
• Bonyolultabb alakzatok klaszterei kevéssé szeparáltak
• Átlagos SSE nagyon jó két klaszterezés
összehasonlítására
• Klaszterek számának becslésére is használható
10
9
6
8
4
7
6
SSE
2
0
5
4
-2
3
2
-4
1
-6
0
5
10
15
2
5
10
15
K
20
25
30
Általánosságban a belső mértékek
• Klaszter kohézió: Milyen közeliek az elemek
egy klaszteren belül
– pl: klaszteren belüli négyzetösszeg
WSS    ( x  mi )
2
i xC i
• Klaszter elválasztás: Milyen különbözőek, jól
elválasztottak a klaszterek egymástól
- Elválasztás: a klaszterek közötti négyzetösszeg
BSS   Ci (m  mi )
i
– Ahol |Ci| az i.dik klaszter mérete
2
Belső mértékek: kohézió és elválasztás
• Példa: négyzetes hiba
m

1
m1
K=1 klaszter:

2
3

4
m2
5
WSS (1  3)2  (2  3)2  (4  3)2  (5  3)2  10
BSS 4  (3  3)2  0
Total  10  0  10
K=2 klaszter:
WSS (1  1.5)2  (2  1.5)2  (4  4.5)2  (5  4.5)2  1
BSS 2  (3  1.5)2  2  (4.5  3)2  9
Total  1  9  10
Belső mértékek: kohézió és elválasztás
• Hasonlósági gráf alapú megközelítés kohézióra és
elválasztásra:
– Kohézió a klaszteren belüli kapcsolatok össz-súlya
– Elválasztás a két klaszter közötti kapcsolatok össz-súlya
kohézió
szeparáció
Belső mérték: sziluett együttható
• A sziluett együttható a kohézió és az elválasztás keveréke
• Az i pontra
– Legyen a = az i átlagos távolsága a klaszterén belüli pontoktól
– Legyen b = a többi klaszterhez tartozó pontok átlagos távolsága
– A sziluett együttható
s = 1 – a/b ha a < b,
(vagy s = b/a - 1
– Általában 0 és 1 között.
– Minél közelebb 1-hez, annál jobb
ha a  b, nem tipikus eset)
b
a
• Átlagos sziluett számolható egy klaszterre vagy egy
teljes klaszterezésre is.
“The validation of clustering structures is the
most difficult and frustrating part of cluster
analysis.
Without a strong effort in this direction, cluster
analysis will remain a black art accessible
only to those true believers who have
experience and great courage.”
Algorithms for Clustering Data, Jain and Dubes