Transcript Lecture_4

DUOMENŲ GAVYBOS
TECHNOLOGIJOS
Leonidas Sakalauskas
VGTU ITK, VU MII
t. -85 2109323, <[email protected]>
Klasteriavimas (clustering) yra duomenų
analizės būdas, padedantis atskleisti jų
struktūrą.
Klasteriavimas yra skirtas sugrupuoti duomenis
į iš anksto nežinomas grupes arba klasterius
(cluster).
Klasteriavimu taip pat gali būti siekiama
sumažinti tiriamų duomenų kiekį,
sugrupuojant ir nagrinėjant juos atskirai.
Pagrindinis klasterinės analizės tikslas suskirstyti objektus taip, kad skirtumai
klasterių viduje būtų kuo mažesni, o tarp
klasterių - kuo didesni.
Klasteriuojamų objektų ir klasteriavimo
požymių parinkimą diktuoja konkretaus
tyrimo tikslai bei uždaviniai.
Visais atvejais skirstymas į klasterius prasideda
tada, kai yra duoti objektų aibė ir kiekvieną
objektą aprašančių skaitinių rodiklių aibės.
Klasteriavimo etapai:
 pasirinkti klasteriuojamus objektus;
 nuspręsti, pagal kokius požymius
klasteriuojama;
 pasirinkti kiekybinį matą, kuriuo matuojamas
objektų panašumas;
 vienu ar kitu metodu suskirstyti objektus į
klasterius;
 peržiūrėti gautus rezultatus.
Taikant klasteriavimą, reikia atsižvelgti, kad :
1) daugelis klasteriavimo metodų yra
euristiniai;
2) klasterinės analizės metodai dažnai
konstruojami tam tikroms sritims, todėl jie
turi daug specifiškumų.
3) tiriant tuos pačius duomenis skirtingais
klasterinės analizės metodais, galima gauti
skirtingus rezultatus.
Lentelė 6.1. Duomenys А
Požymis Požymis
Nr.
X
Y
1
27
19
2
11
46
3
25
15
4
36
27
5
35
25
6
10
43
7
11
44
8
36
24
9
26
14
10
26
14
11
9
45
12
33
23
13
27
16
14
10
47
Klasteriavimo algoritmuose
naudojamą pradinę informaciją
sudaro grupuojamų objektų
stebėjimų įrašų duomenys
Tarkime, duota daugiamatė nepriklausomų
kintamųjų stebėjimų matricą:
Klasteriuojant siekiama sugrupuoti
objektus (eilutes, įrašus).
Klasteriavime svarbu parinkti kiekybinį
objektų panašumo arba skirtingumo matą.
Parinkus kiekybinį panašumo ar skirtingumo
matą, galime pasakyti, kurios objektų poros
panašesnės.
Nuo pasirinkto mato priklauso klasteriavimo
rezultatai.
Klasterinėje analizėje dažniausiai naudojami
panašumo matai (metrikos):
 Metriniai atstumo matai
 Koreliacijos koeficientai
 Asociatyvumo koeficientai
Metriniai atstumo matai naudojami tada, kai
objektus charakterizuojantys požymiai
matuojami pagal intervalų arba santykių
skalę.
Asociatyvumo koeficientai taikomi binariniams
duomenims
- Euklido metrika:
D( x, y) 

n
2
(
x

y
)
i
i 1 i
- Miesto metrika (City metrics)
D( x, y )  i 1| xi  yi |
n
- Euklido atstumo kvadrato metrika
D( x, y )  i 1 ( xi  yi ) 2
n
- Čebyševo metrika
D( x, y)  max | xi  yi
Atstumas
Vienetinės
linkage)
Pilnosios
linkage)
d(U, V) formulė
jungties
jungties
Vidutinės jungties
(single
d (U ,V )  minXiU ,YjV d ( X i ,Y j )
(complete d (U ,V )  max
X i U ,Y j V d ( X i , Y j )
d (U ,V )   X i U  Y j V d ( X i , Yy ) /(nU nV )
Centrų (klasterius sudarančių
d (U ,V )  d (U ,V )
objektų
požymių
vektorių
vidurkiai)
2
Vordo
d (U ,V )  U  V /(1 / nU  1 / nv )
Hierarchinių metodų rezultatai nusako
klasterių tarpusavio hierarchiją.
Taikant hierarchinius metodus, nustatoma
visų klasterių tarpusavio priklausomybių
struktūrą ir tik po to sprendžiama,
kurią klasterių struktūrą pasirinkti.
Hierarchiniai metodai skirstomi į jungimo ir
skaidymo metodus.
Jungimo metodai smulkius klasterius jungia į
stambesnius, kol telieka vienas didelis
klasteris.
Skaidymo metodai yra loginė jungimo metodų
priešingybė. Vienintelis klasteris nuosekliai
skaidomas į vis smulkėjančias dalis.
Hierarchinius metodus sunku taikyti, kai
objektų skaičius yra didelis.
1) duota N klasterių po 1 objektą ir NxN
simetrinė atstumų matrica
2) pagal atstumų tarp klasterių matricą
nustatomi du klasteriai, tarp kurių atstumas
yra mažiausias;
3) šie klasteriai sujungiami, o atstumų
matrica perskaičiuojama:
◦ išbraukiami stulpeliai ir eilutės, atitinkantys
sujungtus klasterius,
◦ pridedama eilutė ir stulpelis su atstumais tarp
naujo klasterio ir likusiųjų klasterių.
4) žingsniai 2 ir 3 kartojami (N-1) kartų, kol
visi objektai patenka į vieną klasterį.
Jungimo proceso schema vaizduojama
grafiku, vadinamu dendrograma.
Kurioje vietoje “kirsti medį”, galima nuspręsti
pagal jungimo protokolą:
1
2
3
4
5
6
7
8
9
10
11
12
13
Lentelė 6.2. Jungimo tvarka
Cluster Combined
Coefficients
Cluster 1
Cluster 2
9
10
,000
2
14
1,461E-02
3
9
1,461E-02
5
8
1,461E-02
6
7
1,461E-02
3
13
3,490E-02
2
11
3,651E-02
4
5
4,144E-02
2
6
5,118E-02
4
12
,105
1
3
,120
1
4
1,217
1
2
7,516
Taikant skaidymo metodus, objektai yra
pavaizduojami grafu, kuriam sudaromas
mažiausias jungiantis medis (minimal
spanning tree), ir iš šio medžio nuosekliai
šalinamos ilgiausios šakos, kol lieka
klasteriai, susidedantys tik iš vieno objekto.
Šis procesas taip pat vaizduojamas
dendrograma ir skaidymo protokolu.
Šį klasteriavimo metodą galima laikyti
kvadratinės paklaidos algoritmu (squared
error clustering algorithm) , nes jis
minimizuoja kvadratinę paklaidą.
1.
Tegu klasteriui Kk priskirta objektų aibė
{Xk1,Xk2,...,Xk,nk, čia nk -objektų skaičius
klasteryje Kk, Xij =(x1ij,x2ij,...,xni j) ,
j = (1,..., nk)
Kvadratinė paklaida k-tajam klasteriui yra
Euklido atstumų tarp kiekvieno klasterio
elemento ir klasterio centro Ck kvadratų
suma
uk
Ek   X  Ck
ik
2
i 1
čia Ck=(ck,1, ck,2, ... , ck,n) klasterio
n
vidurkis:
ik
X
k
Ck 
- klassnk
i 1
nk
Kvadratinė paklaida klasterių aibei K =
{K1,K2,...,KK} apskaičiuojama pagal formulę:
K
E   Ek
k 1
Klasteriai sudaromi taip, kad ši paklaida būtų
mažiausia.
1) inicijuojami K klasterių centrai:
2) kiekvienas objektas priskiriamas tam
klasteriui, iki kurio centro jo atstumas yra
mažiausias;
3) perskaičiuojami visų klasterių centrai;
4) apskaičiuojama kvadratinė paklaida;
2-4 punktai kartojami, kol kvadratinės paklaidos
reikšmė tampa mažesnė už pasirinktą
slenkstinę reikšmę arba objektai
nebepersiskirsto kitiems klasteriams.
Tiriant paslėptas duomenų struktūras, būtina
tirti, ar duomenų aibė turi tendenciją
klasteriuotis, t.y. ar duomenys linkę grupuotis,
kokia susidariusių klasterių forma ir pan.
Objektų klasteriavimui rekomenduojama taikyti
keletą klasterizavimo metodų.
Jei duomenyse paslėpta ryški struktūra, ji bus
pastebima daugeliu metodų.
Klasterius apibūdina keliolika charakteristikų:
požymių vektorių sklaida nuo klasterio
centro, forma ir pan. Neturint išankstinės
informacijos apie nagrinėjamų duomenų
struktūras, gautus rezultatus lyginti sunku.
Svarbi klasterinės analizės problema –
klasterių interpretavimas.
Klasterinės analizės rezultatus būtina pagrįsti.
Tam patartina ištirti klasterių aprašomąsias
statistikas.