Transcript Lecture_4
DUOMENŲ GAVYBOS TECHNOLOGIJOS Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <[email protected]> Klasteriavimas (clustering) yra duomenų analizės būdas, padedantis atskleisti jų struktūrą. Klasteriavimas yra skirtas sugrupuoti duomenis į iš anksto nežinomas grupes arba klasterius (cluster). Klasteriavimu taip pat gali būti siekiama sumažinti tiriamų duomenų kiekį, sugrupuojant ir nagrinėjant juos atskirai. Pagrindinis klasterinės analizės tikslas suskirstyti objektus taip, kad skirtumai klasterių viduje būtų kuo mažesni, o tarp klasterių - kuo didesni. Klasteriuojamų objektų ir klasteriavimo požymių parinkimą diktuoja konkretaus tyrimo tikslai bei uždaviniai. Visais atvejais skirstymas į klasterius prasideda tada, kai yra duoti objektų aibė ir kiekvieną objektą aprašančių skaitinių rodiklių aibės. Klasteriavimo etapai: pasirinkti klasteriuojamus objektus; nuspręsti, pagal kokius požymius klasteriuojama; pasirinkti kiekybinį matą, kuriuo matuojamas objektų panašumas; vienu ar kitu metodu suskirstyti objektus į klasterius; peržiūrėti gautus rezultatus. Taikant klasteriavimą, reikia atsižvelgti, kad : 1) daugelis klasteriavimo metodų yra euristiniai; 2) klasterinės analizės metodai dažnai konstruojami tam tikroms sritims, todėl jie turi daug specifiškumų. 3) tiriant tuos pačius duomenis skirtingais klasterinės analizės metodais, galima gauti skirtingus rezultatus. Lentelė 6.1. Duomenys А Požymis Požymis Nr. X Y 1 27 19 2 11 46 3 25 15 4 36 27 5 35 25 6 10 43 7 11 44 8 36 24 9 26 14 10 26 14 11 9 45 12 33 23 13 27 16 14 10 47 Klasteriavimo algoritmuose naudojamą pradinę informaciją sudaro grupuojamų objektų stebėjimų įrašų duomenys Tarkime, duota daugiamatė nepriklausomų kintamųjų stebėjimų matricą: Klasteriuojant siekiama sugrupuoti objektus (eilutes, įrašus). Klasteriavime svarbu parinkti kiekybinį objektų panašumo arba skirtingumo matą. Parinkus kiekybinį panašumo ar skirtingumo matą, galime pasakyti, kurios objektų poros panašesnės. Nuo pasirinkto mato priklauso klasteriavimo rezultatai. Klasterinėje analizėje dažniausiai naudojami panašumo matai (metrikos): Metriniai atstumo matai Koreliacijos koeficientai Asociatyvumo koeficientai Metriniai atstumo matai naudojami tada, kai objektus charakterizuojantys požymiai matuojami pagal intervalų arba santykių skalę. Asociatyvumo koeficientai taikomi binariniams duomenims - Euklido metrika: D( x, y) n 2 ( x y ) i i 1 i - Miesto metrika (City metrics) D( x, y ) i 1| xi yi | n - Euklido atstumo kvadrato metrika D( x, y ) i 1 ( xi yi ) 2 n - Čebyševo metrika D( x, y) max | xi yi Atstumas Vienetinės linkage) Pilnosios linkage) d(U, V) formulė jungties jungties Vidutinės jungties (single d (U ,V ) minXiU ,YjV d ( X i ,Y j ) (complete d (U ,V ) max X i U ,Y j V d ( X i , Y j ) d (U ,V ) X i U Y j V d ( X i , Yy ) /(nU nV ) Centrų (klasterius sudarančių d (U ,V ) d (U ,V ) objektų požymių vektorių vidurkiai) 2 Vordo d (U ,V ) U V /(1 / nU 1 / nv ) Hierarchinių metodų rezultatai nusako klasterių tarpusavio hierarchiją. Taikant hierarchinius metodus, nustatoma visų klasterių tarpusavio priklausomybių struktūrą ir tik po to sprendžiama, kurią klasterių struktūrą pasirinkti. Hierarchiniai metodai skirstomi į jungimo ir skaidymo metodus. Jungimo metodai smulkius klasterius jungia į stambesnius, kol telieka vienas didelis klasteris. Skaidymo metodai yra loginė jungimo metodų priešingybė. Vienintelis klasteris nuosekliai skaidomas į vis smulkėjančias dalis. Hierarchinius metodus sunku taikyti, kai objektų skaičius yra didelis. 1) duota N klasterių po 1 objektą ir NxN simetrinė atstumų matrica 2) pagal atstumų tarp klasterių matricą nustatomi du klasteriai, tarp kurių atstumas yra mažiausias; 3) šie klasteriai sujungiami, o atstumų matrica perskaičiuojama: ◦ išbraukiami stulpeliai ir eilutės, atitinkantys sujungtus klasterius, ◦ pridedama eilutė ir stulpelis su atstumais tarp naujo klasterio ir likusiųjų klasterių. 4) žingsniai 2 ir 3 kartojami (N-1) kartų, kol visi objektai patenka į vieną klasterį. Jungimo proceso schema vaizduojama grafiku, vadinamu dendrograma. Kurioje vietoje “kirsti medį”, galima nuspręsti pagal jungimo protokolą: 1 2 3 4 5 6 7 8 9 10 11 12 13 Lentelė 6.2. Jungimo tvarka Cluster Combined Coefficients Cluster 1 Cluster 2 9 10 ,000 2 14 1,461E-02 3 9 1,461E-02 5 8 1,461E-02 6 7 1,461E-02 3 13 3,490E-02 2 11 3,651E-02 4 5 4,144E-02 2 6 5,118E-02 4 12 ,105 1 3 ,120 1 4 1,217 1 2 7,516 Taikant skaidymo metodus, objektai yra pavaizduojami grafu, kuriam sudaromas mažiausias jungiantis medis (minimal spanning tree), ir iš šio medžio nuosekliai šalinamos ilgiausios šakos, kol lieka klasteriai, susidedantys tik iš vieno objekto. Šis procesas taip pat vaizduojamas dendrograma ir skaidymo protokolu. Šį klasteriavimo metodą galima laikyti kvadratinės paklaidos algoritmu (squared error clustering algorithm) , nes jis minimizuoja kvadratinę paklaidą. 1. Tegu klasteriui Kk priskirta objektų aibė {Xk1,Xk2,...,Xk,nk, čia nk -objektų skaičius klasteryje Kk, Xij =(x1ij,x2ij,...,xni j) , j = (1,..., nk) Kvadratinė paklaida k-tajam klasteriui yra Euklido atstumų tarp kiekvieno klasterio elemento ir klasterio centro Ck kvadratų suma uk Ek X Ck ik 2 i 1 čia Ck=(ck,1, ck,2, ... , ck,n) klasterio n vidurkis: ik X k Ck - klassnk i 1 nk Kvadratinė paklaida klasterių aibei K = {K1,K2,...,KK} apskaičiuojama pagal formulę: K E Ek k 1 Klasteriai sudaromi taip, kad ši paklaida būtų mažiausia. 1) inicijuojami K klasterių centrai: 2) kiekvienas objektas priskiriamas tam klasteriui, iki kurio centro jo atstumas yra mažiausias; 3) perskaičiuojami visų klasterių centrai; 4) apskaičiuojama kvadratinė paklaida; 2-4 punktai kartojami, kol kvadratinės paklaidos reikšmė tampa mažesnė už pasirinktą slenkstinę reikšmę arba objektai nebepersiskirsto kitiems klasteriams. Tiriant paslėptas duomenų struktūras, būtina tirti, ar duomenų aibė turi tendenciją klasteriuotis, t.y. ar duomenys linkę grupuotis, kokia susidariusių klasterių forma ir pan. Objektų klasteriavimui rekomenduojama taikyti keletą klasterizavimo metodų. Jei duomenyse paslėpta ryški struktūra, ji bus pastebima daugeliu metodų. Klasterius apibūdina keliolika charakteristikų: požymių vektorių sklaida nuo klasterio centro, forma ir pan. Neturint išankstinės informacijos apie nagrinėjamų duomenų struktūras, gautus rezultatus lyginti sunku. Svarbi klasterinės analizės problema – klasterių interpretavimas. Klasterinės analizės rezultatus būtina pagrįsti. Tam patartina ištirti klasterių aprašomąsias statistikas.