Transcript 8 paskaita
Doc. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: [email protected] Daugiamačiai duomenys (1) Daugiamačiais duomenys: duomenys, kurie nurodo sudėtingą reiškinį aprašytą daugeliu parametrų. Savybes: sudėtinga struktūra - jų objektai kartais susideda iš daugelio tūkstančių taškų, įvairiai pasiskirsčiusių erdvėje, jų negalima atvaizduoti vienoje fiksuotos struktūros reliacinėje lentelėje; didelės duomenų bazės - paprastai yra operuojama gigabaitiniais atminties kiekiais. Bioinformatika (B110M100) 2 Daugiamačiai duomenys (2) Problema: daugiamačiai duomenys yra sunkiai suprantami, todėl būtina juos pateikti žmogui suvokiama forma, pvz., projektuojant į dvimatę plokštumą. Daugiamačių duomenų projekcijos į mažesnės dimensijos erdvę metodai: pagrindinių komponenčių analizė (PCA), daugiamatės skalės (MDS), Sammon‘o projekcija ir kt. Taikymas: transformacijos metu gautos projekcijos yra naudojamos klasteriams ir šablonams duomenyse identifikuoti, kurie paskui yra vizualizuojami naudojant įvairius grafinio vizualizavimo metodus. Bioinformatika (B110M100) 3 Pavyzdys: genų išraiškos duomenų matrica (mikromatrica) Tai yra daugiamatis masyvas, kur: Kiekviena eilutė atitinka geną Gi; Kiekvienas stulpelis atitinka eksperimento sąlygą Sj; Kiekvienas masyvo elementas Xij yra realus skaičius nusakantis geno Gi išraiškos lygį esant sąlygai Sj; Nagrinėjant genų išraiška laike atsiranda papildomas matmuo: laikas. Tipinė matrica apima 1000 genų ir 10 laiko taškų Bioinformatika (B110M100) 5 Tipinio duomenų analizės eksperimento schema Mikromatricos duomenys Mikromatricos Genų išraiškos matricos Klasteriai Daugiamačių duomenų analizė Svarbūs Svarbūs šablonai Svarbūs šablonai šablonai Vizualizacija Šablonai Bioinformatika (B110M100) 6 Duomenų vizualizavimas Vizualizavimas: grafinis informacijos pateikimas. Pagrindinė idėja: duomenis pateikti tokia forma, kuri leistų vartotojui suprasti duomenis, juos analizuoti ir daryti išvadas. Vizualizavimo rūšys: Trimačio vaizdo pateikimas plokštumoje išlaikant erdvines savybes (kompiuterinė grafika). Daugiamačių vektorių pavaizdavimas mažesnio matavimo erdvėje siekiant išlaikyti panašią duomenų struktūrą ir jų tarpusavio išsidėstymą. Bioinformatika (B110M100) 7 Duomenų dimensiškumo sumažinimo metodai (1) Tiesioginiai vizualizavimo metodai: pagal juos daugiamačiai duomenys yra pateikiami tam tikra vizualia forma, šie metodai padeda suvokti duomenis. taškiniai grafikai (Scatter Plots), taškinių grafikų matricos (Matrix of Scatter Plots), linijiniai grafikai (Line Graph, Multi Line Graph), perstatymų matrica (Permutation Matrix), apžiūros grafikai (Survey Plots) Bioinformatika (B110M100) 8 Duomenų dimensiškumo sumažinimo metodai (2) Projekcijos metodai leidžia daugiamačius duomenų objektus atitinkančius vektorius pateikti mažesnės dimensijos erdvėje. Pagrindinių komponenčių analizė (Principal Component Analysis), Projekcijos siekimas (Projection Pursuit), Daugiamatės skalės (Multidimensional Scaling), Sammon‘o projekcija ir kt.; Netiesiniai projekcijos metodus. Bioinformatika (B110M100) 9 Duomenų dimensiškumo sumažinimo metodai (3) Klasterizavimo metodai padeda suvokti didelių imčių duomenis juos grupuojant į klasterius, grupes. K-vidurkių klasterizavimas (k-means), artimiausių kaimynų klasterizavimo metodas (nearest neighbor), K-vidurinių taškų klasterizavimo metodas (K-medoids) Dirbtiniai neuroniniai tinklai gali būti naudojami daugiamačių duomenų vizualizavimui Saviorganizuojantys neuroniniai tinklai (SOM). Bioinformatika (B110M100) 10 Daugiamačių skalių metodas Daugiamatės skalės (MDS - Multidimensional Scaling) – grupė metodų, plačiai naudojamų daugiamačių duomenų analizei MDS pagalba n-mačiai vektoriai projektuojami į mažesnės dimensijos erdvę (dažniausiai į R2) siekiant išlaikyti atstumus ar kitus panašumus tarp analizuojamos aibės objektų Gautuose dvimačiuose grafikuose panašūs objektai yra vaizduojami arčiau vieni kitų, o mažiau panašūs – toliau vieni nuo kitų Pradiniai duomenys yra panašumų arba skirtingumų matrica: kvadratinė simetrinė matrica, atvaizduojanti ryšius tarp analizuojamų duomenų aibės elementų Ryšiais tarp aibės elementų gali būti įvairios atstumų metrikos Bioinformatika (B110M100) 11 Atstumų metrikos (1) Plačiausiai naudojama atstumo metrika yra Euklido atstumas, kuris reiškia atstumą tarp 2 taškų plokštumoje: d ij x n k 1 x jk 2 ik Manheteno atstumas reiškia atstumą tarp taškų stačiakampio išplanavimo mieste: n d ij xik x jk k 1 Minkowskio atstumas apibendrina Euklido ir Manheteno atstumus: d ij n x k 1 ik x jk Čia - dimensijos parametras. Bioinformatika (B110M100) 12 Atstumų metrikos (2) Kanberos atstumas: n xik x jk k 1 xik x jk d ij Čebyševo (maksimalios reikšmės) atstumas: dij max xik x jk k Bray Curtis (Sorensen) atstumas naudojamas botanikoje ir ekologijoje: n d ij x ik k 1 n x k 1 ik x jk n x jk k 1 Bioinformatika (B110M100) 13 Atstumų metrikos: pavyzdys x 3 y 4 2 1. Euklidoatstumas: 4 2 32 5. 2. Manetenoatstumas: 4 3 7. 3. Čebyševostatumas: max{4,3} 4. 4. Kanberos atstumas: 3 4 3 xpr 4 ypr MDS algoritmų tipai Metriniai MDS algoritmai, arba klasikiniai (classical scaling) Naudojami kai įmanoma rasti atstumus tarp analizuojamų duomenų elementų. Tikslas: pavaizduoti daugiamačius taškus dvimatėje erdvėje taip, kad atstumai tarp dvimačių vektorių būtų kiek galima artimesni atstumams tarp daugiamačių vektorių, minimizuojant paklaidos funkciją. Nemetriniai MDS algoritmai Duomenų elementų skirtingumai ar panašybės nėra atstumai. Prasmingos ne atstumų skaitinės reikšmės, o atstumų tarp objektų eilės numeriai, t.y. objektų išsidėstymo eilė. Bioinformatika (B110M100) 15 Klasterizavimo algoritmai Problema: sudėtingi daugiamačiai nehomogeniniai duomenys, analizė/modeliavimas nesiseka. Sprendimas: reikia suskaidyti duomenis į klasterius ir juos modeliuoti atskirai. Klasterizavimo algoritmai: 1) nustato (atskleidžia) panašumus tarp objektų 2) „padeda“ panašius objektus į klasterius K-means klasterizavimo algoritmas 1. 2. 3. 4. 5. Pasirinkite atsitiktinai k pradinių taškų Klasterizuokite duomenis naudodami Euklido atstumą Susklaičiuokite naujus centrinius taškus kiekvienam klasteriui naudodami tik klasterio taškų koordinates Klasterizuokite visus duomenis iš naujo priskirdami juos naujiems centriniams taškams Kartokite 3 ir 4 žingsnius tol, kol duomenų taškai daugiau nekeičia savo priklausomybės klasteriams From “Data Analysis Tools for DNA Microarrays” by Sorin Draghici K-Means klasterizavimas Pasirinkite k pradinių taškų K-Means klasterizavimas Priskirkite klasterius Suskaičiuokite naujus centrinis taškus K-Means klasterizavimas Kartokite, kol centriniai taškai nekeičia savo padėties