Transcript 8 paskaita
Doc. Robertas Damaševičius
KTU Programų inžinerijos katedra,
Studentų 50-415
Email: [email protected]
Daugiamačiai duomenys (1)
Daugiamačiais duomenys:
duomenys, kurie nurodo sudėtingą reiškinį aprašytą daugeliu
parametrų.
Savybes:
sudėtinga struktūra - jų objektai kartais susideda iš daugelio
tūkstančių taškų, įvairiai pasiskirsčiusių erdvėje, jų negalima
atvaizduoti vienoje fiksuotos struktūros reliacinėje lentelėje;
didelės duomenų bazės - paprastai yra operuojama gigabaitiniais
atminties kiekiais.
Bioinformatika (B110M100)
2
Daugiamačiai duomenys (2)
Problema:
daugiamačiai duomenys yra sunkiai suprantami, todėl būtina juos
pateikti žmogui suvokiama forma, pvz., projektuojant į dvimatę
plokštumą.
Daugiamačių duomenų projekcijos į mažesnės dimensijos
erdvę metodai:
pagrindinių komponenčių analizė (PCA), daugiamatės skalės
(MDS), Sammon‘o projekcija ir kt.
Taikymas:
transformacijos metu gautos projekcijos yra naudojamos
klasteriams ir šablonams duomenyse identifikuoti, kurie paskui yra
vizualizuojami naudojant įvairius grafinio vizualizavimo metodus.
Bioinformatika (B110M100)
3
Pavyzdys: genų išraiškos duomenų
matrica (mikromatrica)
Tai yra daugiamatis masyvas, kur:
Kiekviena eilutė atitinka geną Gi;
Kiekvienas stulpelis atitinka eksperimento sąlygą Sj;
Kiekvienas masyvo elementas Xij yra realus skaičius
nusakantis geno Gi išraiškos lygį esant sąlygai Sj;
Nagrinėjant genų išraiška laike atsiranda papildomas
matmuo: laikas.
Tipinė matrica apima 1000 genų ir 10 laiko taškų
Bioinformatika (B110M100)
5
Tipinio duomenų analizės
eksperimento schema
Mikromatricos duomenys
Mikromatricos
Genų
išraiškos
matricos
Klasteriai
Daugiamačių
duomenų
analizė
Svarbūs
Svarbūs
šablonai
Svarbūs
šablonai
šablonai
Vizualizacija
Šablonai
Bioinformatika (B110M100)
6
Duomenų vizualizavimas
Vizualizavimas:
grafinis informacijos pateikimas.
Pagrindinė idėja:
duomenis pateikti tokia forma, kuri leistų vartotojui suprasti
duomenis, juos analizuoti ir daryti išvadas.
Vizualizavimo rūšys:
Trimačio vaizdo pateikimas plokštumoje išlaikant erdvines
savybes (kompiuterinė grafika).
Daugiamačių vektorių pavaizdavimas mažesnio matavimo
erdvėje siekiant išlaikyti panašią duomenų struktūrą ir jų
tarpusavio išsidėstymą.
Bioinformatika (B110M100)
7
Duomenų dimensiškumo
sumažinimo metodai (1)
Tiesioginiai vizualizavimo metodai: pagal juos
daugiamačiai duomenys yra pateikiami tam tikra vizualia
forma, šie metodai padeda suvokti duomenis.
taškiniai grafikai (Scatter Plots),
taškinių grafikų matricos (Matrix of Scatter Plots),
linijiniai grafikai (Line Graph, Multi Line Graph),
perstatymų matrica (Permutation Matrix),
apžiūros grafikai (Survey Plots)
Bioinformatika (B110M100)
8
Duomenų dimensiškumo
sumažinimo metodai (2)
Projekcijos metodai leidžia daugiamačius duomenų objektus
atitinkančius vektorius pateikti mažesnės dimensijos erdvėje.
Pagrindinių komponenčių analizė (Principal Component
Analysis),
Projekcijos siekimas (Projection Pursuit),
Daugiamatės skalės (Multidimensional Scaling),
Sammon‘o projekcija ir kt.;
Netiesiniai projekcijos metodus.
Bioinformatika (B110M100)
9
Duomenų dimensiškumo
sumažinimo metodai (3)
Klasterizavimo metodai padeda suvokti didelių imčių
duomenis juos grupuojant į klasterius, grupes.
K-vidurkių klasterizavimas (k-means),
artimiausių kaimynų klasterizavimo metodas (nearest
neighbor),
K-vidurinių taškų klasterizavimo metodas (K-medoids)
Dirbtiniai neuroniniai tinklai gali būti naudojami
daugiamačių duomenų vizualizavimui
Saviorganizuojantys neuroniniai tinklai (SOM).
Bioinformatika (B110M100)
10
Daugiamačių skalių metodas
Daugiamatės skalės (MDS - Multidimensional Scaling) – grupė
metodų, plačiai naudojamų daugiamačių duomenų analizei
MDS pagalba n-mačiai vektoriai projektuojami į mažesnės
dimensijos erdvę (dažniausiai į R2) siekiant išlaikyti atstumus ar
kitus panašumus tarp analizuojamos aibės objektų
Gautuose dvimačiuose grafikuose panašūs objektai yra
vaizduojami arčiau vieni kitų, o mažiau panašūs – toliau vieni
nuo kitų
Pradiniai duomenys yra panašumų arba skirtingumų matrica:
kvadratinė simetrinė matrica, atvaizduojanti ryšius tarp
analizuojamų duomenų aibės elementų
Ryšiais tarp aibės elementų gali būti įvairios atstumų metrikos
Bioinformatika (B110M100)
11
Atstumų metrikos (1)
Plačiausiai naudojama atstumo metrika yra Euklido
atstumas, kuris reiškia atstumą tarp 2 taškų
plokštumoje:
d ij
x
n
k 1
x jk
2
ik
Manheteno atstumas reiškia atstumą tarp taškų
stačiakampio išplanavimo mieste:
n
d ij xik x jk
k 1
Minkowskio atstumas apibendrina Euklido ir
Manheteno atstumus:
d ij
n
x
k 1
ik
x jk
Čia - dimensijos parametras.
Bioinformatika (B110M100)
12
Atstumų metrikos (2)
Kanberos atstumas:
n
xik x jk
k 1
xik x jk
d ij
Čebyševo (maksimalios reikšmės) atstumas:
dij max xik x jk
k
Bray Curtis (Sorensen) atstumas naudojamas botanikoje ir ekologijoje:
n
d ij
x
ik
k 1
n
x
k 1
ik
x jk
n
x jk
k 1
Bioinformatika (B110M100)
13
Atstumų metrikos: pavyzdys
x
3
y
4
2
1. Euklidoatstumas: 4 2 32 5.
2. Manetenoatstumas: 4 3 7.
3. Čebyševostatumas: max{4,3} 4.
4. Kanberos atstumas:
3
4
3 xpr 4 ypr
MDS algoritmų tipai
Metriniai MDS algoritmai, arba klasikiniai (classical scaling)
Naudojami kai įmanoma rasti atstumus tarp analizuojamų
duomenų elementų.
Tikslas: pavaizduoti daugiamačius taškus dvimatėje erdvėje
taip, kad atstumai tarp dvimačių vektorių būtų kiek galima
artimesni atstumams tarp daugiamačių vektorių,
minimizuojant paklaidos funkciją.
Nemetriniai MDS algoritmai
Duomenų elementų skirtingumai ar panašybės nėra atstumai.
Prasmingos ne atstumų skaitinės reikšmės, o atstumų tarp
objektų eilės numeriai, t.y. objektų išsidėstymo eilė.
Bioinformatika (B110M100)
15
Klasterizavimo algoritmai
Problema: sudėtingi daugiamačiai nehomogeniniai
duomenys, analizė/modeliavimas nesiseka.
Sprendimas: reikia suskaidyti duomenis į klasterius
ir juos modeliuoti atskirai.
Klasterizavimo algoritmai:
1) nustato (atskleidžia) panašumus tarp objektų
2) „padeda“ panašius objektus į klasterius
K-means klasterizavimo algoritmas
1.
2.
3.
4.
5.
Pasirinkite atsitiktinai k pradinių taškų
Klasterizuokite duomenis naudodami Euklido atstumą
Susklaičiuokite naujus centrinius taškus kiekvienam
klasteriui naudodami tik klasterio taškų koordinates
Klasterizuokite visus duomenis iš naujo priskirdami juos
naujiems centriniams taškams
Kartokite 3 ir 4 žingsnius tol, kol duomenų taškai
daugiau nekeičia savo priklausomybės klasteriams
From “Data Analysis Tools for DNA Microarrays” by Sorin Draghici
K-Means klasterizavimas
Pasirinkite k pradinių
taškų
K-Means klasterizavimas
Priskirkite klasterius
Suskaičiuokite naujus
centrinis taškus
K-Means klasterizavimas
Kartokite, kol centriniai
taškai nekeičia savo
padėties