Transcript 8 paskaita

Doc. Robertas Damaševičius
KTU Programų inžinerijos katedra,
Studentų 50-415
Email: [email protected]
Daugiamačiai duomenys (1)
 Daugiamačiais duomenys:
 duomenys, kurie nurodo sudėtingą reiškinį aprašytą daugeliu
parametrų.
 Savybes:
 sudėtinga struktūra - jų objektai kartais susideda iš daugelio
tūkstančių taškų, įvairiai pasiskirsčiusių erdvėje, jų negalima
atvaizduoti vienoje fiksuotos struktūros reliacinėje lentelėje;
 didelės duomenų bazės - paprastai yra operuojama gigabaitiniais
atminties kiekiais.
Bioinformatika (B110M100)
2
Daugiamačiai duomenys (2)
 Problema:
 daugiamačiai duomenys yra sunkiai suprantami, todėl būtina juos
pateikti žmogui suvokiama forma, pvz., projektuojant į dvimatę
plokštumą.
 Daugiamačių duomenų projekcijos į mažesnės dimensijos
erdvę metodai:
 pagrindinių komponenčių analizė (PCA), daugiamatės skalės
(MDS), Sammon‘o projekcija ir kt.
 Taikymas:
 transformacijos metu gautos projekcijos yra naudojamos
klasteriams ir šablonams duomenyse identifikuoti, kurie paskui yra
vizualizuojami naudojant įvairius grafinio vizualizavimo metodus.
Bioinformatika (B110M100)
3
Pavyzdys: genų išraiškos duomenų
matrica (mikromatrica)
 Tai yra daugiamatis masyvas, kur:
 Kiekviena eilutė atitinka geną Gi;
 Kiekvienas stulpelis atitinka eksperimento sąlygą Sj;
 Kiekvienas masyvo elementas Xij yra realus skaičius
nusakantis geno Gi išraiškos lygį esant sąlygai Sj;
 Nagrinėjant genų išraiška laike atsiranda papildomas
matmuo: laikas.
 Tipinė matrica apima 1000 genų ir 10 laiko taškų
Bioinformatika (B110M100)
5
Tipinio duomenų analizės
eksperimento schema
Mikromatricos duomenys
Mikromatricos
Genų
išraiškos
matricos
Klasteriai
Daugiamačių
duomenų
analizė
Svarbūs
Svarbūs
šablonai
Svarbūs
šablonai
šablonai
Vizualizacija
Šablonai
Bioinformatika (B110M100)
6
Duomenų vizualizavimas
 Vizualizavimas:
 grafinis informacijos pateikimas.
 Pagrindinė idėja:
 duomenis pateikti tokia forma, kuri leistų vartotojui suprasti
duomenis, juos analizuoti ir daryti išvadas.
 Vizualizavimo rūšys:
 Trimačio vaizdo pateikimas plokštumoje išlaikant erdvines
savybes (kompiuterinė grafika).
 Daugiamačių vektorių pavaizdavimas mažesnio matavimo
erdvėje siekiant išlaikyti panašią duomenų struktūrą ir jų
tarpusavio išsidėstymą.
Bioinformatika (B110M100)
7
Duomenų dimensiškumo
sumažinimo metodai (1)
 Tiesioginiai vizualizavimo metodai: pagal juos
daugiamačiai duomenys yra pateikiami tam tikra vizualia
forma, šie metodai padeda suvokti duomenis.
 taškiniai grafikai (Scatter Plots),
 taškinių grafikų matricos (Matrix of Scatter Plots),
 linijiniai grafikai (Line Graph, Multi Line Graph),
 perstatymų matrica (Permutation Matrix),
 apžiūros grafikai (Survey Plots)
Bioinformatika (B110M100)
8
Duomenų dimensiškumo
sumažinimo metodai (2)
 Projekcijos metodai leidžia daugiamačius duomenų objektus
atitinkančius vektorius pateikti mažesnės dimensijos erdvėje.
 Pagrindinių komponenčių analizė (Principal Component




Analysis),
Projekcijos siekimas (Projection Pursuit),
Daugiamatės skalės (Multidimensional Scaling),
Sammon‘o projekcija ir kt.;
Netiesiniai projekcijos metodus.
Bioinformatika (B110M100)
9
Duomenų dimensiškumo
sumažinimo metodai (3)
 Klasterizavimo metodai padeda suvokti didelių imčių
duomenis juos grupuojant į klasterius, grupes.
 K-vidurkių klasterizavimas (k-means),
 artimiausių kaimynų klasterizavimo metodas (nearest
neighbor),
 K-vidurinių taškų klasterizavimo metodas (K-medoids)
 Dirbtiniai neuroniniai tinklai gali būti naudojami
daugiamačių duomenų vizualizavimui
 Saviorganizuojantys neuroniniai tinklai (SOM).
Bioinformatika (B110M100)
10
Daugiamačių skalių metodas
 Daugiamatės skalės (MDS - Multidimensional Scaling) – grupė




metodų, plačiai naudojamų daugiamačių duomenų analizei
MDS pagalba n-mačiai vektoriai projektuojami į mažesnės
dimensijos erdvę (dažniausiai į R2) siekiant išlaikyti atstumus ar
kitus panašumus tarp analizuojamos aibės objektų
Gautuose dvimačiuose grafikuose panašūs objektai yra
vaizduojami arčiau vieni kitų, o mažiau panašūs – toliau vieni
nuo kitų
Pradiniai duomenys yra panašumų arba skirtingumų matrica:
kvadratinė simetrinė matrica, atvaizduojanti ryšius tarp
analizuojamų duomenų aibės elementų
Ryšiais tarp aibės elementų gali būti įvairios atstumų metrikos
Bioinformatika (B110M100)
11
Atstumų metrikos (1)
 Plačiausiai naudojama atstumo metrika yra Euklido
atstumas, kuris reiškia atstumą tarp 2 taškų
plokštumoje:
d ij 
 x
n
k 1
 x jk 
2
ik
 Manheteno atstumas reiškia atstumą tarp taškų
stačiakampio išplanavimo mieste:
n
d ij   xik  x jk
k 1
 Minkowskio atstumas apibendrina Euklido ir
Manheteno atstumus:
d ij 
n

x
k 1
ik
 x jk

Čia  - dimensijos parametras.
Bioinformatika (B110M100)
12
Atstumų metrikos (2)
 Kanberos atstumas:
n
xik  x jk
k 1
xik  x jk
d ij  
 Čebyševo (maksimalios reikšmės) atstumas:
dij  max xik  x jk
k
 Bray Curtis (Sorensen) atstumas naudojamas botanikoje ir ekologijoje:
n
d ij 
x
ik
k 1
n
x
k 1
ik
 x jk
n
  x jk
k 1
Bioinformatika (B110M100)
13
Atstumų metrikos: pavyzdys
x
3
y
4
2
1. Euklidoatstumas: 4 2  32  5.
2. Manetenoatstumas: 4  3  7.
3. Čebyševostatumas: max{4,3}  4.
4. Kanberos atstumas:
3
4

3  xpr 4  ypr
MDS algoritmų tipai
 Metriniai MDS algoritmai, arba klasikiniai (classical scaling)
 Naudojami kai įmanoma rasti atstumus tarp analizuojamų
duomenų elementų.
 Tikslas: pavaizduoti daugiamačius taškus dvimatėje erdvėje
taip, kad atstumai tarp dvimačių vektorių būtų kiek galima
artimesni atstumams tarp daugiamačių vektorių,
minimizuojant paklaidos funkciją.
 Nemetriniai MDS algoritmai
 Duomenų elementų skirtingumai ar panašybės nėra atstumai.
 Prasmingos ne atstumų skaitinės reikšmės, o atstumų tarp
objektų eilės numeriai, t.y. objektų išsidėstymo eilė.
Bioinformatika (B110M100)
15
Klasterizavimo algoritmai
 Problema: sudėtingi daugiamačiai nehomogeniniai
duomenys, analizė/modeliavimas nesiseka.
 Sprendimas: reikia suskaidyti duomenis į klasterius
ir juos modeliuoti atskirai.
 Klasterizavimo algoritmai:
 1) nustato (atskleidžia) panašumus tarp objektų
 2) „padeda“ panašius objektus į klasterius
K-means klasterizavimo algoritmas
1.
2.
3.
4.
5.
Pasirinkite atsitiktinai k pradinių taškų
Klasterizuokite duomenis naudodami Euklido atstumą
Susklaičiuokite naujus centrinius taškus kiekvienam
klasteriui naudodami tik klasterio taškų koordinates
Klasterizuokite visus duomenis iš naujo priskirdami juos
naujiems centriniams taškams
Kartokite 3 ir 4 žingsnius tol, kol duomenų taškai
daugiau nekeičia savo priklausomybės klasteriams
From “Data Analysis Tools for DNA Microarrays” by Sorin Draghici
K-Means klasterizavimas
Pasirinkite k pradinių
taškų
K-Means klasterizavimas
Priskirkite klasterius
Suskaičiuokite naujus
centrinis taškus
K-Means klasterizavimas
Kartokite, kol centriniai
taškai nekeičia savo
padėties