Transcript 9 paskaita

Doc. Robertas Damaševičius

KTU Programų inžinerijos katedra, Studentų 50-415 Email: [email protected]

Daugiamačiai duomenys (1)

 

Daugiamačiais duomenys:

 duomenys, kurie nurodo sudėtingą reiškinį aprašytą daugeliu parametrų.

Savybes:

sudėtinga struktūra - jų objektai kartais susideda iš daugelio tūkstančių taškų, įvairiai pasiskirsčiusių erdvėje, jų negalima atvaizduoti vienoje fiksuotos struktūros reliacinėje lentelėje;  didelės duomenų bazės - paprastai yra operuojama gigabaitiniais atminties kiekiais. Bioinformatika (B110M100) 2

Daugiamačiai duomenys (2)

  

Problema:

 daugiamačiai duomenys yra sunkiai suprantami, todėl būtina juos pateikti žmogui suvokiama forma, pvz., projektuojant į dvimatę plokštumą. Daugiamačių duomenų projekcijos į mažesnės dimensijos erdvę metodai:  pagrindinių komponenčių analizė (PCA), daugiamatės skalės (MDS), Sammon‘o projekcija ir kt.

Taikymas:

 transformacijos metu gautos projekcijos yra naudojamos klasteriams ir šablonams duomenyse identifikuoti, kurie paskui yra vizualizuojami naudojant įvairius grafinio vizualizavimo metodus.

Bioinformatika (B110M100) 3

Pavyzdys: genų išraiškos duomenų matrica (mikromatrica)

 Tai yra daugiamatis masyvas, kur:     Kiekviena eilutė atitinka geną G

i

; Kiekvienas stulpelis atitinka eksperimento sąlygą S

j

; Kiekvienas masyvo elementas X

ij

nusakantis geno G

i

yra realus skaičius išraiškos lygį esant sąlygai S

j

; Nagrinėjant genų išraiška laike atsiranda papildomas matmuo: laikas.  Tipinė matrica apima 1000 genų ir 10 laiko taškų Bioinformatika (B110M100) 6

Tipinio duomenų analizės eksperimento schema

Mikromatricos duomenys Mikro matricos Klasteriai Genų išraiškos matricos Daugiamačių duomenų analizė Vizualizacija Svarbūs šablonai Svarbūs šablonai šablonai

Bioinformatika (B110M100)

Šablonai

7

Duomenų vizualizavimas

Vizualizavimas:

 grafinis informacijos pateikimas. 

Pagrindinė idėja:

 duomenis pateikti tokia forma, kuri leistų vartotojui suprasti duomenis, juos analizuoti ir daryti išvadas. 

Vizualizavimo rūšys:

 Trimačio vaizdo pateikimas plokštumoje išlaikant erdvines savybes (kompiuterinė grafika).  Daugiamačių vektorių pavaizdavimas mažesnio matavimo erdvėje siekiant išlaikyti panašią duomenų struktūrą ir jų tarpusavio išsidėstymą.

Bioinformatika (B110M100) 8

Duomenų dimensiškumo sumažinimo metodai (1)

Tiesioginiai vizualizavimo metodai: pagal juos daugiamačiai duomenys yra pateikiami tam tikra vizualia forma, šie metodai padeda suvokti duomenis.  taškiniai grafikai (Scatter Plots),  taškinių grafikų matricos (Matrix of Scatter Plots),  linijiniai grafikai (Line Graph, Multi Line Graph),  perstatymų matrica (Permutation Matrix),  apžiūros grafikai (Survey Plots) Bioinformatika (B110M100) 9

Duomenų dimensiškumo sumažinimo metodai (2)

Projekcijos metodai leidžia daugiamačius duomenų objektus atitinkančius vektorius pateikti mažesnės dimensijos erdvėje.  Pagrindinių komponenčių analizė (Principal Component Analysis),  Projekcijos siekimas (Projection Pursuit),  Daugiamatės skalės (Multidimensional Scaling),  Sammon‘o projekcija ir kt.;  Netiesiniai projekcijos metodus.

Bioinformatika (B110M100) 10

Duomenų dimensiškumo sumažinimo metodai (3)

Klasterizavimo metodai padeda suvokti didelių imčių duomenis juos grupuojant į klasterius, grupes.  K-vidurkių klasterizavimas (k-means),  artimiausių kaimynų klasterizavimo metodas (nearest neighbor),  K-vidurinių taškų klasterizavimo metodas (K-medoids)  Dirbtiniai neuroniniai tinklai gali būti naudojami daugiamačių duomenų vizualizavimui  Saviorganizuojantys neuroniniai tinklai (SOM).

Bioinformatika (B110M100) 11

Daugiamačių skalių metodas

   Daugiamatės skalės (MDS - Multidimensional Scaling) – grupė metodų, plačiai naudojamų daugiamačių duomenų analizei MDS pagalba n-mačiai vektoriai projektuojami į mažesnės dimensijos erdvę (dažniausiai į R 2 ) siekiant išlaikyti atstumus ar kitus panašumus tarp analizuojamos aibės objektų Gautuose dvimačiuose grafikuose panašūs objektai yra vaizduojami arčiau vieni kitų, o mažiau panašūs – toliau vieni nuo kitų  Pradiniai duomenys yra panašumų arba skirtingumų matrica: kvadratinė simetrinė matrica, atvaizduojanti ryšius tarp analizuojamų duomenų aibės elementų  Ryšiais tarp aibės elementų gali būti įvairios atstumų metrikos Bioinformatika (B110M100) 12

Atstumų metrikos (1)

 Plačiausiai naudojama atstumo metrika yra Euklido atstumas, kuris reiškia atstumą tarp 2 taškų plokštumoje:

d ij

k n

  1 

x ik

x jk

 2  Manheteno atstumas reiškia atstumą tarp taškų stačiakampio išplanavimo mieste:

d ij

k n

  1

x ik

x jk

 Minkowskio atstumas apibendrina Euklido ir Manheteno atstumus:

d ij

 

k n

  1

x ik

x jk

Čia

 - dimensijos parametras.

Bioinformatika (B110M100) 13

Atstumų metrikos (2)

 Kanberos atstumas:

d ij

k n

  1

x x ik ik

x jk

x jk

 Čebyševo (maksimalios reikšmės) atstumas:

d ij

 max

k x ik

x jk

 Bray Curtis (Sorensen) atstumas naudojamas botanikoje ir ekologijoje:

d ij

k n

  1

k n

  1

x ik x ik

 

k n

  1

x jk x jk

Bioinformatika (B110M100) 14

Atstumų metrikos: pavyzdys

x

3

y

4 1.

Euklido atstumas : 2 2.

Maneteno atstumas 4 2  3 2 : 4  3  7 .

 5 .

3.

Čebyševo statumas : max { 4 , 3 }  4 .

4. Kanberos atstumas: 3  3

xpr

 4  4

ypr

Paklaidų funkcijos

 STRESS:  STRESS1:  SSTRESS:

s

s

1 

ss

i n

   1

j n

i

 1

w ij

d ij

 

ij

 2

i n

    1

j n

i

1

w ij

d ij

ij

2  

ij

 2

i k

   1

j k

i

 1

w ij

d ij

2   2

ij

 2 Bioinformatika (B110M100) 16

MDS algoritmų tipai (1)

Metriniai MDS algoritmai, arba klasikiniai (classical scaling)  Naudojami kai įmanoma rasti atstumus tarp analizuojamų duomenų elementų.  Tikslas: pavaizduoti daugiamačius taškus dvimatėje erdvėje taip, kad atstumai tarp dvimačių vektorių būtų kiek galima artimesni atstumams tarp daugiamačių vektorių, minimizuojant paklaidos funkciją.

Bioinformatika (B110M100) 17

MDS algoritmų tipai (2)

Nemetriniai MDS algoritmai  Duomenų elementų skirtingumai ar panašybės nėra atstumai.  Prasmingos ne atstumų skaitinės reikšmės, o atstumų tarp objektų eilės numeriai, t.y. o bjektų išsidėstymo eilė. Bioinformatika (B110M100) 18

MDS taikymo pavyzdys

Distance between any two dots (sequences) represent relative proximity between their sequence signatures (MDS was performed from 64 to 2-dimensions) Legault et al. BMC Genomics 2006 7:171

Klasterizavimo algoritmai

Problema:

sudėtingi daugiamačiai nehomogeniniai duomenys, analizė/modeliavimas nesiseka. 

Sprendimas:

reikia suskaidyti duomenis į klasterius ir juos modeliuoti atskirai.

 Klasterizavimo algoritmai:  1) nustato (atskleidžia) panašumus tarp objektų  2) „padeda“ panašius objektus į klasterius

K-means klasterizavimo algoritmas

1.

2.

3.

4.

5.

Pasirinkite atsitiktinai k pradinių taškų Klasterizuokite duomenis naudodami Euklido atstumą Susklaičiuokite naujus centrinius taškus kiekvienam klasteriui naudodami tik klasterio taškų koordinates Klasterizuokite visus duomenis iš naujo priskirdami juos naujiems centriniams taškams Kartokite 3 ir 4 žingsnius tol, kol duomenų taškai daugiau nekeičia savo priklausomybės klasteriams From “Data Analysis Tools for DNA Microarrays” by Sorin Draghici

K-Means klasterizavimas

Pasirinkite k pradinių taškų

K-Means klasterizavimas

Priskirkite klasterius Suskaičiuokite naujus centrinis taškus

K-Means klasterizavimas

Kartokite, kol centriniai taškai nekeičia savo padėties

Atraminių vektorių klasifikatorius = Support Vector Machine (SVM)

x i

X K y i

x i

Y

,

x j g

 

j

 sgn    is the kernel function.

x i

 

SV

i y i K

x i

,

x j x j

  

b

25

Quality of classification

      Training data  size of dataset, generation of negative examples, imbalanced datasets Mapping of data into feature space  Orthogonal, single nucleotide, nucleotide grouping, ...

Selection of an optimal kernel function  linear, polynomial, RBF, sigmoid Kernel function parameters SVM learning parameters  Regularization parameter, Cost factor Selection of SVM parameter values – an optimization problem 26 26

SVM (hyper)parameters

Kernel parameters  Learning parameters 27

SVM feature space

    Feature space: multidimensional vector representing data instances Mapping of data into features: achieving better classification accuracy Feature space construction:    nucleotide position-dependent nucleotide position-independent both nucleotide position-dependent and -independent information Feature mapping rule:

M

:

S

ˆ 

F

,

S

ˆ  

s

1 ,

s

2 ,...,

s N

 ,

F

 

f

1 ,

f

2 ,...,

f M

  N – the length of a DNA sequence, M – the length of feature vector Int. Workshop on Intelligent Informatics in Biology and Medicine (IIBM’2008), March 4 7, 2008, Barcelona, Spain 28

Feature mapping rules

     4-letter (ACGT) : Σ = {A, C, G, T}, ||Σ|| = 4   Advantage: Hamming-distance is constant Disadvantage: feature space growth ~ 4 k Nucleotide grouping based: SW, KM & RY SW : Σ = {S, W}, ||Σ|| = 2   Strong (C, G) nucleotides – 3 H bonds Weak (A, T) nucleotides – 2 H bonds RY : Σ = {R, Y}, ||Σ|| = 2   A and G – purines (R) C and T – pyrimidines (Y) KM : Σ = {K, M}, ||Σ|| = 2   A and C – amines (M) G and T – ketones (K) 29

Binary feature mapping rules

Rule type

Binary Single letter Grouping

Rule name

Orthogonal Binary 1 Binary 2 Binary 3 A C G T SW KM RY

Symbol: feature

1:4 1:2 1:2 1:2 1:1 1:1 1:1 1:1 2:1 2:1 2:1

Rule

A A A A A C G T

      0 , 0 , 0 , 1  ,

C

  0 , 0 , 1 , 0  ,

G

   ,   ,   , 1 ,

B

C C C

0    ,   ,   ,

B

  , 

G

C

,

G G

    ,   ,

T T

G

,

T

   ,

T

   1 , 1 , 1 ,

V D H

   0 0 0 , , ,

V D H

    

A

,

A

, 

A

,

G

,

C

,

C

,

T T

 

G

  0 , 1 , 0 , 0  ,      

T

   1 , 0 , 0 , 0 

S

 1 ,

W

 0 ,

S

 {

A

,

T

},

W

 {

C

,

G

}

K

 1 ,

M

 0 ,

K

 {

A

,

C

},

M

 {

G

,

T

}

R

 1 ,

Y

 0 ,

R

 {

A

,

G

},

Y

 {

C

,

T

}

Feature size

4

N

2

N N N

Bioinformatika (B110M100) 30

Klasifikavimo metodų pavyzdys

 LocBoost classification applet  http://www.cs.technion.ac.il/~rani/LocBoost/ Bioinformatika (B110M100) 31