Zastosowania sieci neuronowych w bioinformatyce Autor: Rafał Grodzicki

Download Report

Transcript Zastosowania sieci neuronowych w bioinformatyce Autor: Rafał Grodzicki

Zastosowania sieci neuronowych w bioinformatyce

Autor: Rafał Grodzicki

Zastosowania sieci neuronowych w bioinformatyce  Predykcja struktury białek  Struktura 2 i 3 rzędowa  Mapy i wektory kontaktów  Badanie ekspresji genów (mikromacierze DNA)

Predykcja struktury białek – podstawy biologiczne  Struktura 1 rzędowa  Sekwencja aminokwasów – słowo nad 20-elementowym alfabetem:

{A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}

 Typowa długość: 100 – 1500 aminokwasów

AYIAKQRQISFVKSHFSRQLEERLGLIEV…

Predykcja struktury białek – podstawy biologiczne  Struktura 2 rzędowa  Polipeptyd spontanicznie zwija się w regularne struktury:

α helisa struktura β

Predykcja struktury białek – podstawy biologiczne  Struktura 3 rzędowa  Wzajemne przestrzenne ułożenie struktur 2 rzędowych

Predykcja struktury białek – biologiczna istotność problemu     Struktura determinuje funkcję białka Struktura 1 rzędowa => => Struktura 3 rzędowa => Funkcja białka Kilkadziesiąt milionów znanych sekwencji DNA Kilkadziesiąt tysięcy białek o znanej strukturze 3 rzędowej Duży koszt eksperymentalnego określania struktury 3 rzędowej

Predykcja struktury białek – dane  PDB (Protein Data Bank – http://www.pdb.org

)  szczegółowe informacje na temat struktury 1 i 3 rzędowej ok. 37500 białek (dane na styczeń 2007)  reprezentatywne podzbiory białek z bazy PDB (tzw. pdb_select)

Predykcja struktury 2 rzędowej – dane  PDB nie zawiera jawnych danych na temat struktury 2 rzędowej  DSSP  Wolfgang Kabsch, Chris Sander  Uzyskiwanie informacji o strukturze 2 rzędowej na podstawie danych z PDB  7 klas: H, G, I, E, B, T, S 7 klas 3 klasy H H G H I H E E B E T L S L

Predykcja struktury 2 rzędowej – perceptron  Wejście:  Informacja na temat

w

aminokwasów (

w

sąsiednich nieparzysta) – tzw. okno wejściowe  Kodowanie ortogonalne aminokwasów:  wektor o wymiarze 20  na jednej pozycji 1, a na pozostałych 0 

(20*w)

elementów wejściowych

Predykcja struktury 2 rzędowej – perceptron  Wyjście:   3 neurony wyjściowe odpowiadające poszczególnym klasom struktury 2 rzędowej (wartość rzeczywista z przedziału [0,1]):    H – α helisa E – struktura β L – pętla łącząca Wynik predykcji: klasa odpowiadająca neuronowi wyjściowemu o maksymalnej wartości  Predykcja dla centralnego aminokwasu z okna wejściowego

Predykcja struktury 2 rzędowej – 2-poziomowa sieć neuronowa  1. poziom: 

v

sieci neuronowych (

v

nieparzysta) dla sąsiednich okien wejściowych – architektura identyczna jak w poprzednim podejściu …AQ SV P YG ISQIKAP… …AQS VP Y GI SQIKAP… …AQSV PY G IS QIKAP…

Predykcja struktury 2 rzędowej – 2-poziomowa sieć neuronowa  2. poziom:  Jednokierunkowa sieć neuronowa o wejściach będących wyjściami sieci neuronowych z 1. poziomu  Wyjście – identyczne jak w przypadku sieci neuronowych z 1. poziomu  Predykcja dla centralnego aminokwasu z okna wejściowego

Predykcja struktury 2 rzędowej – informacja ewolucyjna   Pojedyncza sekwencja zastąpiona uliniowieniem spokrewnionych (homologicznych) sekwencji Profil ACAA DDCA ACDA DAAA A 0.75

0.25

0.5

0.75

C 0.25

0.25

0.25

0 D 0 0.5

0.25

0.25

  Wartości binarne na wejściu sieci zastąpione wartościami rzeczywistymi z przedziału [0,1] Poprawa jakości predykcji (z 65% do >70%)

Predykcja struktury 2 rzędowej – bi-rekurencyjna sieć neuronowa

Predykcja struktury 2 rzędowej – bi-rekurencyjna sieć neuronowa  Obliczenia bi-rekurencyjnej sieci neuronowej:

O t

F t B t

        

I I I t t t

, , ,

F t F t B t

,  1  1

B t

 

F

0 

B N

 1  0 gdzie    

O t

– wynik predykcji dla t-tego aminokwasu

F t

– lewy kontekst (forward)

B t

– prawy kontekst (backward) N – długość polipeptydu (liczba aminokwasów)

Predykcja struktury 2 rzędowej – bi-rekurencyjna sieć neuronowa  824 sekwencje (2/3 – dane uczące, 1/3 – testowe) H E L Predykcja H

80.03%

4.68% 10.60% Predykcja E 2.88%

62.01%

9.62% Predykcja L 17.09% 33.31%

79.78%

 Najlepszy wynik: ok. 76%

Predykcja map i wektorów kontaktów  Mapa kontaktów  N – liczba aminokwasów w polipeptydzie  Macierz S o wymiarze N x N  S[i,j] = 1, jeśli i-ty i j-ty aminokwas są w kontakcie   S[i,j] = 0, w p.p.

i-ty i j ty aminokwas są w kontakcie   Odległość pomiędzy atomami węgla i-tego i j-tego aminokwasu mniejsza od ustalonej wartości Minimalna odległość pomiędzy dwoma dowolnymi atomami i-tego i j tego aminokwasu mniejsza od ustalonej wartości

Predykcja map i wektorów kontaktów  Wektor kontaktów  N – liczba aminokwasów w polipeptydzie  Wektor V o wymiarze N  V[i] = liczba aminokwasów, z którymi jest w kontakcie i-ty aminokwas  Definicja na podstawie mapy kontaktów

V

[

i

] 

j N

  1

S

[

i

,

j

]

Predykcja map i wektorów kontaktów  Wektory kontaktów   Metody analogiczne jak w przypadku predykcji struktury 2 rzędwej białek  Dla każdego aminokwasu przewidywana jest liczba aminokwasów będących z nim w kontakcie Mapy kontaktów  Rekurencyjne sieci neuronowe

Predykcja map kontaktów – rekurencyjna sieć neuronowa   Uogólnienie bi-rekurencyjnej sieci neuronowej na przypadek 2-wymiarowy Obliczenia rekurencyjnej sieci neuronowej:

O i H H H H i

,

i i i

, , , ,

j NW j j j NE SE

   

N N O N N

I SE SW

I i

,

NE NW

 

I I i j

 ,

I i

, ,

i j

,

i j

,

H j

, , ,

j

,

i NW H

,

H j H H

,

i NE

 1 ,

i SW

 1 ,

i SE

 1 ,

j H i NW

 1 ,

j j

,

i NE

, ,

SW j

, , ,

H H j H H H i NW

,

j

 1

i NE

,

j

 1

i SW

,

j

 1

i SE

,

j

 1   

i

j

, ,

H i SE

,

j

 *

H

0 ,

j

H

*

N

 1 ,

j

 *

H i

, 0  *

H i

,

N

 1  0

Predykcja struktury 3 rzędowej

  Problem otwarty (brak dobrych predyktorów struktury 3 rzędowej białek) Możliwe rozwiązanie:  1. etap – predykcja:    struktury 2 rzędowej map i wektorów kontaktów parametrów biochemicznych (np. hydrofobowość)  2. etap – predykcja struktury 3-rzędowej z wykorzystaniem wyników 1. etapu

Badanie ekspresji genów – mikromacierze DNA   Ekspresja genów  W tkance zdrowej i chorej   Zmiana w czasie Różnica między gatunkami Mikromacierze DNA   Pojedyncza mikromacierz – pojedynczy pomiar ekspresji genów w określonych warunkach Dane z wielu mikromacierzy – profil   Wiersze – geny Kolumny – wartości ekspresji dla różnych mikromacierzy

Badanie ekspresji genów – przykładowy profil

Badanie ekspresji genów – SOM    Profile ekspresji genów – duża ilość danych Konieczność uporządkowania, klasteryzacji Self Organizing Map (Kohonen, 1990)  Zalety:  Podział danych na klasy  Tolerancja zaszumionych danych  Wady:   Brak hierarchiczności Stała liczba klas

Badanie ekspresji genów – SOTA  Self-Organizing Tree Algorithm (Dopazo, Carazo, 1997)  Samoorganizująca sieć neuronowa  Struktura drzewiasta  Dynamiczne generowanie struktury w procesie uczenia  Dowolna liczba klas

Badanie ekspresji genów – SOTA   Węzły – kolumny profilu ekspresji genów Uczenie:    Stan początkowy: 2 liście połączone z węzłem wewnętrznym Dla kolejnych danych wejściowych:  Wybór węzła zwycięskiego (spośród terminali)  Modyfikacje sąsiednich węzłów  Dwa rodzaje sąsiedztwa węzłów   Lokalne – obaj potomkowie rodzica są liśćmi Ograniczające (restrictive) Podział węzła  Wygenerowanie dwóch identycznych kopii – węzły potomne

Badanie ekspresji genów – SOTA

Badanie ekspresji genów – SOTA

Bibliografia

      Paolo Frasconi, Ron Shamir – „Artificial Intelligence and Heuristic Methods in Bioinformatics”, NATO Science Series, 2003 P. Baldi, S. Brunak – „Exploiting the past and the future in protein secondary structure prediction”, Bioinformatics, 1999 G. Pollastri, P. Baldi – „Prediction of contact maps by GIOHMMs and recurrent neural networks using lateral propagation from all four cardinal corners”, Bioinformatics, 2002 Javier Herrero, Alfonso Valencia, Joaquin Dopazo paterns”, Bioinformatics, 2001 – „A hierarchical unsupervised growing neural network for clustering gene expression A.D. Baxevanis, B.F.F. Quellette – „Bioinformatyka”, PWN, 2004 P.C. Turner, A.G. McLennan, A.D. Bates, M.R.H. White – „Biologia molekularna”, PWN, 2005