Transcript Zastosowania sieci neuronowych w bioinformatyce Autor: Rafał Grodzicki
Zastosowania sieci neuronowych w bioinformatyce
Autor: Rafał Grodzicki
Zastosowania sieci neuronowych w bioinformatyce Predykcja struktury białek Struktura 2 i 3 rzędowa Mapy i wektory kontaktów Badanie ekspresji genów (mikromacierze DNA)
Predykcja struktury białek – podstawy biologiczne Struktura 1 rzędowa Sekwencja aminokwasów – słowo nad 20-elementowym alfabetem:
{A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}
Typowa długość: 100 – 1500 aminokwasów
AYIAKQRQISFVKSHFSRQLEERLGLIEV…
Predykcja struktury białek – podstawy biologiczne Struktura 2 rzędowa Polipeptyd spontanicznie zwija się w regularne struktury:
α helisa struktura β
Predykcja struktury białek – podstawy biologiczne Struktura 3 rzędowa Wzajemne przestrzenne ułożenie struktur 2 rzędowych
Predykcja struktury białek – biologiczna istotność problemu Struktura determinuje funkcję białka Struktura 1 rzędowa => => Struktura 3 rzędowa => Funkcja białka Kilkadziesiąt milionów znanych sekwencji DNA Kilkadziesiąt tysięcy białek o znanej strukturze 3 rzędowej Duży koszt eksperymentalnego określania struktury 3 rzędowej
Predykcja struktury białek – dane PDB (Protein Data Bank – http://www.pdb.org
) szczegółowe informacje na temat struktury 1 i 3 rzędowej ok. 37500 białek (dane na styczeń 2007) reprezentatywne podzbiory białek z bazy PDB (tzw. pdb_select)
Predykcja struktury 2 rzędowej – dane PDB nie zawiera jawnych danych na temat struktury 2 rzędowej DSSP Wolfgang Kabsch, Chris Sander Uzyskiwanie informacji o strukturze 2 rzędowej na podstawie danych z PDB 7 klas: H, G, I, E, B, T, S 7 klas 3 klasy H H G H I H E E B E T L S L
Predykcja struktury 2 rzędowej – perceptron Wejście: Informacja na temat
w
aminokwasów (
w
sąsiednich nieparzysta) – tzw. okno wejściowe Kodowanie ortogonalne aminokwasów: wektor o wymiarze 20 na jednej pozycji 1, a na pozostałych 0
(20*w)
elementów wejściowych
Predykcja struktury 2 rzędowej – perceptron Wyjście: 3 neurony wyjściowe odpowiadające poszczególnym klasom struktury 2 rzędowej (wartość rzeczywista z przedziału [0,1]): H – α helisa E – struktura β L – pętla łącząca Wynik predykcji: klasa odpowiadająca neuronowi wyjściowemu o maksymalnej wartości Predykcja dla centralnego aminokwasu z okna wejściowego
Predykcja struktury 2 rzędowej – 2-poziomowa sieć neuronowa 1. poziom:
v
sieci neuronowych (
v
nieparzysta) dla sąsiednich okien wejściowych – architektura identyczna jak w poprzednim podejściu …AQ SV P YG ISQIKAP… …AQS VP Y GI SQIKAP… …AQSV PY G IS QIKAP…
Predykcja struktury 2 rzędowej – 2-poziomowa sieć neuronowa 2. poziom: Jednokierunkowa sieć neuronowa o wejściach będących wyjściami sieci neuronowych z 1. poziomu Wyjście – identyczne jak w przypadku sieci neuronowych z 1. poziomu Predykcja dla centralnego aminokwasu z okna wejściowego
Predykcja struktury 2 rzędowej – informacja ewolucyjna Pojedyncza sekwencja zastąpiona uliniowieniem spokrewnionych (homologicznych) sekwencji Profil ACAA DDCA ACDA DAAA A 0.75
0.25
0.5
0.75
C 0.25
0.25
0.25
0 D 0 0.5
0.25
0.25
Wartości binarne na wejściu sieci zastąpione wartościami rzeczywistymi z przedziału [0,1] Poprawa jakości predykcji (z 65% do >70%)
Predykcja struktury 2 rzędowej – bi-rekurencyjna sieć neuronowa
Predykcja struktury 2 rzędowej – bi-rekurencyjna sieć neuronowa Obliczenia bi-rekurencyjnej sieci neuronowej:
O t
F t B t
I I I t t t
, , ,
F t F t B t
, 1 1
B t
F
0
B N
1 0 gdzie
O t
– wynik predykcji dla t-tego aminokwasu
F t
– lewy kontekst (forward)
B t
– prawy kontekst (backward) N – długość polipeptydu (liczba aminokwasów)
Predykcja struktury 2 rzędowej – bi-rekurencyjna sieć neuronowa 824 sekwencje (2/3 – dane uczące, 1/3 – testowe) H E L Predykcja H
80.03%
4.68% 10.60% Predykcja E 2.88%
62.01%
9.62% Predykcja L 17.09% 33.31%
79.78%
Najlepszy wynik: ok. 76%
Predykcja map i wektorów kontaktów Mapa kontaktów N – liczba aminokwasów w polipeptydzie Macierz S o wymiarze N x N S[i,j] = 1, jeśli i-ty i j-ty aminokwas są w kontakcie S[i,j] = 0, w p.p.
i-ty i j ty aminokwas są w kontakcie Odległość pomiędzy atomami węgla i-tego i j-tego aminokwasu mniejsza od ustalonej wartości Minimalna odległość pomiędzy dwoma dowolnymi atomami i-tego i j tego aminokwasu mniejsza od ustalonej wartości
Predykcja map i wektorów kontaktów Wektor kontaktów N – liczba aminokwasów w polipeptydzie Wektor V o wymiarze N V[i] = liczba aminokwasów, z którymi jest w kontakcie i-ty aminokwas Definicja na podstawie mapy kontaktów
V
[
i
]
j N
1
S
[
i
,
j
]
Predykcja map i wektorów kontaktów Wektory kontaktów Metody analogiczne jak w przypadku predykcji struktury 2 rzędwej białek Dla każdego aminokwasu przewidywana jest liczba aminokwasów będących z nim w kontakcie Mapy kontaktów Rekurencyjne sieci neuronowe
Predykcja map kontaktów – rekurencyjna sieć neuronowa Uogólnienie bi-rekurencyjnej sieci neuronowej na przypadek 2-wymiarowy Obliczenia rekurencyjnej sieci neuronowej:
O i H H H H i
,
i i i
, , , ,
j NW j j j NE SE
N N O N N
I SE SW
I i
,
NE NW
I I i j
,
I i
, ,
i j
,
i j
,
H j
, , ,
j
,
i NW H
,
H j H H
,
i NE
1 ,
i SW
1 ,
i SE
1 ,
j H i NW
1 ,
j j
,
i NE
, ,
SW j
, , ,
H H j H H H i NW
,
j
1
i NE
,
j
1
i SW
,
j
1
i SE
,
j
1
i
j
, ,
H i SE
,
j
*
H
0 ,
j
H
*
N
1 ,
j
*
H i
, 0 *
H i
,
N
1 0
Predykcja struktury 3 rzędowej
Problem otwarty (brak dobrych predyktorów struktury 3 rzędowej białek) Możliwe rozwiązanie: 1. etap – predykcja: struktury 2 rzędowej map i wektorów kontaktów parametrów biochemicznych (np. hydrofobowość) 2. etap – predykcja struktury 3-rzędowej z wykorzystaniem wyników 1. etapu
Badanie ekspresji genów – mikromacierze DNA Ekspresja genów W tkance zdrowej i chorej Zmiana w czasie Różnica między gatunkami Mikromacierze DNA Pojedyncza mikromacierz – pojedynczy pomiar ekspresji genów w określonych warunkach Dane z wielu mikromacierzy – profil Wiersze – geny Kolumny – wartości ekspresji dla różnych mikromacierzy
Badanie ekspresji genów – przykładowy profil
Badanie ekspresji genów – SOM Profile ekspresji genów – duża ilość danych Konieczność uporządkowania, klasteryzacji Self Organizing Map (Kohonen, 1990) Zalety: Podział danych na klasy Tolerancja zaszumionych danych Wady: Brak hierarchiczności Stała liczba klas
Badanie ekspresji genów – SOTA Self-Organizing Tree Algorithm (Dopazo, Carazo, 1997) Samoorganizująca sieć neuronowa Struktura drzewiasta Dynamiczne generowanie struktury w procesie uczenia Dowolna liczba klas
Badanie ekspresji genów – SOTA Węzły – kolumny profilu ekspresji genów Uczenie: Stan początkowy: 2 liście połączone z węzłem wewnętrznym Dla kolejnych danych wejściowych: Wybór węzła zwycięskiego (spośród terminali) Modyfikacje sąsiednich węzłów Dwa rodzaje sąsiedztwa węzłów Lokalne – obaj potomkowie rodzica są liśćmi Ograniczające (restrictive) Podział węzła Wygenerowanie dwóch identycznych kopii – węzły potomne
Badanie ekspresji genów – SOTA
Badanie ekspresji genów – SOTA
Bibliografia
Paolo Frasconi, Ron Shamir – „Artificial Intelligence and Heuristic Methods in Bioinformatics”, NATO Science Series, 2003 P. Baldi, S. Brunak – „Exploiting the past and the future in protein secondary structure prediction”, Bioinformatics, 1999 G. Pollastri, P. Baldi – „Prediction of contact maps by GIOHMMs and recurrent neural networks using lateral propagation from all four cardinal corners”, Bioinformatics, 2002 Javier Herrero, Alfonso Valencia, Joaquin Dopazo paterns”, Bioinformatics, 2001 – „A hierarchical unsupervised growing neural network for clustering gene expression A.D. Baxevanis, B.F.F. Quellette – „Bioinformatyka”, PWN, 2004 P.C. Turner, A.G. McLennan, A.D. Bates, M.R.H. White – „Biologia molekularna”, PWN, 2005