[презентация]

Download Report

Transcript [презентация]

Алгоритмы и программы
парного выравнивания
Построение матриц BLOSUM
Глобальное выравнивание
(needle)
Локальное выравнивание
(water)
20-22.03.2013
Матрицы серии BLOSUM
Ключевая работа:
Amino acid substitution matrices from protein blocks
(Steven Henikoff & Jorja Henikoff, PNAS, 1992)
• Матрицы построены с использованием
разработанной авторами ранее базы
данных BLOCKS
• На момент публикации в этой базе
содержались сопоставления белков из
нескольких сотен семейств
Каковы исходные данные, или что
содержится в базе данных BLOCKS?
Что такое «блоки» (BLOCKS)
Множественное выравнивание
Блок 1
Ошибка:
ГЭП
! В базе данных BLOCKS нет
колонок, содержащих гэпы
Блок 2
Получение таблицы частот всех пар
аминокислот
Позиции выравнивания
Protein1
Protein2
…
• Берем первые две
последовательности
• Учитываем каждое
сопоставление
аминокислот между
второй и первой
FF
IL
RR
IT
AA
GG
MM
=
=
=
=
=
=
=
1
1
1
1
3
1
1
TT
NN
DD
LL
RI
FE
II
=
=
=
=
=
=
=
1
2
3
1
1
1
1
Получение таблицы частот всех пар
аминокислот
Позиции выравнивания
Protein1
Protein2
…
• Берем третью
последовательность
• Учитываем каждое
сопоставление
аминокислот между ней
и верхними
Получаем общее количество
сопоставлений для всех пар
аминокислот
(frequency table)
fij
Получение матрицы BLOSUM из
таблицы частот
f ij
Наблюдаемая вероятность
qij  20 i
встречаемости каждой пары
 fij аминокислот (observed probability of
occurrence for each i,j pair)
i 1 j 1
pi  qii  
j i
qij
2
1
1 20
pi  qii   qij
2
2 j 1
 pi p j , i  j
eij  
2 pi p j , i  j
Наблюдаемая частота встречаемости
каждой аминокислоты (observed
probability of occurrence for amino acid i)
Ожидаемая вероятность
встречаемости каждой пары
аминокислот (expected probability of
occurrence for each i,j pair)
Получение матрицы BLOSUM из
О_о
таблицы частот
qij
Наблюдаемая вероятность для пары i, j
sij  2  log 2
eij
Ожидаемая вероятность для пары i, j
Значение из
матрицы замен
y  log 2 x
qij
eij
qij
eij
qij
eij
1
Частота встречаемости
пары не отличается от
ожидаемой случайно
1
Пара встречается чаще,
чем ожидалось бы случайно
– «хорошая» замена
1
Пара встречается реже,
чем ожидалось бы случайно
– «плохая» замена
Что означает число 62 в
BLOSUM62?
В блоках могут встречаться практически идентичные
последовательности, за счет которых частоты пар могут быть ошибочно
«сдвинуты»
Чтобы этого избежать, последовательности на заданном % идентичности
кластеризуют, а порог указывают в названии матрицы
Пример: порог 62%
БЕЗ кластеризации
Кластер
% id = 80%
% id = 70%
AAAAAAAAAA
AAAAAAGGAA
GGGAAAGGAA
FTGCYAAGAA
GG = 1
GA = 1 + 1 = 2
% id = 50%
С кластеризацией
GG = 1  0.33 =
0.33
GA = 1  0.33 +
1  0.33 =
0.66
Что влияет на вычисляемые веса
замен в матрице BLOSUM?
Мембранные белки и BLOSUM
Трансмембранные участки белков могут иметь сильно
сдвинутые частоты встречаемости аминокислот, а также
частоты их замен
Белки в базе данных BLOCKS изначально были в основном
цитоплазматические (лучше изученные)
Есть специальные матрицы для
трансмембранных участков
PHAT: A Transmembrane-Specific Substitution Matrix
(Pauline Ng, Jorja Henikoff, Steven Henikoff,
Bioinformatics, 2000)
Компьютер может сравнить
два выравнивания
M – значение меры
L
L – длина
выравнивания
M   m( Ai1 , Ai 2 )
i 1
Функция,
зависящая от
сопоставления
i-той пары
остатков
Например, m(Ai1, Ai2) = соответствующий вес из
матрицы BLOSUM.
Сколько существует
выравниваний?
Если m и n – длины последовательностей, то
число возможных выравниваний будет равно:
min{ m, n}
C C
k 0
k
n
k
m
C
n
nm
(n  m)!

n!m!
Для двух последовательностей длины n:
2n
(2n)! 2
77

 10
2
(n!)
n
n = 100
Чисто частиц во Вселенной ~ 1080
(http://ru.wikipedia.org/wiki/Гугол)
Перебрать все выравнивания
– долговато будет
Суперкомпьютер МГУ «Ломоносов» обладает пиковой
(максимальной) производительностью 1.3 Петафлопс =
1.31015 операций с числами с плавающей точкой в
секунду
Вопрос: за сколько лет он закончил бы перебор
выравниваний двух последовательностей длиной 100
букв?...
Ответ: около 1050 лет
Нужен более эффективный алгоритм поиска
оптимального выравнивания
Глобальное выравнивание
Ключевая работа:
A general method applicable to the search for
similarities in the amino acid sequence of two proteins
(Saul Needleman & Christian Wunsch, J Mol Biol, 1970)
Белок 1
Белок 2
needle
Штраф за открытие гэпа
-gapopen
Штраф за продолжение гэпа
-gapextend
Матрица аминокислотных замен
-datafile
В исходной
работе веса
были 1 за
совпадение, -1 за
промах
Динамическое программирование
Белок 1
Старт
R
L
K
0
T
1) вставить гэп в белок 1
- штраф за гэп
2) вставить гэп в белок 2
- штраф за гэп
A
C
Белок 2
M
Всегда есть два
варианта вставки
гэпа:
L
K
M
Финиш
N
Белок 1 RLKMT
Белок 2 ACLKMN
-RLKMT
ACLKMN
RLKMT
-ACLKMN
Любое выравнивание
однозначно задается
путем в данной таблице
Динамическое программирование
Белок 1
0
Белок 2
A
-2
C
-4
L
-6
K
-8
M
-10
N
-12
R
L
K
M
T
-2
-4
-6
-8
-10
Белок 1 RLKMT
Белок 2 -----ACLKMN
RLKMT----------ACLKMN
Пусть штраф за гэп
будет = 2
Верхняя строка и левый
столбец заполняются
штрафами за гэпы
«Концевые гэпы»: можно
дополнительно оштрафовать
за то, что «финиш» не в конце
матрицы (т.е. нужно вставить
концевые гэпы в одну из
последовательностей)
Параметры needle
-endweight
-endopen
-endextend
Правило заполнения таблицы
j
Белок 2
Штраф за гэп g = 2
Белок 1
i
0
A
-2
C
-4
L
-6
K
-8
M
-10
N
-12
R
L
K
M
T
-2
-4
-6
-8
-10
Fi,j 1  g

Fi,j  max Fi1,j  g

Fi1,j 1  m(Ai1,Aj 2 )
• Выбираем, из какой
клетки перейти в
данную, чтобы
получился
наибольший вес
• Запоминаем, из какой
клетки перешли
• Величину m можно
вычислить по
матрице BLOSUM или
просто как 1 за
совпадение, -1 за
несовпадение
Пример заполнения таблицы
Белок 1
Белок 2
Белок
Белок
Белок
Белок
R
L
K
M
T
0
-2
-4
-6
-8
-10
A
-2
-1
-3
-5
-7
-9
C
-4
-3
-2
-4
-6
-8
L
-6
-5
-2
-3
-5
-7
K
-8
-7
-4
-1
-3
-5
M
-10
-9
-6
-3
0
-4
N
-12 -11
-8
-5
-2
-1
1
2
1
2
R-LKMT
ACLKMN
-RLKMT
ACLKMN
Штраф за гэп g = 2
Цена совпадения = 1
Цена несовпадения = -1
! После заполнения
матрицы мы находим
наилучшее число в
нижней строке или
правом столбце, и
вспоминаем путь к нему
! Может быть несколько
альтернативных путей
Локальное выравнивание
Ключевая работа:
Identification of Common Molecular Subsequences
(Temple Smith & Michael Waterman, J Mol Biol, 1981)
Белок 1
Белок 2
water
Штраф за открытие гэпа
-gapopen
Штраф за продолжение гэпа
-gapextend
Матрица аминокислотных замен
-datafile
В исходной
работе веса
были 1 за
совпадение, -1 за
промах
Отличия от глобального
Белок 1
Белок 2
R
L
K
M
T
0
0
0
0
0
0
A
0
-1
-1
-1
-1
-1
C
0
-1
L
0
-1
K
0
-1
M
0
-1
N
0
-1
Штраф за гэп g = 2
Цена совпадения = 1
Цена несовпадения = -1
1) Нули для начальных
гэпов
Отличия от глобального
Белок 1
Белок 2
R
L
K
M
T
0
0
0
0
0
0
A
0
0
0
0
0
0
C
0
0
0
0
0
0
L
0
0
1
0
0
0
K
0
0
0
2
0
0
M
0
0
0
0
3
0
N
0
0
0
0
0
0
Белок 1 LKM
Белок 2 LKM
Штраф за гэп g = 2
Цена совпадения = 1
Цена несовпадения = -1
1) Нули для начальных
гэпов
2) Все отрицательные
числа в матрице
приравниваются нулю
3) Находится самое
большое число, от него
восстанавливается
обратный путь