Podstawy i zastosowania bioinformatyki

Download Report

Transcript Podstawy i zastosowania bioinformatyki

Podstawy i zastosowania
bioinformatyki
Marek Kudła
Sekwencje
• Nukleotydowe
– 4 nukleotydy 4 = 2^2
2 bity informacji
• Aminokwasowe
– 20 aminokwasów 2^4 < 20 < 2^5
< 5 bitów informacji
Widzimy zatem, że przy translacji zachodzi de
facto utrata informacji
Kodon – 3 nt = 6 bitów -> aminokwas <5 bitów
Podobieństwo
• Sekwencje nukleotydowe
– Zawartość identycznych pozycji między dwoma
sekwencjami - % identyczności
– Długość porównywanych sekwencji
– Czy identyczne pozycje są zgrupowane, czy też
rozproszone w alignmencie
• Sekwencje białkowe
Wszystkie powyższe, plus:
– Podobieństwo pod względem właściwości
fizykochemicznych lub kodonów, którymi są
kodowane
– Reszty na konserwatywnych pozycjach –
przewidzianych domenach, miejscach katalitycznych.
Alignment
• Pairwise alignment – ścisłe rozwiązanie możliwe
ATTCAGCTCCATGC
|||| ||| || ||
ATTCGGCTACA-GC
• MSA - multiple sequence alingment
ATTCAGCT-CCATGC
ATTCGGCT-CCA-GC
TTTGAGCTTCCATGC
Macierz podstawień
•PAM
•BLOSSUM
Algorytmy tworzenia alignmentów i
wyszukiwania sekwencji
•
•
•
•
•
•
•
Needleman-Wuensch `70
Smith-Waterman `70
dotplot
BLAST `90
SSAHA
BLAT
FASTA
NEEDLEMAN
WUENSCH
Nic . : |
Needleman-Wuensch a SmithWaterman
wyjściowo
||||||:|||.||||:|||||
Smith-Waterman
Alignment lokalny
||||||:|||.||||:|||||
|..|
.|
:.:.
Needleman-Wuensch
Alignment globalny
BLAST
Dotplots
ATTCAGCTCCATGCT
Sekwencja 2
ATTCA-GCTCCATGCTCCATGC
Sekwencja 1
Sekwencja z domenami powtórzonymi – to samo białko na obu osiach
Drosophila melanogaster SLIT
Domeny konserwowane ewolucyjnie
Sekwencja na osi horyzontalnej to ludzki antygen powierzchniowy MS2.
Sekwencja na osi pionowej to adamalizyna II – metaloproteaza z jadu
Crotalus adamanteus. Obie sekwencje posiadają domenę cynkowej
proteazy.
Wykrywanie egzonów i intronów
Sekwencja na osi horyzontalnej – sekwencja nukleotydowa kalmoduliny z
Apergillus nidulans translowana w trzech ramkach odczytu. Na osi pionowej –
sekwencja białkowa tegoż białka.
Regiony niskiej złożoności