Prezentace aplikace PowerPoint

Download Report

Transcript Prezentace aplikace PowerPoint

Bioinformatika
Radka Storchová
rozšiřující přednášky
• Fatima Cvrčková: Úvod do bioinformatiky
• Jan Pačes a Jiří Vondrášek: Bioinformatika
doporučená literatura
• Fatima Cvrčková: Úvod do praktické bioinformatiky,
Academia 2006
přednášky a konference společnosti FOBIA
Czech Free & Open Bioinformatic Association
http://fobia.img.cas.cz/
Bioinformatická data
nukleotidové sekvence
DNA
genová exprese
RNA
protein
aminokyselinové sekvence
prostorové uspořádání proteinů
Sekvenování DNA
•
Sangerova metoda
- manuálně (gely)
- automatické sekvenování (sekvenátory),
500 – 700 bp/run
•
Sekvenovací technologie nové generace
- 454, Solexa, Solid …
- paralelní sekvenování miliónů sekvencí
- celkem 100 – 3000 Mb/run
- jednotlivé sekvence dlouhé 20 – 400 bp
pyrogram
sekvenační gel
chromatogram
454 sekvenování
Sekvenování DNA
IUPAC kódy pro nukleové kyseliny
A
C
G
T
U
R
Y
M
K
Adenine
Cytosine
Guanine
Thymine
Uracil
Purine (A or G)
Pyrimidine (C, T, or U)
C or A
T, U, or G
W
T, U, or A
S
B
D
H
V
N
C or G
C, T, U, or G (not A)
A, T, U, or G (not C)
A, T, U, or C (not G)
A, C, or G (not T, not U)
Any base (A, C, G, T, or U)
T G T T
R
A C T
Sekvenování proteinů
Aminokyselinové zkratky
•
Enzymaticky - Edmanovo odbourávání
•
Hmotnostní spektrometrie
•
přes sekvenování DNA či RNA
Hmotnostní spetrometr MALDI TOF
Alanine
Ala
A
Arginine
Arg
R
Asparagine
Asn
N
Kyselina asparagová
Asp
D
Cysteine
Cys
C
Glutamine
Gln
Q
Kyselina glutamová
Glu
E
Glycine
Gly
G
Histidine
His
H
Isoleucine
Ile
I
Leucine
Leu
L
Lysine
Lys
K
Methionine
Met
M
Phenylalanine
Phe
F
Proline
Pro
P
Serine
Ser
S
Threonine
Thr
T
Tryptophan
Trp
W
Tyrosine
Tyr
Y
Valine
Val
V
Asparagine nebo
kyselina asparagová
Asx
B
Glutamine nebo
kyselina glutamová
Glx
Z
Formáty sekvencí
text
CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT
AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC
CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC
CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT
CATAAAAAAAATACTGTAA
FASTA
první řádek začíná znakem „>“,
za kterým pokračuje popis sekvence
>MSMg01-272P04.TJ:226-445 chr1:191356652-191356652
CTTAATAACTAATACTATAACATTGGGGCTGGTGAGATGGCTCAGTGGGT
AAGAGCACCCGACTGCTCTTCCGAAGGTCCAGAGTTCAAATCCCAGCAAC
CACATGGTGGCTCACAACCATCCGCAACATTTTTTTTACTGCCCCCCCCC
CACTGTCTGAAGACAGTTACAGTGTACTTACATATATTAATAAAATAAAT
CATAAAAAAAATACTGTAA
Formáty sekvencí
PHILIP
počet sekvencí
délka sekvencí
Formáty sekvencí
CLUSTALW2
file začíní slovem „CLUSTAL“
počet aminokyselin/nukleotidů
jméno sekvence
* identická sekvence
: konzervovaná substituce
. semi-konzervovaná substituce
Formáty sekvencí
GeneBank
Genová exprese
GLOBÁLNÍ ANALÝZA GENOVÉ EXPRESE
stanovení exprese velkého množství genů najednou,
v ideálním případě všech genů
technologie založené na sekvenování transkriptů
• EST (Expressed Sequence Tags)
• SAGE (Serial Analysis of Gene Expression)
• sekvenovací technologie nové generace (např. Solexa)
technologie založené na mRNA hybridizaci
• DNA čipy (microarrays)
ESTs (Expressed Sequence Tags)
1. Izolace mRNA
4. Sekvenování
AAAA
AAAA
AAAA
2. Syntéza cDNA
AAAA
TTTT
AAAA
TTTT
Expressed sequence Tags
„single-pass“ sekvence
z 3´ nebo 5´ konce mRNA
(cca 500 nukleotidů)
EST knihovna
 ne příliš kvalitní data
3. Zaklonování do vektoru
 málo osekvenovaných mRNA,
zachytí jen početné transkripty
 častá normalizace EST knihoven,
poskytuje jen kvalitativní
informace o genové expresi
cDNA knihovna
 zachytí i expresi neznámých genů
SAGE (Serial Analysis of Gene Expression)
princip
• z každé molekuly mRNA se v přesně definované
pozici vystřihne 14 – 21 bp úsek (= tag)
• spojení tagů do dlouhých úseků, v nichž jsou
jednotlivé tagy odděleny mezerníky. Spojené
sekvence se sekvenují
• sekvence tagu slouží pro identifikaci
počet jednotlivých tagů poskytuje
kvantitativní informaci o genové expresi
 kvalitní data
 kvantitativní informace
o genové expresi
 zachytí i méně početné transkripty
 zachytí i expresi neznámých genů
 lze porovnávat data vytvořená
v různých laboratořích
Nové technologie sekvenování
•
Velmi rychlé a relativně levné sekvenování
- cDNA knihovy
- SAGE knihovny
•
Umožní zachytit i velmi vzácné transkripty
•
Nové technologie, nástroje pro analýzu
se vyvíjejí
DNA čipy (microarrays)
dvoukanálové čipy
Měření
fluorescence
červený/zelený
signál
Kontrola
Vzorek
Hybridizace
Izolace RNA
Příprava fluorescenčně
značené sondy
Próby:
- syntetizované oligonukleotidy
- cDNA
DNA čipy (microarrays)
jednokanálové čipy
(např. Affymetrix GeneChips)
Skenování
Hybridizace
Kontrola
Analýza dat
Vzorek
Izolace RNA
Příprava fluorescenčně
značené sondy
 velmi rychlá metoda
 kvalitní data
 kvantitativní informace o expresi
 zachytí jen expresi známých genů,
jejichž sekvence je přítomná na čipu
 data z jednokanálových čipů lze
porovnávat mezi laboratořemi
GeneChip 640 Hybridization Oven
GeneChip 3000 7G Scanner
GeneChip 450 Fluidics Station
Affymetrix GeneChip
Affymetrix GenChips
•
využívá 25bp dlouhé próby
•
každý gen reprezentován 11 - 20 próbami,
které dohromady tvoří probeset
•
Na jednom čipu může být až několik desítek tisíc prób
RNA
próba
probeset
Affymetrix GenChips
2 typy prób
referenční sekvence
TAGGTCTGTATGACAGACACAAAGAAGATG
CAGACATAGTGTCTGTGTTTCTTCT
CAGACATAGTGTGTGTGTTTCTTCT
PM: the Perfect Match
MM: the Mismatch
Affymetrix GenChips
Rozmístění prób na čipu
Chip description file (cdf) – popisuje polohu jednotlivých
prób na čipu a jejich příslušnost k probesetům.
Affymetrix GenChips
Analýza obrazu
.DAT file
.CEL file
Generován automaticky
pomocí programu GCOS
(Affymetrix)
Affymetrix GenChips
Získání expresních dat
•
Převedení intenzity fluorescence do číselných hodnot genové exprese
- Background adjustment
- Scaling
- Summarization
•
Algoritmus: MAS5 (Affymetrix)
RMA/GSRMA
.CHP file
Databáze
křížení
Relační databáze
genotypy
myš
myš
vrh
lokus_A
matka
lokus_B
otec
lokus_C
markery
marker
chromosom
pozice
SQL (Structured Query Language)
SELECT myš
FROM křížení LEFTJOIN ON genotypy USING myš
WHERE lokus_A = ‘X’ and matka = ‘Y’
relační schéma
Primární databáze DNA sekvencí
GeneBank (Amerika)
EMBL (Evropa)
DDBJ (Japonsko)
• Obsahují více než 100 gigabází
z více než 165 000 organismů
• Totožný obsah
• Redundantní
• Nemoderované
Specializované databáze
Databáze genů
RefSeq, Entrez Gene
Cílem poskytnout kompletní, neredundantní soubor genů a jejich sekvencí. Přiřadit k sobě
sekvence DNA, mRNA a proteinů. Dát jim jednotné a stabilní identifikátory. Shromažďují
biologické informace o jednotlivých genech, jejich produktech. Jen ověřená data.
Databáze genových expresních dat
dbEST. Databáze EST (Expressed Sequence Tags).
UniGene. Sekvence mRNA a EST jsou zde uspořádány do neredundantních „klastrů“.
Každý z nich představuje unikátní trankript
GEO. Obsahuje expresní data získaná pomocí DNA čipů, SAGE a jijných metod.
Databáze proteinů
UniProt. Nejobsáhlejší katalog informací o proteinech a centrální úložiště
proteinových sekvencí a informací o funkci proteinů. Vznikla sloučením databází
Swiss-Prot a TrEMBL.
PDB. Obsahuje trojrozměrné struktury proteinů.
Specializované databáze
Gene Ontology
• Smyslem vytvořit jednotnou terminologii pro popis funkce
genových produktů.
• Termíny jsou hierarchicky uspořádané od obecnějších funkcí
po specializované funkce
• Termíny vycházejí ze tří kategorií
1. lokalizace v buňce (mitochondrie, jádro, endoplazmatické
retikulum, ribozom…)
2. biologická funkce (signální transdukce, pyrimidinový
metabolismus…)
3. molekulární funce (katalytická aktivia, vazebná funkce,
adenylát cyklázová aktivita)
• Vyhledávání lze omezit i na určité druhy či taxony
Databáze genomů
Ensembl
NCBI
UCSC Genome Browser
Vycházejí ze stejné DNA sekvence (assembly), ale
přidávají k ní vlastní anotace a predikce genů. Liší
se možnostmi prohledávání a exportu dat.
Porovnávání sekvencí a určování míry jejich podobnosti
Pairwise alignment
Multiple alignment
Globální vs. Lokální alignment
Alignment
Substituční matice
teoreticky odvozené
empiricky odvozené
PAM: založené na alignmentech blízce příbuzných
proteinů. PAM1 matice stanovena z alignmentů sekvencí s
ne větší než 1% divergencí. Ostatní PAM matice odvozené
od PAM1. Hodí se na porovnávání blízce příbuzných
proteinů.
BLOSUM: vycházejí z většího množství více rozmanitých
proteinů. Všechny BLOSUM matice stanovené z reálných
alignmentů. BLOSUM 62 stanovená z alignmenů sekvencí
s ne větší než 62% identitou. Default matice.
BLOSUM 80
PAM 1
více podobné
sekvence
BLOSUM 62
PAM 120
BLOSUM 45
PAM 250
méně podobné
sekvence
A
T
G
C
A
1
0
0
0
T
0
1
0
0
G
0
0
1
0
C
0
0
0
1
nejjednodušší
substituční matice pro
nukleotidové sekvence
Alignment
cena mezer (gap penalty)
• neexistují žádné teorie pro odvození ceny mezer
• cena za otevření mezery (a) – větší než jakákoli substituce
(a = -10 pro BLOSUM 62)
• cena za prodloužení mezery (b) – jakmile jednou mezera
vznikne, její prodloužení je snadné (b = -1 pro BLOSUM 62)
Alignment
Výhody porovnání aminokyselinových sekvencí
ve srovnání s nukleotidovými sekvencemi
•
Existuje 20 různých aminokyselin, ale jen 4 různé nukleotidy. Proto
lze vypočítat statistiku i pro mnohem kratší alignmenty aminokyselin.
•
Při porovnávání AK sekvencí se bere v potaz pravděpodobnost
substitucí různých aminokyselin.
•
Degenerovaný genetický kód. Zhruba 1/3 nukleotidových substitucí
nezpůsobuje záměnu AK, nejsou pod selekčním tlakem. Vytvářejí šum.
Proto i když chceme udělat alignment kódujících DNA sekvencí, je
lepší ho udělat na úrovni aminokyselin a ty pak nahradit příslušnými
nukleotidy.
Prohledávání databází podle podobnosti sekvencí
PROHLEDÁVACÍ ALGORITMY:
SSEARCH: vytváří alignmenty zadané sekvence (query) s každou
sekvencí v databázi. Výpočetně velmi náročné.
heuristické metody:
předem vyloučí sekvence, které jsou zadávané sekvenci nepříbuzné.
Hledání krátkých společných motivů („slov“), alignmenty se vytváří jen
s těmi sekvencemi, které mají alespoň jedno společné „slovo“.
FASTA: na EBI serveru http://www2.ebi.ac.uk/fasta33
BLAST: na stránkách NCBI http://www.ncbi.nlm.nih.gov/BLAST
rychlejší než FASTA
BLAT: na stránkách UCSC http://genome.ucsc.edu/cgi-bin/hgBlat
velmi rychlý, pro vyhledávání vysoce homologních sekvencí
BLAST
volba metody:
Databáze
Query sekvence
DNA
Protein
DNA
Protein
BLASTN
BLASTX
TBLASTN
BLASTP
PSI-BLAST
TBLASTN: hledá sekvenci proteinů v databázi obsahující atomatické překlady
nukleotidových databází ve všech 6 čtecích rámcích.
BLASTX: přeloží sekvenci ve všech 6 čtecích rámcích a vzniklými sekvencemi
prohledává databáze proteinů.
PSI-BLAST: využívá pozičně specifické substituční matice (PSSM), berou v
potaz také sekvenční kontext, ve kterém došlo k substituci. Hodí se pro
porovnávání vzdálenějších sekvencí.
BLAST
statistická významnost:
E value (Expectation value)
• P = 1 – e –E
• na rozdíl od P-value mohou být hodnoty E-value přesahovat 1
(lépe se porovnávají). Pro E < 0.01, P-value a E-value jsou
téměř identické.
• Hodnoty E-value závisí také na velikosti databází, které
prohledáváme! Zmenšením velikosti prohledávaných databází
se E-value zvyšuje. Proto vždy nutno uvést kromě E-value také
prohledávané databáze a jejich verzi.
BLAST
volba parametrů:
• Výběr databáze. Omezení prohledávání jen na sekvence z určitých
druhů či taxonů
• E-value. Default hodnota je 10. Snížíme pokud chceme omezit výstup
nebo zvýšíme pokud chceme naléz i sekvence s velmi malou podobností.
• Délka „slova“. Pro aminokyseliny default 3. Zkrácením velikosti slova na
2 se zvýší citlivost, ale velmi se zpomalí prohledávání. Pro nukleové
kyseliny default 11.
• Substituční matice. Default BLOSOM 62. Funguje přes široké spektrum
evolučních vzdáleností. Pokud hledáme i velmi vzdálené sekvence,
můžeme použít BLOSOM 45. Naopak pro velmi podobné sekvence
můžeme použít BLOSOM 80, PAM 30 či PAM 70. Každá substituční matici
přísluší jiné hodnoty ceny mezer.
Multiple alignment
Porovnání několika proteinových či nukleotidových sekvencí za
účelem vyhledávání evolučně konzervovaných domén, vytvoření
evolučního stromu či jiných evolučních analýz.
Multiple alignment
ClustalW
princip:
1.
vygeneruje alignmenty každých dvou sekvencí
2.
spočítá jejich evoluční vzdálenost
3.
pro nejbližší dvojici spočítá alignment a k tomu postupně přikládá
vzdálenější sekvence
možné problémy:
• používá globální alignment, musíme mít stejně dlouhé sekvence
• není možné později opravit chyby vzniklé alignmentem
nehomologních částí