Transcript eloadas_2
SOLiD color space
File management
Szekvenciák, kontiggá való összerakása I. Tévedések vígjátéka
Kontig 1
A scaffold fogalma
Szekvenálási lyukak Nincs kapcsolat Kontig 2 Kontig 3 Kontig 4 Kontig 5 Scaffold 1 Scaffold 2
összekapcsolás: kozmidkönyvtár (BAC, YAC) klónok végeinek szekvenciái két küldönböző kontigra esnek Scaffold: láncszerűen lineáris sorrendbe elhelyezett nem összeérő kontigok sora.
Kontigok szuperkontigokká való összerakása
KOMBINATORIKUS PCR
Genomi DNS részleges emésztése
Mbo
I (
Sau
3AI)-gyel (kompatibilis véget ad a
Bam
HI-véggel) A 30 – 45 kb régió méret szerinti elválasztása
Bam
HI-
Xba
I emésztés cos Amp r ori cos ligálás cos
in vitro
l pakolás GigaPack fehérje extraktummal 30 – 45 kb-os fragmentek cos szelekció ampicillin rezisztens klónokra KOZMID KÖNYVTÁR
kozmid könyvtár
Mesterséges kromoszómák: BAC (bacterial artificial chromosome) vektorok
Mesterséges kromoszómák: YAC (yeast artificial chromosome) vektorok
454 PE library generation
Egy tipikus példa párosított végszekvenálásra, 454, PE
Solexa párosított végszekvenálás I.
Solexa párosított végszekvenálás II.
Solexa párosított végszekvenálás III.
PRIMER SÉTA
Kozmid,BAC,YAC könyvtárakban TEMPLÁT GENERÁLÓ RENDSZER Az integrációhelyét ellenőrizni kell Nagy kapacitású automata Southern hibiridizáció
Összerakó algoritmusok (Assemblers)
Buzgó (greedy) algoritmus Átfedési-szerkezet-konszenzus
De ha sikerül, és van szekvenciánk
Mi van rajta,van-e gén? Honnan tudjuk, hogy Valamit találtunk, találtunk-e gént?
CTCGAGACGCTGTTTCTGGGGTCATTCATTCTTGGCGGGCTGCAACTGCTGGTGTGACCGACGCGACCTGGCAGGCCGCGGTGCGCAACTGGCCGGGCGGACTAATGGTGGAGCAAAAGA TCGGCATGTCCAGCGCACCTGAAGCTTGGGTGGTTGCTGCAATAGCAGCCTTCCTTATTGGCATGGCGAAGGGCGGTTTGGCCAATGTGGGGGTTATCGCCGTTCCCTTGATGTCCCTGG TCAAGCCGCCGCTTACCGCTGCCGGATTGCTGCTCCCGATCTATGTCGTTTCTGATGCATTCGGCGTCTGGCTTTATCGGCACCGGTATTCTGCCTCCAATCTGCGCATCCTGATTCCTT CGGGATTTTTTGGGGTCCTGATTGGCTGGTTATTGGCCGGGCAGATCTCCGACGCGATTGCCAGTGTCATTGTTGGTTTCACCGGCTGCGGCTTCGTGGCTGTGCTGCTGGCACGACGAG GGGTGCCATCGGTGCCGCGTCAAGCCAACGTGCCCAAAGGATGGTTTCTGGGGGTGGCCACCGGCTTTACCAGCTTTTTGACTCATTCCGGTGCGGCGACCTTCCAGATGTTCGTGCTGC CGCAACGGCTGGACAAGACCATGTTCGCGGGCACATCAACGCTTACCTTTGCTGCCATAAACCTATTCAAGATTCCGTCCTACTGGGCATTGGGACAGCTTTCGACTTCCTCGGTCATGT CCGCGCTAGTGTTGATTCCGGTGGCCGTGGCCGGGACGTTCGCAGGTGTTTTTGCGACGCGCAGGCTATCGACATCCTGGTTCTTCATTCTGGTCCAGGCGATGTTGCTGGTGGTCTCCA TTCAGCTTCTGTGGAGGGGAATGTCGGATATCCTGAACTAGCTGGAGATCGCAATGTCAGAACGCTCAATCAATCAGAATGTAATCTTGACATAGAATACCGTTCCGATTTATTGCTTCG AGTGAAGCTGCCCGTCCGCTGAGATGTCATGACATTTTCCCCGCTTGATTCCGCCCTGCTTGGACCGTTGTTCGCGACCGATGAAATGCGCACGGTCTTCTCCGAACGGCGTTTTTTGGC GGGAATGCTTCGTGTTGAAGTGGCCCTGGCGCGCGCGCAGGCGGCAGAGGGCCTTGTCAGTTCGGAATTGGCCGACGCGATCGAGGTTGTTGGTACTGCCGGGTTGGACCCCGAGGCGAT GGCGGCGACTACTCGCATGACAGGAGTGCCCGCAATATCGTTCGTCCGTGCGGTGCAATCGGCCCTGCCGCCCTCACTGGCGGGTGGATTTCATTTCGGCGCCACCAGTCAAGACATCGT GGATACGGCCCACGCGCTCCAGCTGGCCGAGGCACTCGATATTATAGAAGTCGATTTACACGCCACTGTCAGCGCAATGATGAATCTGGCCGCTGCTCACTGCAATACACCCTGTATCGG GCGCACGGCCTTGCAGCACGCAGCGCCAGTTACGTTCGGCTACAAGGCGTCCGGCTGGTGCGTTGCCCTGGCGGAGCATCTGGTGCAGCTTCCCGCGCTGCGAAAGCGGGTTCTGGTGGC GTCGCTAGGGGGGCCGGTTGGTACCCTTGCCGCGATGGAGGAGCGGGCCGACGCTGTACTGGAGGGTTTCGCTGCGGACCTGGGGTTGGCCATTCCCGCCCTGGCCTGGCACACGCAGCG GGCCCGGATCGTCGAGGTGGCCAGTTGGCTGGCCATATTGCTGGGAATTCTGGCAAAAATGGCCACCGATGTCGTTCACTTGTCCTCCACGGAAGTGCGCGAGCTTTCCGAACCTGTAGC GCCGGGCAGGGGGGGCTCCTCGGCGATGCCTCACAAGCGGAACCCGATTTCCTCGATTACCATCCTGTCCCAGCATGCTGCGGCAGGGGCCCAGCTCTCCATTCTCGTGAACGGCATGGC CAGTCTGCACGAACGTCCGGTGGGGGCGTGGCATTCGGAATGGTTGGCTCTGCCGACGCTGTTCGGCCTTGCCGGCGGTGCCGTGCGCGAGGGCAGGTTTCTGGCCGAGGGGCTGCTGGT CGATGCCGACCAGATGGGTCGCAATCTACAATTGACCAATGGCCTGATTTTCAGCGACGCGGTAGCCGGCCAGTTGGCAAAGCACTTGGGTCGGGCCGAGGCTTATGCCGCTGTCGAGGA TGCCGCCGCCGAGGTGTTGCGTTCAGGCGGCAGCTTTCAGGGTCAGCTGAACCAGCGCCTGCCCGATCACCGCGACGCTATCGCTATTGCTTTTGATACGACGCCGGCGATCCAGGCCGG GGCCGCCCGCTGCCGTAGTGCGCTGGATCATGTGGCTCGTATTCTTGGACCCGCCTCTACCATCGGATTTCAAGGAGGCTAATGACGTGACGACACTGTTTGAGGCGACGACCATCCCGA TTTGCGAGGGCCCGCGCGACCAGACCGCCGAGATCCTTTTCGAGATGCCGCCGGGTGCGTGGGATACCCATTTTCATGTTTTTGGCCCAGTTTCATCGTTTCCATACGCAGAACACAGGC TCTATTCCCCACCGGAGTCGCCACTTGAGGATTATCTGGTGTTGATGGAGGCTTTGGGGATCGAGCGCGGCGTTTGTGTCCATCCGAATGTTCATGGTGCCGACAATTCGGTGACGCTCG ACGCAGTTGCGCGGTCCGATGGTCGTCTGCTGGCGGTGATCAAGCCACATCACGAGATGACTTTTGTTCAGCTGCGGGACATGAAGGCGCAGGGGGTCTGCGGGGTACGTTTTGCCTTCA ATCCGCAGCATGGCTCGGGCGAGTTGGATACTCGTTTGTTCGAGCGTATGTTGGACTGGTGCCGCGACCTAGGCTGGTGCGTAAAATTGCATTTCGCGCCCGCTGCGCTGGACGGTCTGG CTGAACGTTTGGCGCGCGTCGATATTCCGATCATCATCGATCATTTCGGGCGGGTGGACACCGCGCAAGGTGTGGATCAGCCGCACTTCCTGCGTTTGCTCGATCTGGCCAAACTGGACC
Hasonlóság
CTCGAGACGCTGTTTCTGGGGTCATTCATTCTTGGCGGG CTGCAACTGCTGGTGTGACCGACGCGACCTGGCAGGCCGC GGTGCGCAACTGGCCGGGCGGACTAATGGTGGAGCAAAA GATCGGCATGTCCAGCGCACCTGAAGCTTGGGTGGTTGC TGCAATAGCAGCCTTCCTTATTGGCATGGCGAAGGGCGG TTTGGCCAATGTGGGGGTTATCGCCGTTCCCTTGATGTC CCTGGTCAAGCCGCCGCTTACCGCTGCCGGATTGCTGCTC CCGATCTATGTCGTTTCTGATGCATTCGGCGTCTGGCTT TATCGGCACCGGTATTCTGCCTCCAATCTGCGCATCCTG ATTCCTTCGGGATTTTTTGGGGTCCTGATTGGCTGGTTA TTGGCCGGGCAGATCTCCGACGCGATTGCCAGTGTCATT GTTGGTTTCACCGGCTGCGGCTTCGTGGCTGTGCTGCTG GCACGACGAGGGGTGCCATCGGTGCCGCGTCAAGCCAAC GTGCCCAAAGGATGGTTTCTGGGGGTGGCCACCGGCTTT ACCAGCTTTTTGACTCATTCCGGTGCGGCGACCTTCCAG ATGTTCGTGCTGCCGCAACGGCTGGACAAGACCATGTTC GCGGGCACATCAACGCTTACCTTTGCTGCCATAAACCTA TTCAAGATTCCGTCCTACTGGGCATTGGGACAGCTTTCG ACTTCCTCGGTCATGTCCGCGCTAGTGTTGATTCCGGTG GCCGTGGCCGGGACGTTCGCAGGTGTTTTTGCGACGCGC AGGCTATCGACATCCTGGTTCTTCATTCTGGTCCAGGCG ATGTTGCTGGTGGTCTCCATTCAGCTTCTGTGGAGGGGA ATGTCGGATATCCTGAACTAGCTGGAGATCGCAATGTC AGAACGCTCAATCAATCAGAATGTAATCTTGACATAGA ATACCGTTCCGATTTATTGCTTCGAGTGAAGCTGCCCGT CCGCTGAGATGTCATGACATTTTCCCCGCTTGATTCCGCC CTGCTTGGACCGTTGTTCGCGACCGATGAAATGCGCACG GTCTTCTCCGAACGGCGTTTTTTGGC CTCGAGACGCTGTTTCTGGGGTCATTCATTCTTGGCGGG CTGCAACTGCTGGTGTGACCGACGCGACCTGGCAGGCCGC GGTGCGCAACTGGCCGGGCGGACTAATGGTGGAGCAAAA GATCGGCATGTCCAGCGCACCTGAAGCTTGGGTGGTTGC TGCAATAGCAGCCTTCCTTATTGGCATGGCGAAGGGCGG TTTGGCCAATGTGGGGGTTATCGCCGTTCCCTTGATGTC CCTGGTCAAGCCGCCGCTTACCGCTGCCGGATTGCTGCTC CCGATCTATGTCGTTTCTGATGCATTCGGCGTCTGGCTT TATCGGCACCGGTATTCTGCCTCCAATCTGCGCATCCTG ATTCCTTCGGGATTTTTTGGGGTCCTGATTGGCTGGTTA TTGGCCGGGCAGATCTCCGACGCGATTGCCAGTGTCATT GTTGGTTTCACCGGCTGCGGCTTCGTGGCTGTGCTGCTG GCACGACGAGGGGTGCCATCGGTGCCGCGTCAAGCCAAC GTGCCCAAAGGATGGTTTCTGGGGGTGGCCACCGGCTTT ACCAGCTTTTTGACTCATTCCGGTGCGGCGACCTTCCAG ATGTTCGTGCTGCCGCAACGGCTGGACAAGACCATGTTC GCGGGCACATCAACGCTTACCTTTGCTGCCATAAACCTA TTCAAGATTCCGTCCTACTGGGCATTGGGACAGCTTTCG ACTTCCTCGGTCATGTCCGCGCTAGTGTTGATTCCGGTG GCCGTGGCCGGGACGTTCGCAGGTGTTTTTGCGACGCGC AGGCTATCGACATCCTGGTTCTTCATTCTGGTCCAGGCG ATGTTGCTGGTGGTCTCCATTCAGCTTCTGTGGAGGGGA ATGTCGGATATCCTGAACTAGCTGGAGATCGCAATGTC AGAACGCTCAATCAATCAGAATGTAATCTTGACATAGA ATACCGTTCCGATTTATTGCTTCGAGTGAAGCTGCCCGT CCGCTGAGATGTCATGACATTTTCCCCGCTTGATTCCGCC CTGCTTGGACCGTTGTTCGCGACCGATGAAATGCGCACG GTCTTCTCCGAACGGCGTTTTTTGGC a két szekvencia teljesen ugyanaz
Hasonlóság
Most is - majdnem CTCGAGACGCTGTTTCTGGGGTCATTCATTCTTGGCGGG CTGCAACTGCTGGTGTGACCGACGCGACCTGGCAGGCCGC GGTGCGCAACTGGCCGGGCGGACTAATGGTGGAGCAAAA GATCGGCATGTCCAGCGCACCTGAAGCTTGGGTGGTTGC TGCAATAGCAGCCTTCCTTATTGGCATGGCGAAGGGCGG TTTGGCCAATGTGGGGGTTATCGCCGTTCCCTTGATGTC CCTGGTCAAGCCGCCGCTTACCGCTGCCGGATTGCTGCTC CCGATCTATGTCGTTTCTGATGCATTCGGCGTCTGGCTT TATCGGCACCGGTATTCTGCCTCCAATCTGCGCATCCTG ATTCCTTCGGGATTTTTTGGGGTCCTGATTGGCTGGTTA TTGGCCGGGCAGATCTCCGACGCGATTGCCAGTGTCATT GTTGGTTTCACCGGCTGCGGCTTCGTGGCTGTGCTGCTG GCACGACGAGGGGTGCCATCGGTGCCGCGTCAAGCCAAC GTGCCCAAAGGATGGTTTCTGGGGGTGGCCACCGGCTTT ACCAGCTTTTTGACTCATTCCGGTGCGGCGACCTTCCAG ATGTTCGTGCTGCCGCAACGGCTGGACAAGACCATGTTC GCGGGCACATCAACGCTTACCTTTGCTGCCATAAACCTA TTCAAGATTCCGTCCTACTGGGCATTGGGACAGCTTTCG ACTTCCTCGGTCATGTCCGCGCTAGTGTTGATTCCGGTG GCCGTGGCCGGGACGTTCGCAGGTGTTTTTGCGACGCGC AGGCTATCGACATCCTGGTTCTTCATTCTGGTCCAGGCG ATGTTGCTGGTGGTCTCCATTCAGCTTCTGTGGAGGGGA ATGTCGGATATCCTGAACTAGCTGGAGATCGCAATGTC AGAACGCTCAATCAATCAGAATGTAATCTTGACATAGA ATACCGTTCCGATTTATTGCTTCGAGTGAAGCTGCCCGT CCGCTGAGATGTCATGACATTTTCCCCGCTTGATTCCGCC CTGCTTGGACCGTTGTTCGCGACCGATGAAATGCGCACG GTCTTCTCCGAACGGCGTTTTTTGGC AAACTCGAGACGCTGTTTCTGGGGTCATTCATTCTTGGC GGGCTGCAACTGCTGGTGTGACCGACGCGACCTGGCAGG CCGCGGTGCGCAACTGGCCGGGCGGACTAATGGTGGAGC AAAAGATCGGCATGTCCAGCGCACCTGAAGCTTGGGTGG TTGCTGCAATAGCAGCCTTCCTTATTGGCATGGCGAAGG GCGGTTTGGCCAATGTGGGGGTTATCGCCGTTCCCTTGA TGTCCCTGGTCAAGCCGCCGCTTACCGCTGCCGGATTGCT GCTCCCGATCTATGTCGTTTCTGATGCATTCGGCGTCTG GCTTTATCGGCACCGGTATTCTGCCTCCAATCTGCGCATC CTGATTCCTTCGGGATTTTTTGGGGTCCTGATTGGCTGG TTATTGGCCGGGCAGATCTCCGACGCGATTGCCAGTGTC ATTGTTGGTTTCACCGGCTGCGGCTTCGTGGCTGTGCTG CTGGCACGACGAGGGGTGCCATCGGTGCCGCGTCAAGCC AACGTGCCCAAAGGATGGTTTCTGGGGGTGGCCACCGGC TTTACCAGCTTTTTGACTCATTCCGGTGCGGCGACCTTC CAGATGTTCGTGCTGCCGCAACGGCTGGACAAGACCATG TTCGCGGGCACATCAACGCTTACCTTTGCTGCCATAAAC CTATTCAAGATTCCGTCCTACTGGGCATTGGGACAGCTT TCGACTTCCTCGGTCATGTCCGCGCTAGTGTTGATTCCG GTGGCCGTGGCCGGGACGTTCGCAGGTGTTTTTGCGACG CGCAGGCTATCGACATCCTGGTTCTTCATTCTGGTCCAG GCGATGTTGCTGGTGGTCTCCATTCAGCTTCTGTGGAGG GGAATGTCGGATATCCTGAACTAGCTGGAGATCGCAAT GTCAGAACGCTCAATCAATCAGAATGTAATCTTGACAT AGAATACCGTTCCGATTTATTGCTTCGAGTGAAGCTGCC CGTCCGCTGAGATGTCATGACATTTTCCCCGCTTGATTC CGCCCTGCTTGGACCGTTGTTCGCGACCGATGAAATGCG CACGGTCTTCTCCGAACGGCGTTTTTTGGC GLOBÁLIS, LOKÁLIS BLASTN, FASTA
ANALÓGIÁK - ADATBANKOK
Összahasonlítás már ismert elemekkel
… és kódol-e fehérjét?
Open reading frames: nyitott leolvasási keretek Áltában ATG-vel kezdődik, de opció Hossz: ajánlás 100 aminosav, de opció Az eredmény hipotetikus, össze kell vetni a valósággal Hipotetikus fehérje lista hasonlóság BLASTP Információból információ generálása Problémák: frameshift mutáció, a globál hasonlóság csődje Hol kezdődik? Mi a start?
Egy régió nyitott leolvasási keret térképe
Hol kezdődik?
Ki tudja?
2290 2300 2310 2320 2330 2340 GCCGCCCGCTGCCGTAGTGCGCTGGATCATGTGGCTCGTATTCTTGGACCCGCCTCTACC A A R C R S A L D H V A R I L G P A S T M W L V F L D P P L P 2350 2360 2370 2380 2390 2400 ATCGGATTTCAAGGAGGCTAATGACGTGACGACACTGTTTGAGGCGACGACCATCCCGAT I G F Q G G * S D F K E A N D V T T L F E A T T I P I Egyéb elemek azonosítása, genomi elrendeződés Kísérletes ellenőrzés
...a reálisabb kép, hasonlóság keresés után
FRAME SHIFT MUTÁCIÓ - MEGOLDÁS
Minden leolvasásái keretben transzláció Stop kodon nem számít Mindent mindennel összehasonlít fehérje szinten BLASTX
In silico transzláció mind a 6 leolvasási keretben
Genomi kontextus
gén
orf1 pcaB
orf2 macA orf3 pcaH pcaG
istB
319 359 395 245 195 19
hossz (aa)
259 ~ 450
funkcó
hipotetikus konzervált membrán protein, permeáz?
3-karboxi-cisz-cisz mukonát cikloizomeráz feltételezett hidroláz maleil acetát reduktáz feltételezett oxidáz, dehidrogenáz NAD kötő domain protokatekol-3,4 dioxigenáz béta alegység protokatekol-3,4 dioxigenáz alfa alegység
IS21 transzpozáz, C-terminális
homológia (%)
45 40-45 40 45-55 40-45 80, 67, < 60 64, 61, 100
pSC1/48 (7404bp)
NH 3 + + OH OH SO 3 szulfanilsav O 2 SO 3 4-szulfokatekol P340 II dioxigenáz COO COO SO 3 szulfomukonát szulfomukonát cikloizomeráz COO O O SO 3 szulfolakton szulfolakton hidroláz HSO COO COO 3 3 O maleilacetát maleilacetét reduktáz TCA ciklus
orf1 pcaB orf2 macA orf3 pcaH pcaG istB
MS azonosítás
Kodon felhasználás, codon usage
Az élőlényekre jellemző a kodon felhasználási gyakoriság Kodon felhasználási táblázatok, adatbankok
Kodon felhasználás, codon usage
Kodon felhasználás, eltérések
Szekvenciák adatbankokba küldése NCBI, Genbank Rövid kontigok: BankIT Hosszú szekvenciák: Sequin