Poznanie genomu człowieka (wg. artykułów z Science i Nature) Jerzy Tiuryn

Download Report

Transcript Poznanie genomu człowieka (wg. artykułów z Science i Nature) Jerzy Tiuryn

Poznanie genomu
człowieka
(wg. artykułów z Science i Nature)
Jerzy Tiuryn
Instytut Informatyki
Uniwersytet Warszawski
2
Dwa artykuły
• „Initial sequencing and analysis of the
human genome”, International Human
Genome Sequencing Consortium,
Nature, 15.02, 2001 (860-921).
• „The sequence of the human genome”,
J.C. Venter, et.al., Science, 16.02. 2001
(1304-1351).
3
Plan wykładu
•
•
•
•
•
Historia poznania genomu człowieka.
Metoda konsorcjum (hierarchiczne
sekwencjonowanie metodą ‘shotgun’).
Metoda Ventera ‘whole-genome shotgun
approach’.
Co wiadomo o liczbie genów w genomie
człowieka?
Porównanie obu metod.
4
Historia poznania genomu
człowieka
• 1953, James Watson, Francis Crick, :
struktura DNA.
5
• 1977, F. Sanger (metoda dideoxy), 500-750bp.
• 1977, F. Sanger: zsekewncjonowanie pierwszego
ludzkiego genu.
• 1977-82, genomy bakteryjnych wirusów (φX174,
Lambda), genom wirusa zwierzęcego SV40,
ludzkie mitochondrium.
• 1985, K. Mullis: technika PCR.
• 1987, D. Burke, M. Olson, G. Carle: YAC.
• 1989, Olson, Hood, Botstein, Cantor: strategia
mapowania przy użyciu STS.
6
• 1995, J.C. Venter (Heamophilus influenzae)
1.8 Mb, metoda ‘whole-genome shotgun
sequencing’.
• 1996, Międzynarodowe konsorcjum
(Saccharomyces cerevisiae) 13.5 Mb.
• 1997, Blattner, Plunkett (Escherichia coli) 5 Mb.
• 1998, Venter: założenie firmy Celera Genomics
(deklaracja: sekwencja genomu człowieka w 3
lata, za 300 M$).
7
• 1998, Sulston, Waterson (Caenorhabditis elegans)
100 Mb.
• 1999, GB, Japonia, USA: chromosom nr.22,
35 Mb.
• 2000, Venter (Drosophila melanogaster) 120 Mb,
testowanie metody WGSS dla niezbyt dużego
genomu.
• 2000, Niemcy, Japonia: chromosom nr. 21,
34 Mb.
• 2000, Międzynarodowe Konsorcjum (Arabidopsis
thaliana), 100 Mb.
• 2001, HGP i Celera publikują draft genomu
człowieka, 3.3Gb.
8
Główne trudności w
sekwencjonowaniu genomu
człowieka
• Rozmiar genomu (~3Gb).
• Duża część genomu zawiera repetytywne
fragmenty. Przykładowo część genomu
zawierająca repetytywne fragmenty dla
różnych organizmów:
– Bakterie: ~1.5%
– Muszka owocowa: ~3%
– Człowiek: >50%
9
Metoda Konsorcjum
map-based, BAC-based, clone-by-clone
• Pozyskiwanie materiału genetycznego.
• Budowa mapy fizycznej genomu w oparciu o
klony.
• Trawienie poszczególnych klonów enzymami
restrykcyjnymi – ‘odcisk palca’.
• Budowa kontigów i przypisanie ich do miejsc na
chromosomach (STS).
• Wybór klonów z kontigów do sekwencjonowania.
• Sekwencjonowanie metodą ‘shotgun’ wybranych
klonów.
• Składanie genomu.
10
11
Pozyskiwanie materiału
genetycznego
• Ochotnicy (różne środowiska etniczne), ‘kto
pierwszy ten lepszy’.
• Samplig laboratory: usunięcie identyfikatorów,
nadanie losowych oznaczeń, przesłanie do
processing lab.
• Processing laboratory: usuwa wszystkie
oznaczenia i zmienia je na inne, niszczy
dokumentację oznaczeń, wybiera losowo 5-10
próbek do dalszej analizy.
12
Linia produkcyjna do przygotowywania próbek
Whitehead Institute, Center for Genome Research
13
Klony
• Plazmidy (~ 4Kb).
• Kosmidy (~ 40Kb).
• Yeast Artificial Chromosome, YAC
(do 500Kb).
• Bacterial Artificial Chromosome, BAC
(100-300Kb).
14
Mapa fizyczna
• Biblioteki klonów zbudowane z materiału
genetycznego. (1.400.000 klonów BAC lub PAC,
65-krotne pokrycie genomu). Każdy klon
rozmiaru 100-200Kb.
• Wybrano ~ 350.000 klonów do budowy mapy
fizycznej. (20 krotne pokrycie genomu).
• Każdy klon poddano trawieniu enzymem
restrykcyjnym i zmierzono rozmiary fragmentów
przy pomocy elektroforezy na żelu z agarozy. Tak
powstaje linia papilarna (fingerprint) klonu.
• Linie papilarne są użyte do identyfikacji klonów i
do szacowania wielkości nałożenia jednego klonu
na drugi.
15
Mapa fizyczna, c.d.
• Linie papilarne klonów zostały użyte do budowy
tzw. kontigów (nakładające się na siebie spójne
fragmenty utworzone z klonów).
• Kontigi zostały przyporządkowane miejscom na
chromosomach przy pomocy znaczników STS
(STS = Sequence Tagged Site ~ 500bp,
jednoznaczna sekwencja na chromosomie, dla
której są znane primery PCR).
16
Przykład dwóch kontigów
17
Faza sekwencjonowania
• Wybór klonów z kontigów, tak aby uzyskać
pokrycie genomu (aby przyspieszyć proces,
zrezygnowano z poszukiwania minimalnego
pokrycia). Wybrano ~ 30.000 klonów.
18
Faza sekwencjonowania: każdy
klon metodą ‘shotgun’
• Klon powiela się w wielu kopiach.
• Wszystkie kopie tnie się na małe kawałki
(enzymy restrykcyjne) ‘losowo’. Porządek i
orientacja kawałków są tracone.
• Wybiera się losowo dostatecznie dużo
kawałków (5-10 krotne pokrycie, zgodnie z
formułą Landera/Watermana) i dla każdego
kawałka sekwencjonuje się prefiks o
długości ~ 500bp. Powstają tzw. czyste
19
odczyty.
Uwagi na temat metody
‘shotgun’
• W praktyce wybór fragmentów nie jest
jednorodny (powody molekularnobiologiczne, a nie probabilistyczne). To
powoduje powstawanie dziur w
odczytywanej sekwencji.
• Są dwa stopnie jakości metody ‘shotgun’:
– ‘half-shotgun’ 4-5 krotne pokrycie, w wyniku
mamy draft genomu.
– ‘full-shotgun’ 8-10 krotne pokrycie, w wyniku
mamy podstawę do dokładnego opisu genomu.20
• Uzyskano 23Gb danych w czystych
odczytach.
• Niektóre centra osiągnęły wydajność
100.000 reakcji sekwencjonowania na 12
godzin.
• Wydajność wszystkich centrów osiągnięta
w czerwcu 2000: 1 pokrycie genomu na 6
tygodni (1Kb/sek. przez 24h/dobę, cały
czas).
• Każdy nukleotyd był odczytany średnio 4.5
raza.
21
• 7.10.00 w postaci finalnej było 835Mb
sekwencji genomu (wliczając chromosomy
21 i 22). Na koniec roku 2000 było ~ 1Gb
sekwencji w finalnej postaci
(finalna postać = prawdopodobieństwo
błędu odczytu nukleotydu < 1/10.000,
żadnych dziur)
22
Składanie sekwencji (1)
• Analiza nałożeń (overlap detection): dane
dwa słowa W,V, znajdź sufiks w W oraz
prefiks w V o maksymalnym podobieństwie
(w sensie uliniowienia; mogą być
wstawiane spacje). Jest to problem natury
algorytmicznej. Dane o nałożeniach
przechowujemy.
23
Składanie sekwencji (2)
• Ułożenie podsłów (substring layout).
Zachłanny algorytm: znajdź parę słów o
maksymalnym
podobieństwie
sufiks/prefiks. Później następną parę. Albo
powstają dwa kontigi, albo jeden o trzech
słowach. Podobne do wielokrotnego
uliniowienia. Dodawanie nowych par
powoduje wstawianie spacji (rozsuwanie).
W ten sposób powstają kontigi nakrywające
większość odtwarzanej sekwencji.
24
Składanie sekwencji (3)
• Decydowanie konsensusu: uzgodnienie jaka
litera ma stać na danej pozycji w kontigu.
Stosowane są różne podejścia, często
metoda większościowa (tu są subtelne
problemy).
• W projekcie średnie pokrycie klonu
kontigami wynosiło 96%, a średnie przerwy
pomiędzy kontigami miały ~ 500bp.
25
Dwa rodzaje kontigów
• Kontigi pochodzące z jednego klonu.
• Mega-kontigi pochodzące z analizy linii
papilarnych poszczególnych klonów.
26
Logistyka składania genomu
• Składanie pojedynczych klonów.
• Związanie zsekwencjonowanych klonów z
pozycjami na fizycznej mapie genomu.
• Poprawianie niezgodności.
27
28
Kroki w procesie składania genomu z kontigów
pochodzących z klonów A i B.
29
Jakość draftu genomu
zsekwencjonowanego przez
konsorcjum
• Użyto oprogramowanie PHRAP (program
przypisuje
każdemu
nukleotydowi
prawdopodobieństwo błędu).
• 91% sekwencji ma błąd < 1/10.000.
• 96% sekwencji ma błąd < 1/1.000
• Są przerwy w sekwencji.
30
Przerwy w sekwencji (3 rodzaje)
• Pomiędzy kontigami w poszczególnych
klonach: łącznie 2-4% genomu jest zawarte
w takich przerwach (~80Mb). Tych przerw
jest ~145.000.
• Pomiędzy klonami w mega-kontigach: 5%
genomu (~150Mb). Jest ich ~4.000.
• Pomiędzy mega-kontigami (szacowanie na
podstawie chr. 21 i 22) ~4% genomu.
31
Co wiadomo na temat liczby
genów?
• W małych genomach geny są ściśle
związane z ORFami (ORF = Open Reading
Frame).
• U człowieka średnia długość eksonu
~145bp, natomiast introny są długie
(średnio ~3300bp, ale zdarzają się introny
długości > 10Kb). Przykładowo: introny
(średnio)
– u robaka (267bp),
– u muchy (487bp).
32
Geny RNA (nie-kodujące)
•
•
•
•
•
Takie jak tRNA, rRNA, itd.
Nie mają ORFów.
Są małe i nie zawierają ogonów poly(A).
Trudne do odróżnienia od pseudogenów.
Łącznie znaleziono w drafcie ~700 genów
RNA.
33
Przykład
• Klasyczne (podręcznikowe) oszacowanie
liczby genów tRNA u człowieka to 1310,
ale ... okazało się, że jest ich w drafcie
genomu tylko 497.
34
Dla innych organizmów liczba genów tRNA wynosi:
35
Geny kodujące białka
• Znanych jest obecnie nieco ponad 10.000
sekwencji mRNA w bazie RefSeq (część
bazy GenBank). Zrobiono uliniowienie z
draftem genomu. Nieco ponad 9.000 dało
się (przynajmniej częściowo) uliniowić.
16%
sekwencji
mRNA
wykazało
podobieństwo do więcej niż jednego
wystąpienia w drafcie genomu (paralogi,
pseudogeny).
36
Geny kodujące białka (rozmiary)
• Duży rozrzut w rozmiarach genów (eksony
i introny) człowieka. Wiele jest dłuższych
niż 100Kb (rekordzista: gen dystrofiny
(DMD) ma 2.4Mb.
• Długość kodującej sekwencji też podlega
dużym wahaniom. Np. gen titiny
(najdłuższa
obecnie
znana
długość
kodującej sekwencji) ma 80.780bp, liczba
eksonów 178, najdłuższy ekson 17.106bp.
37
Trudności w znajdowaniu genów
w genomie człowieka
• Mały iloraz sygnał/szum w genach
człowieka w związku z krótkimi eksonami i
bardzo
długimi
intronami.
Ponadto
kodujące sekwencje stanowią bardzo małą
część genomu. Tak nie jest w drożdżach,
robaku i muszce.
• Znając nawet dokładnie genom (tak jak to
jest dla chr. 21 i 22) nadal będzie bardzo
trudno odkrywać geny ‘ab initio’ .
38
Przewidywanie liczby genów (1)
• W latach 80-tych Gilbert zasugerował, że
może być ~100.000 genów w genomie
człowieka.
Jest to tzw. rachunek ‘back-of-the-envelope’
Typowy gen ma rozmiar ~30.000bp,
rozmiar genomu jest ~3Gb, więc
otrzymujemy ~100.000 genów.
• Analiza na podstawie szacunku liczby wysp
CpG oraz częstości związków z genami
dała ~70.000-80.000 genów.
39
Przewidywanie liczby genów (2)
• Szacunki oparte o EST (EST = Expressed
Sequence Tags) dawały rozrzut liczby
genów w granicach 35.000-120.000.
40
Obecnie stosowane metody
znajdowania genów
• Wystąpienie znanego EST lub mRNA.
• Sekwencyjne podobieństwo do znanych
genów lub białek.
• Ab initio metoda oparta na ukrytych
modelach Markowa (HMM) – używają one
statystycznej informacji na temat miejsc
splicingu, kodowego odchylenia (coding
bias), długości eksonów i intronów
(Genscan, Genie, FGENES).
41
Skuteczność metod ab initio
• Szacuje się, że dla muchy pojedyncze
eksony mogą być odgadywane poprawnie z
prawdopodobieństwem 90%, ale wszystkie
eksony
danego
genu
tylko
z
prawdopodobieństwem 40%.
• Dla człowieka podobne liczby wynoszą:
70% i 20%.
• Niektórzy uważają też, że w/w liczby są
zbyt optymistyczne...
42
Initial Gene Index (IGI)
• System
Ensembl
(używa
Genscan,
weryfikuje w oparciu o podobieństwo do
białek, mRNA, EST i białkowych motywów
(zawarte w bazie Pfam) dla wszystkich
organizmów). System ten wygenerował
35.000 predykcji genów oraz 44.860
transkryptów.
• Po wykonaniu pewnej redukcji fragmentacji
otrzymano 31.778 predykcji genów. To
stanowi podstawę do pierwszej wersji IGI.
43
Initial Gene Index (IGI)
• W IGI jest 15.000 znanych genów i 17.000
predykcji nowych genów.
• Przyjmuje się, że bardziej realna liczba
genów w IGI to 24.500 genów (20%
błędnych predykcji lub pseudogenów,
1.4 współczynnik fragmentacji).
• Przyjmując, że predykcje genów zawierają
60% wcześniej nieznanych genów, można
oszacować łączną liczbę genów człowieka
na ~31.000.
44
Końcowe uwagi na temat liczby
genów człowieka
• Obecne szacunki liczby genów oparte na
próbkowaniu dają przedział 30.000-35.000.
• Jeśli w genomie człowieka jest 30.00035.000 genów i średnia długość kodującej
sekwencji wynosi 1.400bp oraz średnia
długość całego genu wynosi 30Kb, to 1.5%
całego genomu zajmują sekwencje
kodujące, a 30% zajmują geny.
45
Końcowe uwagi na temat liczby
genów człowieka
• Wydaje się, że człowiek ma dwa razy
więcej genów niż robak lub mucha. Geny
człowieka są bardziej rozciągnięte po
genomie i są one używane do budowy
większej
liczby
alternatywnych
transkryptów. Łącznie, być może, człowiek
wytwarza 5 razy więcej białkowych
produktów niż robak czy mucha.
46
Jaka jest naprawdę liczba genów
u człowieka ...?
Michael Zhang ze współpracownikami (Cold Spring Harbour
Laboratory): opracowali program First Exon Finder
(grudzień 2001, Nature Genetics). Program ten wyszukuje
odcinki zawierające nie-kodujące pierwsze eksony oraz sekwencje
promotorowe genów. Program poprawnie zlokalizował 90%
genów w zsekwencjonowanych chromosomach 21 i 22.
First Exon Finder wytypował 68,000 genów w genomie
człowieka. Autorzy szacują, że całkowita liczba genów w
genomie człowieka waha się w granicach 50,000-60,000.
Co będzie dalej ... ?
47
Metoda firmy Celera
Genomics
sekwencjonowania
genomu
Plan
• Kontigi i rusztowania.
• Dwie strategie asemblacji genomu (WGA,
CSA).
• Poszukiwanie genów.
• Analiza genomu.
• Porównanie sekwencji Konsorcjum i
Celery.
49
Celera
• 3,000 m.kw.
• 175,000 reakcji sekwencjonowania na
dzień.
• Wirtualna Farma Obliczeniowa (Compaq
Alpha):
– 440 CPU (EV6 (400MHz), EV67(667MHz)).
– Każdy 2-8GB RAM.
– 100TB HD.
50
Dane do obróbki
• Biblioteka plazmidów (rozmiarów 2Kb,
10Kb, 50Kb).
• Konstrukcja stowarzyszonych par (mate
pairs) – sekwencje 500-600bp, z każdego
końca sekwencji z biblioteki plazmidów
(27.27 milionów odczytów).
• Kontigi zbudowane z BAC’ów dostępnych
z publicznych danych Konsorcjum (4.4Gb).
51
Kontigi, rusztowania i stowarzyszone pary
52
53
Dwie strategie asemblacji
genomu
• Whole-genome assembly (WGA).
• Compartmentalized shotgun assembly
(CSA).
54
Asemblacja WGA
• Analiza nakryć (overlaps) – 10,000h czasu
CPU, 40 komputerów (4-procesorowy
Alpha), 4GB RAM każdy. Równoległość.
• Wybór jednoznacznych kontigów (unitigi) –
73.6% genomu.
• Wykorzystanie par stowarzyszonych do
budowy rusztowań (scaffolds).
• Uzupełnianie dziur w rusztowaniach (fazy
‘rocks’ oraz ‘stones’).
55
Asemblacja CSA
• (Matcher): Rozdzielenie danych Celery na
te, które pasują do BAC’ów z danych
publicznych i na resztę (21 milionów
odczytów pasowało, a 3 miliony były
nowe).
56
Asemblacja CSA, c.d.
• (Combining Assembler): Dla tych z
pierwszej grupy, dla każdego BAC’a wzięto
kontigi z HGP oraz pasujące odczyty
Celery.
– Użyto WGA do zbudowania rusztowań (zwykle
1 lub 2) pokrywających w ~95% ten BAC.
Asemblacja wysokiej jakości.
57
Asemblacja CSA, c.d.
• (WGA): Dla drugiej grupy (nowe dane)
przeprowadzono WGA.
• (Tiler): Analiza porządku i nakryć dla
rusztowań pochodzących z BAC’ów i z
rusztowań zbudowanych dla nowych
danych. Użyto: pary stowarzyszone dla
klonów 50Kb i dla BAC’ów oraz markery
STS. Powstało w ten sposób 3845
składowych (components) obejmujących
~2.92Gb.
58
Asemblacja CSA, c.d.
• (WGA+Shredder): Dla każdej ze
składowych zastosowano WGA, po
poszatkowaniu danych na kawałki. Dzięki
poszatkowaniu możliwa była dodatkowa
korekta błędów oraz eliminacja fragmentów
chimerycznych z danych HGP.
59
60
Ostatni krok: Mapowanie
rusztowań do genomu
• Do dalszej obróbki wybrano dane
otrzymane z CSA.
• Wykorzystano dwie mapy fizyczne
genomu: mapa markerów STS oraz mapa
linii papilarnych BAC’ów.
• W ten sposób większość rusztowań została
przyporządkowna pozycjom w genomie
(~98% genomu). Powstało ~21,600 przerw
61
pomiędzy rusztowaniami.
Analiza genomu (wg. Celery)
• Poszukiwanie genów.
• Wstępny opis chromosomów.
• Korelacja gęstości genów z innymi
wielkościami.
• Rozkład genów wg. molekularnej funkcji.
• Duplikacje genomu w skali makro.
62
Poszukiwanie genów
• System ekspercki Otto - symulacja
czynności wykonywanych przez człowieka
opisującego chromosomy. Otto wykrył 6538
genów homologicznych do znanych genów
oraz 11,226 nowych fragmentów
podejrzanych o bycie genem. Łącznie:
17,764 geny.
63
Poszukiwanie genów, c.d.
• Oprócz Otto użyto trzech programów
odgadujących geny: GRAIL, Genescan,
FgenesH. Zrobiły one łącznie 76,410
różnych predykcji, z czego 57,935 predykcji
nie pokrywało się z predykcjami Otto.
• Dodatkowy filtr: co najmniej jedno
potwierdzenie z następującej listy.
64
Cztery typy potwierdzeń dla
predykcji genów
•
•
•
•
Homologia ze znanym białkiem.
Zawieranie ludzkiego EST.
Zawieranie EST gryzonia.
Występowanie w genomie myszy.
65
Ile jest genów?
• Biorąc wszystkie predykcje Otto oraz
predykcje w/w trzech programów
spełniające dodatkowo warunek:
– Co najmniej 1 potwierdzenie: 39,114 genów
– Co najmniej 2 potwierdzenia: 26,383 geny.
– Co najmniej 3 potwierdzenia: ~23,000 genów.
66
Wstępny opis Celery chromosomów
Chr. 1
Chr. 19
Chr. 21
Chr. 22
Chr. X
Chr. Y
67
Chromosomy 11, 12, 13:
Korelacja gęstości genów
Z innymi wielkościami
68
Rozkład 26,383 genów wg. molekularnej funkcji
69
Duplikacje względem chromosomu 1
70
Duplikacje względem chromosomu 6
71
Duplikacje względem chromosomu 19 – rekordowo dużo
72
Duplikacje względem chromosomu 22 – rekordowo mało
73
Porównanie sekwencji
HGP i Celery
• Praca: J. Aach, et.al. „Computational
comparison of two draft sequences of the
human genome.”, Nature, 409, 15.02.2001,
(856-859).
• HGP-nr (2.9Gb).
• Cel Celera Genomics (Human Genome D,
2.9Gb).
74
75
76
Porównania wykonane przez
Celerę
• Zielony kolor: sekwencje Celery są w tej
samej orientacji i kolejności w obu
sekwencjach.
• Żółty kolor: sekwencje Celery są w tej
samej orientacji, ale nie w tej samej
kolejności w obu sekwencjach.
• Czerwony kolor: sekwencje Celery nie są w
tej samej orientacji w obu sekwencjach.
77
Porównania wykonane przez
Celerę, c.d.
• Górna część wykresu – Konsorcjum (2K,
10K, 50K).
• Dolna – Celera (2K, 10K, 50K).
• Seledynowe kreski – przerwa co najmniej
10.000b.
• Stowarzyszone pary (niezgodności):
– Czerwony – zła orientacja.
– Żółty – zła odległość pomiędzy końcami.
– Niebieskie kreski – złamania (breakpoint)
78
Porównanie dla chromosomu 21
79
Porównanie dla chromosomu 22
80
Porównanie dla chromosomu 19
81
Porównanie dla chromosomu 8
82
Przerwy i złamania w obu
sekwencjach
• Górna cześć – Konsorcjum.
• Dolna część – Celera.
• Czerwona kreska – przerwa co najmniej
10Kb.
• Niebieska kreska – złamanie (breakpoint):
sprzeczność z co najmniej 5
stowarzyszonymi parami.
83
84