Analiza mikromacierzy

Download Report

Transcript Analiza mikromacierzy

Współczesne metody
analiz genetycznych
Anna Jakubowska
Katedra Onkologii
Zakład Genetyki i Patomorfologii PUM
Genom
Chromosom
Gen
Region międzygenowy
Gen
http://commons.wikimedia.org/wiki/File:Human_genome_to_genes.png
Poznanie genomu człowieka
► rozpoczęcie
HGP – 1990
(Human Genome Project)
► wstępny
opis sekwencji – 2000
(Venter et al., Science 2001; Lander et al., Nature 2001)
► zakończenie
► oficjalne
sekwencjonowania – 2003
zakończenie HGP – 2004
(International Human Genome Sequencing Consortium, Nature 2004 )
Struktura genomu człowieka
►3
274 571 503 pz
►~
2% to sekwencje kodujące
► 21
►8
483 genów kodujących RNA
► 12
►~
911 genów kodujących białka
599 pseudogenów
98% to sekwencje niekodujące
► introny
► 23
►~
oraz sekwencje międzygenowe
326 320 SNPs (polimorfizmy pojedynczego nukleotydu)
8 400 regionów CNV
(duplikacje lub delecje odcinków
DNA o długości >500 zasad)
(http://www.ensembl.org/Homo_sapiens/Info/StatsTable)
Geny
► funkcja
wielu genów wciąż niepoznana
► identyfikacja
genów lub specyficznych
stref genetycznych związanych z
rozwojem chorób:
►badania
asocjacyjne
►sekwencjonowanie
genomu
Badania asocjacyjne
► analiza
wybranych markerów –
kandydatów
► analiza
markerów pokrywających cały
genom, tzw. GWAS (Genome – Wide
Association Study) potocznie nazywana
skanowaniem genomu
GWAS
Badanie „przypadek - kontrola” („case - control”),
w którym analizuje się związek pomiędzy
występowaniem określonej cechy klinicznej a
SNPs lub CNVs rozmieszczonymi w całym
genomie
SNP
A
B
A
B
A
C
B
B
C
CNV
http://www.snipscreen.com/genetics.php
Założenia GWAS
► badanie
dużej liczby polimorfizmów o
największej zmienności międzyosobniczej
► badanie
jak największej grupy osób
chorych i zdrowych
Chorzy
Zdrowi
DNA
DNA
Porównanie
Identyfikacja SNP związanych z chorobą
http://cpmc.coriell.org/Sections/Medical/GeneInteraction_mp.aspx?PgId=93
Badania GWAS – kluczowe zasady
►homogenność
grupy badanej pod
względem analizowanej cechy
►liczna
grupa kontrolna oraz badana
►walidacja
Etapy GWAS
Przypadki i kontrole
Badane SNPs
I etap
II etap
III etap
Mapowanie zmian
Analiza funkcjonalna
Garcia-Closas M , Chanock S Clin Cancer Res 2008;14:8000-8009
©2008 by American Association for Cancer Research
http://clincancerres.aacrjournals.org/content/14/24/8000/F3.expansion.html
Polimorfizmy dla GWAS
► wysoka
częstość, MAF (minor allele
frequency) >5%
► ~7
mln SNP o częstości MAF >5%
► ~4 mln SNP o częstości 1-5%
► brak
sprzężenia
SNP nie powinny znajdować się w genomie blisko siebie w tzw.
nierównowadze sprzężeń (linkage disequilibrium)
► wykorzystanie
► Affymetrix
► Illumina
mikromacierzy
Projekt HapMap
► międzynarodowe
przedsięwzięcie obejmujące
Japonię, Kanadę, Chiny, Nigerię i USA w celu
identyfikacji oraz określenia częstości zmian
polimorficznych w genomie ludzkim w różnych
populacjach
► 270




osób:
90 z Nigerii
45 z Japonii
45 z Chin
90 z Europy północnej i zachodniej
Analiza mikromacierzy
► wytworzenie
mikromacierzy
naniesienie na płytkę gotowych lub zsyntetyzowanych in situ sond
długości 25 - 70 nukleotydów
mikromacierz
Sonda oligonukleotydowa
http://www.affymetrix.com
Analiza mikromacierzy
► hybrydyzacja
DNA na płytce zawierającej
sondy
http://www.affymetrix.com
Analiza mikromacierzy
► skanowanie
http://www.affymetrix.com
Analiza mikromacierzy
► analiza
ilościowa
Analiza mikromacierzy
► Affymetrix
► Illumina
Affymetrix
► „chip”
Affymetrix's Genome-Wide Human SNP Array 6.0
zawiera sondy dla 906 600 SNP i 946 000 CNV
► strategia
wyboru SNP:
tylko połowa w oparciu o projekt HapMap, tzw.
haplotype - tagging „tagSNPs”, reszta to dowolne SNPs
występujące w genomie
► sondy
25-nukleotydowe, 4-6 kopii/zmianę
► detekcja
hybrydyzacja wyznakowanego DNA
Trawienie enzymami restrykcyjnymi
Ligacja z adapterem Nsp lub Sty
Amplifikacja PCR z jednym starterem
Oczyszczenie próbki
Fragmentacja,
znakowanie końców
Hybrydyzacja
http://www.affymetrix.com/estore/browse/products.jsp?categoryIdClicked=&productId=131534#1_1
Illumina
► „chip”
HumanOmni2.5-Quad BeadChip zawiera > 2.45 milliona
sond do badania SNPs i CNVs
► strategia
wyboru SNPs:
w oparciu o projekt HapMap, tzw. haplotype - tagging
„tagSNPs”
► sondy
50-nukleotydowe, 1/zmianę
► detekcja
wydłużanie sond z dobudowaniem znakowanych
nukleotydów
Genomowe DNA
(200 - 400 ng)
Amplifikacja DNA
Fragmentacja DNA
2-etapowa detekcja
Etap I
Hybrydyzacja DNA
z sondą
Etap II
Wydłużanie sond
z dobudowaniem
wyznakowanych
nukleotydów
http://www.illumina.com/technology/infinium_hd_assay.ilmn
Zestawienie wykonanych GWAS
►~
600 GWAS obejmujących różne grupy i
populacje
► 150 różnych zespołów np. cukrzyca typu I i II,
choroba Crohna, choroba Alzheimera,
schizofrenia, udar, choroby serca, nowotwory
złośliwe, otyłość
► > 50 000 SNP wyselekcjonowanych do walidacji
► zidentyfikowano ~800 SNP związanych z
chorobami (p<5×10-8)
Johnson and O'Donnell, BMC Medical Genetics 2009
Manolio, NEJM 2010
Manolio et al., NEJM 2010
Badanie Wellcome Trust
2005-2007
►8
ważnych schorzeń wieloczynnikowych
► 19 000 osób (chorych i zdrowych)
► 500 000 polimorfizmów (SNPs i CNVs)
► 200 badaczy,
► 9 milionów funtów
https://www.wtccc.org.uk/ccc1/
Nature 2007, Nature 2010
Wyniki badań Wellcome Trust
► Choroba
afektywna dwubiegunowa
locus 16p12 (OR 2,08)
► Choroba
wieńcowa
locus 9p21 (ORhet-hom 1,47-1,9)
► Choroba
Crohna
 5 znanych lokalizacji (ORhet-hom): NOD2 (1,29-1,92), IL23R (1,391,86), ATG16L1 (1,19-1,85), ZNF365 (1,23-1,55), locus 5p13.1
(1,54-2,32)
 4 nowe lokalizacje (ORhet-hom): IRGM (1,54-1,92), BSN (1,091,84), NKX2-3 (1,2-1,62), PTPN2 (1,3-2,01)
Wyniki badań Wellcome Trust
► Nadciśnienie
brak wyraźnych czynników ryzyka - kilka wariantów o stosunkowo
małym wpływie (OR 0,97-1,6)
► Reumatoidalne
zapalenie stawów
 9 znanych już lokalizacji (OR 0,91-2,3)
 PTPN22 (ORhet-hom 1,98-3,32), region MHC (ORhet-hom 2,36-5,21)
 korelacja z chorobami serca i cukrzycą typu I
Wyniki badań Wellcome Trust
► Cukrzyca
typu I
 5 znanych lokalizacji, w tym gen PTPN22 (ORhet-hom 1,82-5,19) i
MHC (ORhet-hom 5,49-18,52)
 3 nowe loci (ORhet-hom ): 12q13 (1,34-1,75), 12q24 (1,34-1,94),
16p13 (1,19-1,55)
► Cukrzyca
typu II
TCFL2 (ORhet-hom 1,36-1,88), FTO (ORhet-hom 1,34-1,55),
CDKAL1/CDKARAP1 (ORhet-hom 1,18-2,17)
Znaczenie medyczne
► identyfikacja
grup zwiększonego ryzyka
zachorowania na określone choroby
 związek z pojedynczym markerem, tzw. „single
effect”
 sumowanie ryzyka, tzw. „additive effect”
np. OR 1,62 (1 SNP) i OR 9,46 (≥5 SNPs) dla raka
prostaty
Pharoah et al. NEJM 2008
Zheng et al. NEJM 2008
Zmiany zidentyfikowane
w GWAS
► funkcjonalne
► niefunkcjonalne
 markery genetyczne
 identyfikują obszar/gen gdzie należy szukać
właściwych mutacji
Sekwencjonowanie DNA
Technika umożliwiająca ustalenie kolejności
zasad w DNA.
► Sangera
– 1975 rok
polega na terminacji łańcucha DNA przy wykorzystaniu
zmodyfikowanych nukleotydów (dideoksynukleotydy)
► Maxama-Gilberta
– 1977 rok
polega na wykorzystaniu związków chemicznych do rozszczepiania
łańcucha DNA
► automatyczne
– 1987 rok
oparte na metodyce Sangera
http://www.answers.com/topic/dna-sequencing
http://www.clontech.com/products/detail.asp?product_id=225046&tabno=2
3730xl DNA Analyzer
 96 kapilar
 3 840 próbek/dobę
 2 100 000 zasad/dobę
 do 900 zasad/próbkę
http://www.mun.ca/biology/scarr/4241_RMC_Sequencing.html
► pirosekwencjonowanie
– 1996 rok
„sekwencjonowanie poprzez syntezę”
w reakcji wykorzystywane są cztery enzymy:
 fragment Klenowa polimerazy DNA I
 sulfurylaza ATP
 lucyferaza
 apiraza.
http://www.translational-medicine.com/content/1/1/9/figure/F5?highres=y
PyroMark Q96 MD
 do 96 próbek analizowanych jednocześnie
 max. 300 - 500 zasad/próbkę
 do 960 próbek/dobę
 krótka procedura przygotowania próbek
Sekwencjonowanie
nowej generacji
Analiza setek milionów lub miliardów par
zasad w jednym ciągu reakcji, przy
jednoczesnym obniżeniu kosztów
►System
454 (Roche)
►HiSeq (Illumina)
►SOLiD (Applied Biosystems)
System 454






w oparciu o pirosekwencjonowanie
>1mln zasad/analizę
1 mld zasad/dobę
do 450 zasad/próbkę
czułość 99%
koszt 7 000 $/analizę
HiSeq2000







w oparciu o odwracalną reakcję terminacji
jednoczesna analiza dwóch różnych próbek
200 mld zasad/analizę, 8 dni
do 25 mld zasad/dobę
do 100 zasad/próbkę
czułość >99%
koszt 10 000 $/analizę
5500xl SOLiD™ System







w oparciu o ligację komplementarnych frag.
jednoczesna analiza 12 różnych próbek
300 mld zasad/analizę, 7 dni
do 45 mld zasad/dobę
do 75 zasad/próbkę
czułość 99.99%
koszt 6 000 $/analizę
Postęp w sekwencjonowaniu
Podsumowanie
► najlepsze
efekty daje połączenie kilku metod
► konieczne
nowej jakości badania strukturalne
i asocjacyjne :
 RNA
 białek
 innych oddziaływań ze środowiskiem o
nieznanym dotąd charakterze