Transcript 염기서열데이터베이스
데이터베이스 응용 염기서열 데이터베이스의 구축과 활용 Yunku Yeu 2015 – 11 – 16 Table of Contents • DNA sequence의 특징과 생성 • Genomic variations의 수집 • Genomic variations의 활용 2 DNA Sequence • DNA ≈ 염기(Nucleotide)의 서열 – 세포의 핵 내에 염색사 또는 염색체 형태로 존재 – Adenine, Thymine, Guanine, Cytosine로 구성 – A,T,G,C 4개의 문자로 구성된 문자열 데이터로 간주 가능 …CAATTGATGGGTATCTATG… …GTTAACTACCCATAGATAC… …CAATTGATGGGTATCTATG… http://study.zum.com/book/12698 3 DNA Sequence • Central dogma of Life – RNA, 단백질을 거쳐, 대부분의 생명 현상의 근원이 됨 – DNA는 개체간 차이의 중요한 요인 중 하나 – 서로 다른 두 개인 사이에서 0.5%~3%의 차이가 있는 것 으로 알려져 있음 Genome, gene traits phenotypes http://biosocialmethods.isr.umich.edu/ 4 DNA Sequence • DNA 변이(polymorphism) – 염기 서열 3개가 짝을 지어 코돈(codon)을 구성하고, 코돈의 translation을 통해 아미노산을 생성 – DNA 변이 코돈 변이 아미노산 서열 변이 단백질 구조 변이, 기능 상실, … DNA 서열의 차이 ? 외부 기능의 차이 “유전학의 최종 목표” https://ko.wikipedia.org/wiki/%EC%BD%94%EB%8F%88 5 How to get DNA sequence • 문제: 전체 genome sequence를 한 번에 해독 (sequencing)할 수 있는 기술이 없음 – DNA sequencing을 길게 할 수록 정확도가 감소 – 일반적으로 신뢰 가능한 sequence 조각(read)의 길이 • Sanger sequencing (500~1000 base pair) • Next-Generation Sequencing (illumina社: 50~300bp) • Human genome project (1984~2003) – 3G 크기의 human genome을 sequencing 6 How to get DNA sequence • Sequence assembly – 밑그림이 없는 Jigsaw puzzle – DNA를 random fragmentation하고 sequence read를 대 량으로 생산한 다음, – Sequence read 간의 overlap에 근거하여 더 긴 조각으로 연결 – 대량의 sequence reads, computation power가 필요 http://rosalind.info/problems/long/ 7 How to get DNA sequence • Sequence alignment – 밑그림이 있는 Jigsaw puzzle – Reference genome에 다른 individual에서 생성된 read를 align해서, 차이점을 찾아 내는 것 – Assembly에 비해 훨씬 적은 비용 소모 • 더 많은 대상에 적용할 수 있음 Sequence alignment 8 Data format for DNA sequence • FASTA format + 별도의 quality file Sequence • FASTQ format Quality (ASCII code) 9 Genomic variations • Sequence alignment를 활용해 DNA 변이의 여러 사 례를 연구할 수 있음 • 유전체 변이(variation, polymorphism)의 표현 – SNP (Single Nucleotide Polymorphism) • 전체 집단에서 1% 이상 나타나는 것을 데이터베이스화 – CNV (Copy Number Variation) • 1kbp 이상의 loss, gain 10 SNP example • 2형 당뇨병과 연관된 SNP (http://www.snpedia.com/index.php/SNPedia) Identifier Reference papers Genotype & annotation 11 How to construct SNP database • GWAS (Genome-Wide Association Study) – Genotype(SNP)과 phenotype과의 연관성 – 여러 명의 genotype 정보와 phenotype 정보를 수집, 통계 적으로 유의미한 SNP-phenotype을 추정 (with p-value) – 분자유전학적 설명력은 다소 낮음. GWAS Catalog https://www.ebi.ac.uk/gwas/ 12 How to construct SNP database • GWAS (Genome-Wide Association Study) G C Case 2104 1896 4000 Control 2676 3324 6000 4780 5220 10000 Expected = 1912 D. of F = (2-1)*(2-1)=1 Observed= 2104 X2 = (E-O)2/E = 19.xxx p-value 계산 13 How to construct SNP database • 1000 genomes project (2008~2015) – the most detailed catalogue of human genetic variation – 다양한 인종, 지역을 대상으로 1000명의 genomic variation을 연구 • 1% 정도로 희귀하게 발견되는 SNP을 정의할 수 있음. – 2012년, 1,092명의 genomes이 보고되었음 – http://www.1000genomes.org/ 14 Data format for representing SNP • VCF (Variant Calling Format) – http://samtools.github.io/hts-specs/VCFv4.2.pdf – 위치 정보 및 식별자: CHROM, POS, ID – 염기서열: REF, ALT – Sample별 genotype 및 quality, depth: GT, GQ, DP 15 DNA variations의 활용 • 생명 현상의 원인을 파악 – Genetic marker: 쉽게 해석할 수 있으면서, 개인 또는 샘플을 구별할 수 있는 염기 서열 • Genetic marker의 분포를 이용해 유전 패턴을 연구하거나, 두 개인, 두 집단 간의 genetic distance를 계산할 수 있음 – Disease 관련 DNA 변이의 파악 • 질병 위험 예측 – 질병에 대한 저항력, 약물에 대한 민감성 등을 예측 – 개인 유전체 서비스 (Consumer Genomic Service) • 안젤리나 졸리: BRCA1 돌연변이, 유방암 발병 위험률 60% 건강 상태는 매우 양호, 유방암 징조 없음 예방적 절제술 선택 16 Prediction of Disease Risk • Prediction algorithm by Ashley – 문헌으로부터 genotype – case – control 정보 수집 AA Aa aa case a b c control d e f 𝑝𝑟𝑒𝑡𝑒𝑠𝑡𝑜𝑑𝑑𝑠 = 𝑎 𝐿𝑅 𝐴𝐴 = 𝑎 + 𝑏 + 𝑐 𝑑 𝑑+𝑒+𝑓 𝑝𝑟𝑒𝑡𝑒𝑠𝑡𝑝𝑟𝑜𝑏 1 − 𝑝𝑟𝑒𝑡𝑒𝑠𝑡𝑝𝑟𝑜𝑏 𝑝𝑜𝑠𝑡𝑡𝑒𝑠𝑡𝑜𝑑𝑑𝑠 = 𝑝𝑟𝑒𝑡𝑒𝑠𝑡𝑜𝑑𝑑𝑠 × 𝐿𝑅 𝐿𝑅 = 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑜𝑓 𝑡ℎ𝑒 𝑔𝑒𝑛𝑜𝑡𝑦𝑝𝑒 𝑖𝑛 𝑡ℎ𝑒 𝑐𝑎𝑠𝑒 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑜𝑓 𝑡ℎ𝑒 𝑔𝑒𝑛𝑜𝑡𝑦𝑝𝑒 𝑖𝑛 𝑡ℎ𝑒 𝑐𝑜𝑛𝑡𝑟𝑜𝑙 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 𝑝𝑜𝑠𝑡𝑡𝑒𝑠𝑡𝑝𝑟𝑜𝑏 = 𝑝𝑜𝑠𝑡𝑡𝑒𝑠𝑡𝑜𝑑𝑑𝑠 1 + 𝑝𝑜𝑠𝑡𝑡𝑒𝑠𝑡𝑜𝑑𝑑𝑠 인종의 유병률 * genotype의 연관성 17 Analysis for disease-related SNP • 희귀병 환자의 SNP 데이터 분석 예제 (ANNOVAR) – 원인이 알려지지 않은 희귀병을 앓고 있는 환자의 데이터 에서, 질병의 원인이 될 수 있는 변이 후보를 탐색 – 아버지, 어머니, 자녀의 데이터를 통합 분석하는 것이 도 움이 됨 (열성 유전자 관련 질병) – Bioinformatics tool ANNOVAR를 활용 SA12891 SA12892 : male : female : HSP (hereditary spastic paraparesis) SA12878 유전적 경련성 하반신 마비 18 Analysis for disease-related SNP • ANNOVAR의 각 단계를 통해 VCF 데이터를 처리 – Splicing site 또는 exon region에 존재하는 변이만 탐색 – Conserved region에 있는 변이만 탐색 – Segmental duplication region에 있는 변이는 제외 – 1000 genome project에서 알려진 변이는 제거 – 이미 알려져서 dbSNP에 등록된 변이는 제외 – 남은 변이를 유전자에 맵핑 – 변이가 많이 발견된 유전자 리스트 작성 19 Analysis for disease-related SNP • Recessive disease의 요인 분석 – Homozygous: 부모세대에서는 heterozygous state였으나 자식세대에 서 homozygous state로 변경된 경우 • 해당 유전자의 변이가 사라짐으로써, 질병이 억제되지 않은 경우일 수 있음 – Compound heterozygous: 부모 및 자식 세대에서 모두 hetero • 다른 희귀 변이와 함께 질병의 원인이 될 수 있음 – De novo mutation: 부모에게서 없는 변이가 발견 • 해당 유전자의 변이가 곧 질병의 원인이 될 수 있음 Father Mother Child State VWA3B O X X Homozygous CGREF1 X O X Homozygous BMPR2 X O O Compound heterozygous KIF1A X X O De novo mutation 20 Further topics • SNP과 같은 genomic variation은 생명 현상을 연구하는 힌트 중 하나로 사용 – 표현형의 차이를 나타내는 중요한 요인 중 하나지만, 유일한 요인은 아님 • 유전자의 발현에 관련된 다른 데이터와 함께 활용 – Gene regulation – miRNA interaction – DNA methylation, histone modification 21 Thank you