염기서열데이터베이스

Download Report

Transcript 염기서열데이터베이스

데이터베이스 응용
염기서열 데이터베이스의 구축과 활용
Yunku Yeu
2015 – 11 – 16
Table of Contents
• DNA sequence의 특징과 생성
• Genomic variations의 수집
• Genomic variations의 활용
2
DNA Sequence
• DNA ≈ 염기(Nucleotide)의 서열
– 세포의 핵 내에 염색사 또는 염색체 형태로 존재
– Adenine, Thymine, Guanine, Cytosine로 구성
– A,T,G,C 4개의 문자로 구성된 문자열 데이터로 간주 가능
…CAATTGATGGGTATCTATG…
…GTTAACTACCCATAGATAC…
…CAATTGATGGGTATCTATG…
http://study.zum.com/book/12698
3
DNA Sequence
• Central dogma of Life
– RNA, 단백질을 거쳐, 대부분의 생명 현상의 근원이 됨
– DNA는 개체간 차이의 중요한 요인 중 하나
– 서로 다른 두 개인 사이에서 0.5%~3%의 차이가 있는 것
으로 알려져 있음
Genome, gene
traits
phenotypes
http://biosocialmethods.isr.umich.edu/
4
DNA Sequence
• DNA 변이(polymorphism)
– 염기 서열 3개가 짝을 지어
코돈(codon)을 구성하고, 코돈의
translation을 통해 아미노산을 생성
– DNA 변이  코돈 변이
 아미노산 서열 변이
 단백질 구조 변이, 기능 상실, …
DNA 서열의 차이
?
외부 기능의 차이
“유전학의 최종 목표”
https://ko.wikipedia.org/wiki/%EC%BD%94%EB%8F%88
5
How to get DNA sequence
• 문제: 전체 genome sequence를 한 번에 해독
(sequencing)할 수 있는 기술이 없음
– DNA sequencing을 길게 할 수록 정확도가 감소
– 일반적으로 신뢰 가능한 sequence 조각(read)의 길이
• Sanger sequencing (500~1000 base pair)
• Next-Generation Sequencing (illumina社: 50~300bp)
• Human genome project (1984~2003)
– 3G 크기의 human genome을 sequencing
6
How to get DNA sequence
• Sequence assembly
– 밑그림이 없는 Jigsaw puzzle
– DNA를 random fragmentation하고 sequence read를 대
량으로 생산한 다음,
– Sequence read 간의 overlap에
근거하여 더 긴 조각으로 연결
– 대량의 sequence reads,
computation power가 필요
http://rosalind.info/problems/long/
7
How to get DNA sequence
• Sequence alignment
– 밑그림이 있는 Jigsaw puzzle
– Reference genome에 다른 individual에서 생성된 read를
align해서, 차이점을 찾아 내는 것
– Assembly에 비해 훨씬 적은 비용 소모
• 더 많은 대상에 적용할 수 있음
Sequence
alignment
8
Data format for DNA sequence
• FASTA format + 별도의 quality file
Sequence
• FASTQ format
Quality (ASCII code)
9
Genomic variations
• Sequence alignment를 활용해 DNA 변이의 여러 사
례를 연구할 수 있음
• 유전체 변이(variation, polymorphism)의 표현
– SNP (Single Nucleotide Polymorphism)
• 전체 집단에서 1% 이상 나타나는 것을 데이터베이스화
– CNV (Copy Number Variation)
• 1kbp 이상의 loss, gain
10
SNP example
• 2형 당뇨병과 연관된 SNP
(http://www.snpedia.com/index.php/SNPedia)
Identifier
Reference papers
Genotype
& annotation
11
How to construct SNP database
• GWAS (Genome-Wide Association Study)
– Genotype(SNP)과 phenotype과의 연관성
– 여러 명의 genotype 정보와 phenotype 정보를 수집, 통계
적으로 유의미한 SNP-phenotype을 추정 (with p-value)
– 분자유전학적 설명력은 다소 낮음.
GWAS Catalog
https://www.ebi.ac.uk/gwas/
12
How to construct SNP database
• GWAS (Genome-Wide Association Study)
G
C
Case
2104
1896
4000
Control
2676
3324
6000
4780
5220
10000
Expected = 1912
D. of F = (2-1)*(2-1)=1
Observed= 2104
X2 = (E-O)2/E = 19.xxx  p-value 계산
13
How to construct SNP database
• 1000 genomes project (2008~2015)
– the most detailed catalogue of human genetic variation
– 다양한 인종, 지역을 대상으로 1000명의 genomic variation을 연구
• 1% 정도로 희귀하게 발견되는 SNP을 정의할 수 있음.
– 2012년, 1,092명의 genomes이 보고되었음
– http://www.1000genomes.org/
14
Data format for representing SNP
• VCF (Variant Calling Format)
– http://samtools.github.io/hts-specs/VCFv4.2.pdf
– 위치 정보 및 식별자: CHROM, POS, ID
– 염기서열: REF, ALT
– Sample별 genotype 및 quality, depth: GT, GQ, DP
15
DNA variations의 활용
• 생명 현상의 원인을 파악
– Genetic marker: 쉽게 해석할 수 있으면서, 개인 또는 샘플을
구별할 수 있는 염기 서열
• Genetic marker의 분포를 이용해 유전 패턴을 연구하거나, 두 개인,
두 집단 간의 genetic distance를 계산할 수 있음
– Disease 관련 DNA 변이의 파악
• 질병 위험 예측
– 질병에 대한 저항력, 약물에 대한 민감성 등을 예측
– 개인 유전체 서비스 (Consumer Genomic Service)
• 안젤리나 졸리: BRCA1 돌연변이, 유방암 발병 위험률 60%
 건강 상태는 매우 양호, 유방암 징조 없음
 예방적 절제술 선택
16
Prediction of Disease Risk
• Prediction algorithm by Ashley
– 문헌으로부터 genotype – case – control 정보 수집
AA
Aa
aa
case
a
b
c
control
d
e
f
𝑝𝑟𝑒𝑡𝑒𝑠𝑡𝑜𝑑𝑑𝑠 =
𝑎
𝐿𝑅 𝐴𝐴 = 𝑎 + 𝑏 + 𝑐
𝑑
𝑑+𝑒+𝑓
𝑝𝑟𝑒𝑡𝑒𝑠𝑡𝑝𝑟𝑜𝑏
1 − 𝑝𝑟𝑒𝑡𝑒𝑠𝑡𝑝𝑟𝑜𝑏
𝑝𝑜𝑠𝑡𝑡𝑒𝑠𝑡𝑜𝑑𝑑𝑠 = 𝑝𝑟𝑒𝑡𝑒𝑠𝑡𝑜𝑑𝑑𝑠 × 𝐿𝑅
𝐿𝑅 =
𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑜𝑓 𝑡ℎ𝑒 𝑔𝑒𝑛𝑜𝑡𝑦𝑝𝑒 𝑖𝑛 𝑡ℎ𝑒 𝑐𝑎𝑠𝑒 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛
𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑡𝑦 𝑜𝑓 𝑡ℎ𝑒 𝑔𝑒𝑛𝑜𝑡𝑦𝑝𝑒 𝑖𝑛 𝑡ℎ𝑒 𝑐𝑜𝑛𝑡𝑟𝑜𝑙 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛
𝑝𝑜𝑠𝑡𝑡𝑒𝑠𝑡𝑝𝑟𝑜𝑏 =
𝑝𝑜𝑠𝑡𝑡𝑒𝑠𝑡𝑜𝑑𝑑𝑠
1 + 𝑝𝑜𝑠𝑡𝑡𝑒𝑠𝑡𝑜𝑑𝑑𝑠
인종의 유병률 *
genotype의 연관성
17
Analysis for disease-related SNP
• 희귀병 환자의 SNP 데이터 분석 예제 (ANNOVAR)
– 원인이 알려지지 않은 희귀병을 앓고 있는 환자의 데이터
에서, 질병의 원인이 될 수 있는 변이 후보를 탐색
– 아버지, 어머니, 자녀의 데이터를 통합 분석하는 것이 도
움이 됨 (열성 유전자 관련 질병)
– Bioinformatics tool ANNOVAR를 활용
SA12891
SA12892
: male
: female
: HSP (hereditary spastic paraparesis)
SA12878
유전적 경련성 하반신 마비
18
Analysis for disease-related SNP
• ANNOVAR의 각 단계를 통해 VCF 데이터를 처리
– Splicing site 또는 exon region에 존재하는 변이만 탐색
– Conserved region에 있는 변이만 탐색
– Segmental duplication region에 있는 변이는 제외
– 1000 genome project에서 알려진 변이는 제거
– 이미 알려져서 dbSNP에 등록된 변이는 제외
– 남은 변이를 유전자에 맵핑
– 변이가 많이 발견된 유전자 리스트 작성
19
Analysis for disease-related SNP
• Recessive disease의 요인 분석
– Homozygous: 부모세대에서는 heterozygous state였으나 자식세대에
서 homozygous state로 변경된 경우
•
해당 유전자의 변이가 사라짐으로써, 질병이 억제되지 않은 경우일 수 있음
– Compound heterozygous: 부모 및 자식 세대에서 모두 hetero
• 다른 희귀 변이와 함께 질병의 원인이 될 수 있음
– De novo mutation: 부모에게서 없는 변이가 발견
• 해당 유전자의 변이가 곧 질병의 원인이 될 수 있음
Father
Mother
Child
State
VWA3B
O
X
X
Homozygous
CGREF1
X
O
X
Homozygous
BMPR2
X
O
O
Compound heterozygous
KIF1A
X
X
O
De novo mutation
20
Further topics
• SNP과 같은 genomic variation은 생명 현상을
연구하는 힌트 중 하나로 사용
– 표현형의 차이를 나타내는 중요한 요인 중 하나지만,
유일한 요인은 아님
• 유전자의 발현에 관련된 다른 데이터와 함께 활용
– Gene regulation
– miRNA interaction
– DNA methylation, histone modification
21
Thank you