휴먼게놈프로젝트와 컴퓨터 Human genome project and Computer

Download Report

Transcript 휴먼게놈프로젝트와 컴퓨터 Human genome project and Computer

휴먼게놈프로젝트와 컴퓨터
Human genome project and Computer science
2005-12-03 Biocom OB 세미나
93’ 김형용
http://biohackers.net/wiki/HgpAndComputer
http://biohackers.net
순서





생물학 백그라운드
Genome의 구조
서열결정작업
HGP 이후의 이야기들
컴퓨터과학의 기여
Genome


게놈? 지놈?
유전자(gene), 유전체(genome)
Great 3 books

우주 – 생명 - 인간
Central
Dogma of
Molecular
Biology
Protein structure



20 Amino acids
Sequence specifies
conformation
RNase
Life

DNA’s common method of producing more
DNA

Review the life
Evolution

Self replicator
Chromosome
1 cM ~= 1 Mbps
Gene structure
Junk DNA


전체 Genome의 5%만이 단백질이 되는 영역.
그렇다면 나머지는?
Repetitive sequence



LINE (>300bps)
SINE (300bps), Alu (30000~50000개)
Microsatelite
Human genome

3~4x1014 cells (~=245)

> 200 cell type

3x109 bps (3Gbps = 3Gbyte)

20000~25000 Genes

98% unknown functional DNA

0.1% difference with you

Information theory : 30Mbyte
Human genome project



DOE, NHGRI 에서 시작. 2003년 공식 완료. 13년. 7
개국 참여
95%나 되는 Junk DNA 를 꼭 그 많은 돈을 들여서
해야만 했는가?
목적





Human DNA 에서 모든 Gene의 동정
30억 염기서열의 결정
Database에 결과의 저장
이를 분석할 수 있는 도구의 향상
관련 윤리적 문제의 연구
History






PCR
RFLP
Genetic marker
BAC
Shotgun sequencing
Whole genome shotgun
Gel Electrophoresis


젤(그물막)에 전하를 띤 물질을 통과시킴으로, 분리하는 방법. 작
을수록 멀리~
DNA, Protein
PCR

Polymerase
Chain
Reaction
Genetic marker

Polymorphic allele locus
Genetic map
Cloning

무지 작은 저 분자
를 하나씩 직접 읽
을 수 없다.

따라서, “동일” 한
것들 여러 개를 갖
고 실험
Gene cloning

Gene cloning 과정
1.
2.
3.
4.
5.

Genome상에서 원하는 영역을 정한다.
원하는 영역을 뽑아낼 수 있는 PrimerDesign을 한다.
PCR로 해당영역의 major band를 확인하고, 추출한다.
CloningVector에 삽입한다.
Selection의 과정을 통해, 해당 유전자가 삽입된 벡터가 들어있는
클론을 선발한다.
Cloning vector





Plasmid :
Cosmid : 30 kb
BAC : 350 kb
YAC : 2 Mb 이상
PAC : 300 kb
DNA
sequencing
DNA
sequencing
DNA sequencing




Frederic Sanger
DNA, Protein
유효길이
700-800bp
Shotgun sequencing
게놈을 읽기 위해 유전학자들은 먼저 게놈을 수천조각으로 부순 뒤, 아무
렇게나 잘라졌을 이 조각들을 가지고 시작할 수 밖에 없다.
재조립하기 위해 파괴하는 것, 그것이 분자생물학자들의 저주받을 운명이
고 직업적 강박관념이다.
-- 다니엘코엥, 휴먼게놈을 찾아서
Genome sequencing

Clone by clone
method


Genetic marker에
따라 BAC 선발 후
shotgun
Whole genome
shotgun



무작정 shotgun
Repeat 로 인한 조
립에의 어려움.
컴퓨터만 믿는다.
Current status (since 2003)














Human
Human
Human
Human
Human
2004.
Human
Human
Human
Human
Human
Human
Human
Human
Human
Chromosome 4 Completed, April 2005.
Chromosome 2 Completed, April 2005.
Chromosome X Completed, March 2005.
Chromosome 16 Completed, December 2004.
Gene Count Estimates Changed to 20,000 to 25,000, October
Chromosome 5 Completed, September 2004.
Chromosome 9 Completed, May 2004.
Chromosome 10 Completed, May 2004.
Chromosome 19 Completed, March 2004.
Chromosome 13 Completed, March 2004.
Chromosome 6 Completed, October 2003.
Chromosome 7 Completed, July 2003.
Chromosome Y Completed, June 2003.
Genome Project Completion: 1990-2003 (April 2003)
Genome browser




UCSC Genome browser
NCBI Genome browser
Ensembl
VistaBrowser
Genetic disease – before HGP
Genetic disease – after HGP
Comparative genomics

Synteny (Gene order), Gene
duplication, Gene fusion
Comparative genomics
SNP



Single Nucleotide Polymorphism
종간 다양성  종내 다양성
염기변화  유전자내  아미노산변화 
구조변화
Haplotype
HapMap


일본, 영국, 중국, 캐
나다, 미국, 나이지
리아
Project의 목표는
MinorAllele의 빈도
가 최소 5% 이상이
고 평균 간격이 5
kilobase 인 60만개
SNPs을 genotype
하는 것
Transcriptome, Proteome



EST
DNA chip
Proteomics
EST

Expression Sequence Tag
Transformational grammar


Regular grammar : computer program
Context free grammar : DNA



Palindrome, “다시 합창합시다”
Context sensitive grammar
Unrestricted Grammar : 자연어
Sequence alignment
Smith-Waterman algorithm
BLAST

Unknown sequence
Known sequence
Database
Object oriented programming


Computer programming paradigm
생명현상의 모델링
마치며…


Rosetta stone
Programming