Transcript 3 - BIMIB
La predizione della struttura
genica e lo splicing alternativo
Raffaella Rizzi
DISCo – Università di Milano-Bicocca
[email protected]
Introduzione biologica
DNA
Doppia catena polinucleotidica
definita sull’alfabeto: A, C, G, T
Gene
Regione di DNA che codifica
proteine
Il sequenziamento
Cosa significa sequenziare?
determinare la struttura primaria delle molecole biologiche
(DNA/RNA e proteine)
sequenza dei nucleotidi {a,c,g,t|u} per DNA/RNA
g
c
c
t
c
c
g
c
c
g
t
c
t
g
c
g
ordine degli amminoacidi per le proteine
Glu
Ile
Phe
Thr
Val
His
Il sequenziamento
Cosa si ottiene?
single-end read
DNA/RNA
acgttgtgcagtgacggtaa
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
paired-end read (o mate-pair)
insertion size
DNA/RNA
A
A
agttgcgt
aatgcctg
B
B
insertion size
A=B
Il sequenziamento
Perché è importante?
… per determinare il genoma di un organismo vivente
(problema del Genome Assembly)
Genoma
Sanger Sequencing (1977)
Metodo di sequenziamento capillare
Basato su enzima
Piuttosto costoso
Processa pochissimi reads in un run (un
centinaio)
Lunghezza frammenti fino a 1000 bp
Errore basso
Espressione di un gene
DNA
5’
3’
3’
5’
TRANSCRIPTION
pre-mRNA
5’
exon 1
exon 2
exon 3
SPLICING by spliceosome
mRNA
CDS
exon 1
exon 2
exon 3
atg…………[stop]
splicing product
tag
[stop] taa
tga
3’
Pattern di un introne
Introni canonici:
99.24 %
GT
Introni non canonici:
AG
0.69 %
0.05 %
0.02 %
GC
AG
AT
AC
ALTRO
Burset et al., Nucleic Acids Res. 2000, 28:4363-4375
Espressione di un gene
Ma le cose funzionano davvero così?
Numero Geni corpo umano : 40000 circa
Numero Proteine : centinaia di migliaia
La corrispondenza 1 a 1 non è rispettata. Perché?
SPLICING ALTERNATIVO
Alternative Splicing (AS)
Gene
mRNA1
5’
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
3’
Alternative Splicing (AS)
Gene
5’
mRNA1
mRNA2
exon 1’
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’’
3’
Alternative Splicing (AS)
Gene
5’
mRNA1
mRNA2
mRNA3
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon 3
3’
Alternative Splicing (AS)
Gene
5’
mRNA1
mRNA2
mRNA3
mRNA4
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon 1’’’
exon 3
exon 2
exon 3
3’
Alternative Splicing (AS)
Gene
5’
mRNA1
mRNA2
mRNA3
mRNA4
mRNA5
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon 1’’’
exon 1
exon 3
exon 2
exon 2
exon 3
exon 3’
3’
Alternative Splicing (AS)
Gene
5’
exon 1
exon 2
mRNA1
exon 1
exon 2
mRNA2
exon 1
exon 3
exon 4
exon 4
exon 3
exon 4
3’
Perché AS è importante?
AS avviene nel 40-60% dei geni umani
(Modrek and Lee, 2002)
AS genera numerosi trascritti a partire
da un singolo gene
AS is specifico del tessuto in cui si trova
la cellula (Graveley, 2001)
AS è correlato alle malattie
Problema di AS
AS è ancora un problema aperto
Si ha la necessità di software tools per
predire le forme di splicing alternativo di un
gene
analizzare il meccanismo di splicing tramite la
rappresentazione delle possibili isoforme
Trascritti e sequenze EST
Un trascritto è l’elenco delle basi (A,T,C,G) che
compongono un mRNA maturo
Un EST è un frammento di cDNA (copia
complementare di un mRNA, prodotta in vitro )
mRNA
cDNA
ATTGCGTTAACTGGACTGA
TAACGCAATTGACCTGACT
AATTGACCT
EST
Expressed Sequence Tag
Cos’è un single-end read da un mRNA (messenger
RNA)?
EST (Expressed Sequence Tag)
esoni (codificanti)
introni (non codificanti)
A
B
C
D
B’
mRNA1
A
B
D
mRNA2
A
C
D
mRNA3
A
B’
C
EST
D
Gene
ESTs
Le sequenze EST sono dati importanti
e disponibili pubblicamente per:
identificare geni lungo un genoma
predire la struttura in esoni e introni di un
geni
…e le sue isoforme alternative (alternative
splicing prediction)
per studi di espressione genica
Reference
The Unigene Database: http://www.ncbi.nlm.nih.gov/unigene.
Il sequenziamento di EST
Perché è importante?
… per determinare la struttura e l’espressione di un
gene
A
B
A’
C
A’: suffisso di A
C’: prefisso di C
D’: prefisso di D
B
B
C’
A’
B
A’
B
D
D
A
EST
C
D’
C
Gene
Splice junctions de-novo
Gene
A’
C
D
A
EST
B
B
C’
A’
B
A’
B
D’
C
Splice junctions de-novo
A
B
A’
A
C
D
C
D
B
EST
B
A’
B
A’
B
splice junction
C’
D’
C
Gene
Perché predire AS è difficile?
La predizione della struttura di un gene
è un compito difficile a causa di
gli errori di sequenziamento nelle EST rendono difficoltosa la
localizzazione delle splice junctions
le duplicazioni possono produrre più di un possibile allineamento
EST-genomica
I dati in input sono enormi: efficienza in tempo e spazio
What is available?
Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat,
Sim4):
- Spidey (Wheelan et al., 2001)
- Squall (Ogasawara & Morishita, 2002)
- Ecgene (Kim et al., 2005)
- AceView (http://www.ncbi.nih.gov/IEB/Research/Acembly/)
- Splicing graphs (Heber et al., 2002)
What is available?
Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat,
Sim4): drawbacks
- Spidey => independent single EST alignment
- Squall => independent single EST alignment
- Ecgene => detects variants of more than 15bp
- AceView =>over-prediction
- Splicing graphs => over-prediction
ASPIC software
ASPIC (Alternative Splicing PredICtion) implements an optimization
strategy that:
performs a multiple alignment of transcript data to the genomic sequence
detects the intron set that minimizes the number of splicing sites
P. Bonizzoni, R. Rizzi, G. Pesole. ASPIC: a novel method to
predict
the exon-intron
structure
gene that isisoforms
optimallycompatible
compatible to
generates
the minimal
setofofatranscript
with the detected
a splicing
set of transcript
events sequences. BMC Bioinformatics (2005), 6(1):244.
T. Castrignanò, R. Rizzi, I.G. Talamo, P. D’Onorio De Meo, A. Anselmo, P. Bonizzoni, G.
Pesole. ASPIC: a web resource for alternative splicing prediction and transcript isoforms
characterization. Nucleic Acids Research (2006), 34(Web Server Issue):W440:3.
ASPIC web site
http://www.caspur.it/ASPIC/
INPUT:
A genomic sequence
by pasting a sequence into a text box
by uploading a sequence as a text file
by specifying an ENSEMBL ID or a HUGO name (only for
human)
by specifying a chromosomal range
ASPIC web site
http://www.caspur.it/ASPIC/
INPUT:
A
collection of transcripts
by pasting them into a text box
by uploading them as a text file
by specifying a UNIGENE ID
The minimum dimension for exons on the genomic
sequence
ASPicDB
ASPicDB
Ricostruzione isoforme
Problema di ricostruzione di isoforme full-length
Data la struttura in exoni-introni del gene, trovare tutte le
possibili combinazioni di esoni (o parti di essi) che danno
luogo ad un isoforma completa
A
B
C
D
Isoform#1
A
B
C
D
Isoform#2
A
C
D
Isoform#3
A
B
D
Gene