Transcript Nessun titolo diapositiva
Le reti neurali e la predizione della struttura proteica
Rita Casadio
Interdepartmental Centre for Biotechnological Research
University of Bologna, Italy
•Archea:
L’era “omica”: genomi completi
16 speci/33 in progress
•Batteri:
83 speci
•Eukarioti: 17 speci (242 chromosomi)
www.ncbi.nlm.nih.gov
Draft del genoma umano
•Nature (2/15/01) Human Genome Issue
http://www.ncbi.nlm.nih.gov/genome/guide/human http://www.ensembl.org/
•Science (2/16/01) Human Genome Issue
http://public.celera.com/index.cfm
Dalla Sequenza alla Funzione
Genomica funzionale, Proteomica ed Interattomica
> RICIN GLYCOSIDASE MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSG DLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDE SKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYH WPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDE YSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGI KSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITR GNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVS LAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPY YLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNT KRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH Geni Sequenze proteiche Strutture proteiche
Funzione
PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE
Livelli di organizzazione strutturale
Primaria Secondaria Terziaria Quaternaria
PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE
Gli elementi di struttura secondaria
Foglietto
b a
-elica
C
La predizione del Protein Folding
Il processo di folding
La cinetica del Folding: La proteina nativa
Le Banche Dati di Sequenze Biologiche e Strutture
NCBI: 18,197,119 sequenze 22,616,937,182 nucleotidi >BGAL_SULSO BETA-GALACTOSIDASE Sulfolobus solfataricus.
MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSG DLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDE SKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYH WPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDE YSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGI KSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITR GNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVS LAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPY YLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNT KRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH Swiss-Prot: 113,470 sequenze 41,413,223 residui PDB: 17,510 strutture August/2002
Possiamo estrarre dal PDB circa 1500 esempi di catene di cui e’ nota la struttura terziaria al fine di ricavare informazioni non ridondanti per la relazione tra sequenza e: Struttura secondaria Motivi strutturali e funzionali Struttura terziaria (3D)
Il Protein Folding
T T C C P S I V A R S N F N V C R L P G T P E A L C A T Y T G C I I I P G A T C P G D Y A N
Caratteristiche della Predizione Strutturale di Sequenze Proteiche
Ampio insieme di dati per cui la soluzione del problema è nota
E’ difficile (impossibile) formulare una soluzione analitica del problema
Le banche dati vengono aggiornate in modo continuo (grande volume di dati, necessità di operare in tempo reale)
Mapping generale non-lineare funzionale
x 1 x 2
X
………x n
X space
y 1 y 2
Y
………y n
Tools derivati dall’apprendimento automatico:
Reti Neurali
Training
Set dalla banca dati
Predizione
Nuova sequenza Regole Generali Mapping noto Predizione
La finestra di input
Le proprieta’ del residuo
R
dipendono sia dalle interazioni locali (finestra
W
) che da quelle non locali (contesto
C
) Contesto Finestra Residuo
W C R O
a
O non
a Rete Neurale
Input basato sulla Informazione Evolutiva
Multiple Sequence Alignment (MSA) Posizione lungo la sequenza Sequenze allineate Finestra di Input
Percettrone a singolo strato
a
=
d i
S = 0
w i z
=
g
(
a
)
Artificial Neural Networks
Outputs
z
1
x i
Bias
x
0
x
1 Inputs
La Funzione di Errore
z m x d Y i
(
X q
) = Output of the network
D i q
= Expected Value
L’ Algoritmo di Training: il Back Propagation
(gradient descendent: Rumelhart et al. 1986) Correction to the weights
m
=
learning rate h
=
momentum term
Parametri variabili delle Reti Neurali
• Il codice di input • L’ampiezza della finestra mobile • L’architettura: il numero di nodi (neuroni) e gli strati
di neuroni
• La velocità di apprendimento
Le Reti Neurali
a Bologna
predicono:
•La struttura secondaria delle proteine •I siti di iniziazione del protein folding •La topologia delle proteine di membrana all alpha and all
beta ( ISMB BEST PAPER AWARD 2002 )
•La presenza dei peptidi segnale •Lo stato di legame delle cisteine e la topologia dei
ponti a zolfo
•Le mappe di contatto delle proteine (
BEST PREDICTOR of the CATEGORY at CASP4 )
•Le superfici di interazione tra proteine
www.biocomp.unibo.it
Schema generale dei predittori disponibili al nostro sito web
Predittori basati su Reti Neurali
Verso la predizione della struttura 3D:
La predizione delle mappe dei contatti
Predizione dei contatti tra residui
Contatti nelle Proteine F 297 F 156 V 299
I 269
I 240 V 271 V 238
Computation of Contact Maps
From 3D Structure F 297 F 156 V 299
I 269
V 238 I 240 V 271 To Contact Map
TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
3-D Modelling through Contact Maps Bacteriorhodopsin 1QHJ (1.9 Å)
N
Model
MARC
Contact map
C
RMSD = 2.5 Å
Tools di Apprendimento Automatico
Le Reti Neurali imparano il mapping dalla sequenza alla mappa dei contatti
Training
Set Banca Dati
TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
Predizione
Sequenza Regole generali Mapping noto
Predizione della mappa dei contatti
T0087: 310 residues A=20 % (FR/NF)
C N
T0110: 128 residues A=30% (NF)
N C
Predittori basati su Reti Neurali
Verso la predizione della struttura 3D:
La predizione dei ponti a zolfo
Il Protein Folding
RPDF C LEPPYTGP C KARIIRYFYNAKAGL C QTF VYGG C RAKRNNFKSAED C MRT C GGA
I legami a zolfo tra cisteine nelle proteine
C a
C S S C
C a
2 S H -> SS - + 2H + + 2e S-S distance
2.2 Å Torsion angle C S S -C
90° Bond Energy
3 Kcal/mol
Neural Networks for the Prediction of the disulfide-bonding state of cysteines in proteins Bonding Non bonding 1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYS C TGVAITSSGTKKGEL--FLGDV 2 SAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSCTGVAITSSGTKKGDL--FLADV 3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTCNGVAITSTGTKKGEL--FLADV 4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSCTGVAITASGLKKGEL--FLADV 5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSCTGVAITTTGTNKGSL--FLGDV 6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSCNGVAITAAGTRKNES--IFGEL 7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTCNGPAITATSTKKADL--TVGEI 8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI 9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVTGSL 10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVNGSL 11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSCTGVEFTTSGTSNTDSGKVNGSL 12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTCSGIEFNTAGHSNQESGKVFGSL 13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTCNNVAFKVTGKSTHDK-VTSGAL
W 1 W 2 W 3
MYSFPNSFRFGWSQAGFQ C EMSTPGSEDPNTDWYKWVHDPENMAAGL C SGDLPENGPGYWGNYKTFHDNAQKM C LKIARLNVEWSRIFPNP...
P( B |W 1 ), P( F |W 1 ) P( B |W 2 ), P( F |W 2 ) P( B |W 3 ), P( F |W 3 ) Begi n Cysteine free states Cysteine bonding states End
Most probable path through the states Prediction of the bonding and non-bonding states of all the cysteines of the sequence
Accuratezza Il sistema ibrido per cisteina: 88%; per proteina: 84% 100 90 80 70 60 50 NN-based predictor HNN-based predictor 40 30 20 10 0 1 2 3 4 187 207 106 144 5 71 6 80 7 35 8 55 9 18 10 16 11 4 12 16 13 0 14 7 15 1 16 8 17 2 18 4 19 0 20 0 21 0 22 1 23 1 24 3 25 0 26 0 27 0 28 0 29 0 30 1 31 0 32 0 33 0 34 1 35 1 No of cysteines per protein No of proteins Protein Science, in press
VGDKLIPLKITYDYYVCNNH MDTDTSYERWPALGTYRPLN GRDCVMNNHKLAASDRWECD
V TYRPLNGRDCVMNNHKLAASDRWECDQREPLYTC HMNVVAGLCKLP LYT C M C
QREPLYTCMCNKDLPTKAAG
LGTYRPLNGRD C VMNNHKLAASDRWE LLPLLTHMNVVAGL C KLP C DQREP
PLMNTRPILNLSREEWLLPL LTHMNVVAGLCKLP
Disulfide bonding cysteine Free cysteine
I PREDITTORI POSSONO ESSERE USATI PER SCOPRIRE NUOVE PROTEINE?
Escherichia coli K12, genoma completo
Completed: Oct 13, 1998. Total Bases: 4,639,221 bp
NCBI
(www.ncbi.nlm.nih.gov)
Protein coding genes: 4,289 Structural RNAs: 115
EcoGene/EcoProt
(bmb.med.miami.edu/EcoGene)
Protein coding genes: 4,173 Structural RNAs : 120
EcoGene/SwissProt functional annotation
Keywords of SwissProt entries (if exist) are extracted :
2160 ANNOTATED PROTEINS (52 %) 421 Inner membrane proteins 35 Outer membrane proteins 1704 Globular proteins 760 PARTIALLY ANNOTATED PROTEINS (18 %)
proteins annotated as “Hypothetical proteins” and with other functional annotations
352 Inner membrane proteins 18 Outer membrane proteins 390 Globular proteins 1253 NON ANNOTATED PROTEINS (30 %) 137 proteins don’t have SwissProt entry 1116 proteins don’t contain functional annotation in SwissProt
Outer Membrane proteins (all
b
-Transmembrane proteins) Inner Membrane proteins (all
a
-Transmembrane proteins)
All a TM PROTEOME Signal peptide
HUNTER
All a TM All b TM Globular all a -TM Globular all b -TM all a -TM
Predicting globular, inner and outer membrane proteins in genomes of Gram-negative bacteria with Hunter
Organism Escherichia coli K12
New*
Escherichia coli O157:H7
New
Chlamidia pneumoniae CWL029
New
Salmonella typhimurium LT2
New
Neisseria meningitidis MC58
New
Helicobacter pylori 26695
New
Haemophylus influentiae Rd
New
Thermotoga maritima
New
Pseudomonas aeruginosa
New
Outer membrane
65 (1.6%) 18 78 (1.5%) 10 12 (1.1%) 2 70 (1.6%) 0 34 (1.7%) 6 36 (2.3%) 10 23 (1.3%) 5 18 (1.0%) 11 131 (2.4%) 62
Inner membrane
907 (21.7%) 136 1034 (19.3%) 327 290 (27.6%) 181 1002 (22.5%) 2 372 (18.4%) 176 352 (22.5%) 141 348 (20.4%) 121 370 (20.0%) 203 1292 (23.2%) 616
Globular
3201 (76.7%) 1099 4249 (79.2%) 1564 750 (71.3%) 236 3379 (75.9%) 21 1619 (80.0%) 662 1178 (75.2%) 445 1338 (78.3%) 430 1458 (79.0%) 559 4142 (74.4%) 1867
Total
4173 1253 5361 1901 1052 419 4451 23 2025 844 1566 596 1709 556 1846 773 5565 2545 * the number of new proteins predicted in the class with Hunter, out of the non-annotated region
Welcome to the CIRB Biocomputing Group home page
This is the Biocomputing unit of the
CIRB
Centro Interdipartimentale di Ricerche Biotecnologiche Group Main Research Fields . Group Publications
Technology provider for the DRUG consortium of the NOTSOMAD TTN initiative. BIOCOMPUTING GROUP Group leader : Rita Casadio Group members:
Piero Fariselli
Mario Compiani Pier Luigi Martelli Emidio Capriotti Ivan Rossi Gianluca Tasco
Collaborazioni Italia L.Masotti, Biochemistry, Bologna P.Mariani, Physics, Ancona M.Rossi, IBPE/CNR, Napoli G.Campadelli-Fiume, Pathology, Bologna G.Mita, IIGB/CNR, Napoli S.Prosperi, Veterinary, Bologna G.Irace, Biochemistry, Napoli F.Bernardi, Chemistry, Bologna D.Boraschi, CNR, Pisa S.Ciurli, Agricultural Chemistry, Bologna P.Arrigo, ICE/CNR, Genova C.Bergamini, Biochemistry, Ferrara All’estero B.Rost, Columbia University, New York A.Valencia, Protein Design Group, Cantoblanco, Madrid P.Baldi, Genomics and Bioinformatics, Irvine, California A.Krogh, University of Copenhagen, Copenhagen N.Ben Tal, Israel Insitute of Technology, Tel Aviv
Protein set The cross validation procedure Training set Testing set
Evaluation of the performance Q 2 Q(x)
= ———————— total predictions p+n = —— N correct predictions in class = ———————————— = —— total observations in class
x x
p p+u
P(x) C
correct predictions in class = ———————————— = —— total predictions in class
x x
p p+o p·n - o ·u = Correlation index = ————————————— 1/2
Legend : Observed x
Non-x
Predicted x
p o
Non-x
u n
Evaluation of the efficiency of contact map predictions
1) Accuracy:
A = Ncp *
where
Ncp *
and
Ncp
/ Ncp
are the number of correctly assigned contacts and that of total predicted contacts, respectively.
2) Improvement over a random predictor : R = A / (Nc/Np)
where
Nc/Np
is the accuracy of a random predictor ;
Nc
is the number of real contacts in the protein of length
Lp
, and
Np
are all the possible contacts
3) Difference in the distribution of the inter-residue distances in the 3D structure for predicted pairs compared with all pair distances in the structure (Pazos et al., 1997):
Xd=
S
i=1,n
(P
ic - P ia
) / n d
i
where
n
is the number of bins of the distance distribution (15 equally distributed bins from 4 to 60Å cluster all the possible distances of residue pairs observed in the protein structure);
d i
is the upper limit (normalised to 60 Å) for each bin, e.g. 8 Å for the 4 to 8 Å bin;
P ic
and
P ia
are the percentage of predicted contact pairs (with distance between pairs respectively
d i
and
d i-1 )
and that of all possible
The cross validation procedure
Protein set Testing set 1 Training set 1
PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE
Gli elementi della costruzione della struttura primaria
Amminoacidi Backbone della proteina