Nessun titolo diapositiva

Download Report

Transcript Nessun titolo diapositiva

Le reti neurali e la predizione della struttura proteica

Rita Casadio

Interdepartmental Centre for Biotechnological Research

University of Bologna, Italy

Archea:

L’era “omica”: genomi completi

16 speci/33 in progress

Batteri:

83 speci

Eukarioti: 17 speci (242 chromosomi)

www.ncbi.nlm.nih.gov

Draft del genoma umano

Nature (2/15/01) Human Genome Issue

http://www.ncbi.nlm.nih.gov/genome/guide/human http://www.ensembl.org/

Science (2/16/01) Human Genome Issue

http://public.celera.com/index.cfm

Dalla Sequenza alla Funzione

Genomica funzionale, Proteomica ed Interattomica

> RICIN GLYCOSIDASE MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSG DLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDE SKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYH WPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDE YSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGI KSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITR GNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVS LAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPY YLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNT KRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH Geni Sequenze proteiche Strutture proteiche

Funzione

PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE

Livelli di organizzazione strutturale

Primaria Secondaria Terziaria Quaternaria

PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE

Gli elementi di struttura secondaria

Foglietto

b a

-elica

C

La predizione del Protein Folding

Il processo di folding

La cinetica del Folding: La proteina nativa

Le Banche Dati di Sequenze Biologiche e Strutture

NCBI: 18,197,119 sequenze 22,616,937,182 nucleotidi >BGAL_SULSO BETA-GALACTOSIDASE Sulfolobus solfataricus.

MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSG DLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDE SKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYH WPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDE YSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGI KSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITR GNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVS LAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPY YLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNT KRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH Swiss-Prot: 113,470 sequenze 41,413,223 residui PDB: 17,510 strutture August/2002

Possiamo estrarre dal PDB circa 1500 esempi di catene di cui e’ nota la struttura terziaria al fine di ricavare informazioni non ridondanti per la relazione tra sequenza e: Struttura secondaria Motivi strutturali e funzionali Struttura terziaria (3D)

Il Protein Folding

T T C C P S I V A R S N F N V C R L P G T P E A L C A T Y T G C I I I P G A T C P G D Y A N

Caratteristiche della Predizione Strutturale di Sequenze Proteiche

Ampio insieme di dati per cui la soluzione del problema è nota

E’ difficile (impossibile) formulare una soluzione analitica del problema

Le banche dati vengono aggiornate in modo continuo (grande volume di dati, necessità di operare in tempo reale)

Mapping generale non-lineare funzionale

x 1 x 2

X

………x n

X space

y 1 y 2

Y

………y n

Tools derivati dall’apprendimento automatico:

Reti Neurali

Training

Set dalla banca dati

Predizione

Nuova sequenza Regole Generali Mapping noto Predizione

La finestra di input

Le proprieta’ del residuo

R

dipendono sia dalle interazioni locali (finestra

W

) che da quelle non locali (contesto

C

) Contesto Finestra Residuo

W C R O

a

O non

a Rete Neurale

Input basato sulla Informazione Evolutiva

Multiple Sequence Alignment (MSA) Posizione lungo la sequenza Sequenze allineate Finestra di Input

Percettrone a singolo strato

a

=

d i

S = 0

w i z

=

g

(

a

)

Artificial Neural Networks

Outputs

z

1

x i

Bias

x

0

x

1 Inputs

La Funzione di Errore

z m x d Y i

(

X q

) = Output of the network

D i q

= Expected Value

L’ Algoritmo di Training: il Back Propagation

(gradient descendent: Rumelhart et al. 1986) Correction to the weights

m

=

learning rate h

=

momentum term

Parametri variabili delle Reti Neurali

Il codice di input L’ampiezza della finestra mobileL’architettura: il numero di nodi (neuroni) e gli strati

di neuroni

La velocità di apprendimento

Le Reti Neurali

a Bologna

predicono:

La struttura secondaria delle proteineI siti di iniziazione del protein foldingLa topologia delle proteine di membrana all alpha and all

beta ( ISMB BEST PAPER AWARD 2002 )

La presenza dei peptidi segnaleLo stato di legame delle cisteine e la topologia dei

ponti a zolfo

Le mappe di contatto delle proteine (

BEST PREDICTOR of the CATEGORY at CASP4 )

Le superfici di interazione tra proteine

www.biocomp.unibo.it

Schema generale dei predittori disponibili al nostro sito web

Predittori basati su Reti Neurali

Verso la predizione della struttura 3D:

La predizione delle mappe dei contatti

Predizione dei contatti tra residui

Contatti nelle Proteine F 297 F 156 V 299

I 269

I 240 V 271 V 238

Computation of Contact Maps

From 3D Structure F 297 F 156 V 299

I 269

V 238 I 240 V 271 To Contact Map

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

3-D Modelling through Contact Maps Bacteriorhodopsin 1QHJ (1.9 Å)

N

Model

MARC

Contact map

C

RMSD = 2.5 Å

Tools di Apprendimento Automatico

Le Reti Neurali imparano il mapping dalla sequenza alla mappa dei contatti

Training

Set Banca Dati

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

Predizione

Sequenza Regole generali Mapping noto

Predizione della mappa dei contatti

T0087: 310 residues A=20 % (FR/NF)

C N

T0110: 128 residues A=30% (NF)

N C

Predittori basati su Reti Neurali

Verso la predizione della struttura 3D:

La predizione dei ponti a zolfo

Il Protein Folding

RPDF C LEPPYTGP C KARIIRYFYNAKAGL C QTF VYGG C RAKRNNFKSAED C MRT C GGA

I legami a zolfo tra cisteine nelle proteine

C a

C S S C

C a

2 S H -> SS - + 2H + + 2e S-S distance

2.2 Å Torsion angle C S S -C

90° Bond Energy

3 Kcal/mol

Neural Networks for the Prediction of the disulfide-bonding state of cysteines in proteins Bonding Non bonding 1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYS C TGVAITSSGTKKGEL--FLGDV 2 SAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSCTGVAITSSGTKKGDL--FLADV 3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTCNGVAITSTGTKKGEL--FLADV 4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSCTGVAITASGLKKGEL--FLADV 5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSCTGVAITTTGTNKGSL--FLGDV 6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSCNGVAITAAGTRKNES--IFGEL 7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTCNGPAITATSTKKADL--TVGEI 8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI 9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVTGSL 10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVNGSL 11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSCTGVEFTTSGTSNTDSGKVNGSL 12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTCSGIEFNTAGHSNQESGKVFGSL 13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTCNNVAFKVTGKSTHDK-VTSGAL

W 1 W 2 W 3

MYSFPNSFRFGWSQAGFQ C EMSTPGSEDPNTDWYKWVHDPENMAAGL C SGDLPENGPGYWGNYKTFHDNAQKM C LKIARLNVEWSRIFPNP...

P( B |W 1 ), P( F |W 1 ) P( B |W 2 ), P( F |W 2 ) P( B |W 3 ), P( F |W 3 ) Begi n Cysteine free states Cysteine bonding states End

Most probable path through the states Prediction of the bonding and non-bonding states of all the cysteines of the sequence

Accuratezza Il sistema ibrido per cisteina: 88%; per proteina: 84% 100 90 80 70 60 50 NN-based predictor HNN-based predictor 40 30 20 10 0 1 2 3 4 187 207 106 144 5 71 6 80 7 35 8 55 9 18 10 16 11 4 12 16 13 0 14 7 15 1 16 8 17 2 18 4 19 0 20 0 21 0 22 1 23 1 24 3 25 0 26 0 27 0 28 0 29 0 30 1 31 0 32 0 33 0 34 1 35 1 No of cysteines per protein No of proteins Protein Science, in press

VGDKLIPLKITYDYYVCNNH MDTDTSYERWPALGTYRPLN GRDCVMNNHKLAASDRWECD

V TYRPLNGRDCVMNNHKLAASDRWECDQREPLYTC HMNVVAGLCKLP LYT C M C

QREPLYTCMCNKDLPTKAAG

LGTYRPLNGRD C VMNNHKLAASDRWE LLPLLTHMNVVAGL C KLP C DQREP

PLMNTRPILNLSREEWLLPL LTHMNVVAGLCKLP

Disulfide bonding cysteine Free cysteine

I PREDITTORI POSSONO ESSERE USATI PER SCOPRIRE NUOVE PROTEINE?

Escherichia coli K12, genoma completo

Completed: Oct 13, 1998. Total Bases: 4,639,221 bp

NCBI

(www.ncbi.nlm.nih.gov)

Protein coding genes: 4,289 Structural RNAs: 115

EcoGene/EcoProt

(bmb.med.miami.edu/EcoGene)

Protein coding genes: 4,173 Structural RNAs : 120

EcoGene/SwissProt functional annotation

Keywords of SwissProt entries (if exist) are extracted :

2160 ANNOTATED PROTEINS (52 %) 421 Inner membrane proteins 35 Outer membrane proteins 1704 Globular proteins 760 PARTIALLY ANNOTATED PROTEINS (18 %)

proteins annotated as “Hypothetical proteins” and with other functional annotations

352 Inner membrane proteins 18 Outer membrane proteins 390 Globular proteins 1253 NON ANNOTATED PROTEINS (30 %) 137 proteins don’t have SwissProt entry 1116 proteins don’t contain functional annotation in SwissProt

Outer Membrane proteins (all

b

-Transmembrane proteins) Inner Membrane proteins (all

a

-Transmembrane proteins)

All a TM PROTEOME Signal peptide

HUNTER

All a TM All b TM Globular all a -TM Globular all b -TM all a -TM

Predicting globular, inner and outer membrane proteins in genomes of Gram-negative bacteria with Hunter

Organism Escherichia coli K12

New*

Escherichia coli O157:H7

New

Chlamidia pneumoniae CWL029

New

Salmonella typhimurium LT2

New

Neisseria meningitidis MC58

New

Helicobacter pylori 26695

New

Haemophylus influentiae Rd

New

Thermotoga maritima

New

Pseudomonas aeruginosa

New

Outer membrane

65 (1.6%) 18 78 (1.5%) 10 12 (1.1%) 2 70 (1.6%) 0 34 (1.7%) 6 36 (2.3%) 10 23 (1.3%) 5 18 (1.0%) 11 131 (2.4%) 62

Inner membrane

907 (21.7%) 136 1034 (19.3%) 327 290 (27.6%) 181 1002 (22.5%) 2 372 (18.4%) 176 352 (22.5%) 141 348 (20.4%) 121 370 (20.0%) 203 1292 (23.2%) 616

Globular

3201 (76.7%) 1099 4249 (79.2%) 1564 750 (71.3%) 236 3379 (75.9%) 21 1619 (80.0%) 662 1178 (75.2%) 445 1338 (78.3%) 430 1458 (79.0%) 559 4142 (74.4%) 1867

Total

4173 1253 5361 1901 1052 419 4451 23 2025 844 1566 596 1709 556 1846 773 5565 2545 * the number of new proteins predicted in the class with Hunter, out of the non-annotated region

Welcome to the CIRB Biocomputing Group home page

This is the Biocomputing unit of the

CIRB

Centro Interdipartimentale di Ricerche Biotecnologiche Group Main Research Fields . Group Publications

Technology provider for the DRUG consortium of the NOTSOMAD TTN initiative. BIOCOMPUTING GROUP Group leader : Rita Casadio Group members:

Piero Fariselli

Mario Compiani Pier Luigi Martelli Emidio Capriotti Ivan Rossi Gianluca Tasco

Collaborazioni Italia L.Masotti, Biochemistry, Bologna P.Mariani, Physics, Ancona M.Rossi, IBPE/CNR, Napoli G.Campadelli-Fiume, Pathology, Bologna G.Mita, IIGB/CNR, Napoli S.Prosperi, Veterinary, Bologna G.Irace, Biochemistry, Napoli F.Bernardi, Chemistry, Bologna D.Boraschi, CNR, Pisa S.Ciurli, Agricultural Chemistry, Bologna P.Arrigo, ICE/CNR, Genova C.Bergamini, Biochemistry, Ferrara All’estero B.Rost, Columbia University, New York A.Valencia, Protein Design Group, Cantoblanco, Madrid P.Baldi, Genomics and Bioinformatics, Irvine, California A.Krogh, University of Copenhagen, Copenhagen N.Ben Tal, Israel Insitute of Technology, Tel Aviv

Protein set The cross validation procedure Training set Testing set

Evaluation of the performance Q 2 Q(x)

= ———————— total predictions p+n = —— N correct predictions in class = ———————————— = —— total observations in class

x x

p p+u

P(x) C

correct predictions in class = ———————————— = —— total predictions in class

x x

p p+o p·n - o ·u = Correlation index = ————————————— 1/2

Legend : Observed x

Non-x

Predicted x

p o

Non-x

u n

Evaluation of the efficiency of contact map predictions

1) Accuracy:

A = Ncp *

where

Ncp *

and

Ncp

/ Ncp

are the number of correctly assigned contacts and that of total predicted contacts, respectively.

2) Improvement over a random predictor : R = A / (Nc/Np)

where

Nc/Np

is the accuracy of a random predictor ;

Nc

is the number of real contacts in the protein of length

Lp

, and

Np

are all the possible contacts

3) Difference in the distribution of the inter-residue distances in the 3D structure for predicted pairs compared with all pair distances in the structure (Pazos et al., 1997):

Xd=

S

i=1,n

(P

ic - P ia

) / n d

i

where

n

is the number of bins of the distance distribution (15 equally distributed bins from 4 to 60Å cluster all the possible distances of residue pairs observed in the protein structure);

d i

is the upper limit (normalised to 60 Å) for each bin, e.g. 8 Å for the 4 to 8 Å bin;

P ic

and

P ia

are the percentage of predicted contact pairs (with distance between pairs respectively

d i

and

d i-1 )

and that of all possible

The cross validation procedure

Protein set Testing set 1 Training set 1

PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE

Gli elementi della costruzione della struttura primaria

Amminoacidi Backbone della proteina