Transcript Gene 1

Banche dati e software
per l’identificazione
di interazioni fra geni
Supponiamo di voler studiare le differenze nell’espressione
genica fra due trascrittomi.
Per esempio:
cellule trattate con un composto
esogeno a confronto
con cellule non trattate
Composto
esogeno
un tessuto tumorale
a confronto
con uno sano
realizziamo un esperimento microarray
Cos’è un microarray?
Fasi di un esperimento microarray
• Estrazione mRNA
• Retrotrascrizione e
Marcatura
• Ibridazione
• Scansione
• Analisi dei dati
Output dell’esperimento: lista di geni differenzialmente espressi
Rank
GeneSymbol
Accession Number
(Transcript)
Description
Differential expression
(Up- or Down-regulation)
P-value
1
DUSP1
NM_004417
ref|Homo sapiens dual specificity phosphatase 1
(DUSP1), mRNA
0.7606655
0.0004
2
SRGAP1
BC029919
gb|Homo sapiens SLIT-ROBO Rho GTPase
activating protein 1, mRNA
1.0329521
0.00038
3
HES1
NM_005524
0.7117039
0.00026
4
SMAD3
U68019
-0.4286814
0.00021
5
RHEBL1
NM_144593
-0.5070915
0.00018
7
FZD10
NM_007197
-0.6491815
0.00015
8
RGS16
NM_002928
0.6270794
0.00012
9
GPR56
NM_201525
-0.3310189
0.0001
10
ZNF831
NM_178457
0.3905212
0.008
11
TFPI
NM_001032281
-0.5849317
0.0075
...
...
...
...
...
...
600
BTG1
NM_001731
ref|Homo sapiens B-cell translocation gene 1,
anti-proliferative (BTG1), mRNA
-0.3668739
0.05
ref|Homo sapiens hairy and enhancer of split 1,
(Drosophila) (HES1), mRNA
gb|Homo sapiens mad protein homolog
(hMAD-3) mRNA, complete cds
ref|Homo sapiens Ras homolog enriched in
brain like 1 (RHEBL1), mRNA
ref|Homo sapiens frizzled homolog 10
(Drosophila) (FZD10), mRNA
ref|Homo sapiens regulator of G-protein
signaling 16 (RGS16), mRNA
ref|Homo sapiens G protein-coupled receptor 56
(GPR56), transcript variant 3, mRNA
ref|Homo sapiens zinc finger protein 831
(ZNF831), mRNA
ref|Homo sapiens tissue factor pathway
inhibitor (lipoprotein-associated coagulation
inhibitor) (TFPI), transcript variant 2, mRNA
Obiettivo: ricostruire la rete di interazioni fra geni per comprendere
quale sia l’effetto a livello molecolare del fenomeno biologico
indagato
Esempi di reti di interazione…
Ricostruzione delle interazioni
Rank
GeneSymbol
Accession Number
(Transcript)
Description
Differential expression
(Up- or Down-regulation)
P-value
1
DUSP1
NM_004417
ref|Homo sapiens dual specificity phosphatase 1
(DUSP1), mRNA
0.7606655
0.0004
2
SRGAP1
BC029919
gb|Homo sapiens SLIT-ROBO Rho GTPase
activating protein 1, mRNA
1.0329521
0.00038
3
HES1
NM_005524
0.7117039
0.00026
4
SMAD3
U68019
-0.4286814
0.00021
5
RHEBL1
NM_144593
-0.5070915
0.00018
7
FZD10
NM_007197
-0.6491815
0.00015
8
RGS16
NM_002928
0.6270794
0.00012
9
GPR56
NM_201525
-0.3310189
0.0001
10
ZNF831
NM_178457
0.3905212
0.008
11
TFPI
NM_001032281
-0.5849317
0.0075
...
...
...
...
...
...
600
BTG1
NM_001731
ref|Homo sapiens B-cell translocation gene 1,
anti-proliferative (BTG1), mRNA
-0.3668739
0.05
ref|Homo sapiens hairy and enhancer of split 1,
(Drosophila) (HES1), mRNA
gb|Homo sapiens mad protein homolog
(hMAD-3) mRNA, complete cds
ref|Homo sapiens Ras homolog enriched in
brain like 1 (RHEBL1), mRNA
ref|Homo sapiens frizzled homolog 10
(Drosophila) (FZD10), mRNA
ref|Homo sapiens regulator of G-protein
signaling 16 (RGS16), mRNA
ref|Homo sapiens G protein-coupled receptor 56
(GPR56), transcript variant 3, mRNA
ref|Homo sapiens zinc finger protein 831
(ZNF831), mRNA
ref|Homo sapiens tissue factor pathway
inhibitor (lipoprotein-associated coagulation
inhibitor) (TFPI), transcript variant 2, mRNA
…ma le interazioni?
Vorremmo vedere simultaneamente se e come interagiscono i geni
di interesse
Per sapere qualcosa in più sulle interazioni fra geni:
Banche dati di pathway e ontologie
• Kegg http://www.genome.jp/kegg/
- Kegg GenesInfo sui geni e sui trascritti
- Kegg PathwayInfo sulle reti di trasduzione del segnale
genico (pathway)
• Gene Ontology http://www.geneontology.org/
Informazioni sulla classificazione ontologica dei
geni\prodotti genici
KEGG: Kyoto Encyclopedia of Genes and Genomes
Contenuti:
Rappresentazione dei dati in KEGG
• Entity: una molecola o un gene
- identificata, eccetto che per GENE and ENZYME, con 3
lettere + 5 numeri:
• Binary relation: una relazione fra due entity
• Network: un grafo formato da un set di entity collegate
• Pathway: una rete di co-regolazione; un network o un
insieme di network
Legenda dei simboli
Un esempio di Pathway
KEGG PATHWAY
E’ una collezione di diagrammi o mappe ciascuna corrispondente a
una rete di co-regolazione biologica con significato funzionale.
Ogni pathway è identificato da:
-3 lettere -> specifiche per ciascun organismo
-5 numeri -> identificativi della mappa
Essi possono essere:
- Creati e curati manualmente
- Generati attraverso simulazioni computazionali
Ci sono:
- Pathway di riferimento: generati dall’unione di evidenze sperimentali
tratte da organismi differenti
- Pathway specifici: che raccolgono le informazioni provenienti da un
determinato organismo
-Pathway globali: che collegano più pathway insieme
Sezioni di KEGG Pathway
Pathway metabolici
1.
2.
3.
4.
5.
6.
7.
8.
Global Map
Metabolism
Carbohydrate Energy Lipid Nucleotide Amino
acid Other amino acid Glycan
Cofactor/vitamin Terpenoid/PK Other secondary
metabolite Xenobiotics
Reaction module Chemical structure
Genetic Information Processing
Environmental Information Processing
Cellular Processes
Organismal Systems
Human Diseases
Pathway regolatori
Drug Development
KEGG
ORGANISMS
• Nei pathway metabolici le entity sono quasi
esclusivamente enzimi
• Nei pathway regolatori le entity
rappresentano quasi sempre prodotti genici,
ma troviamo anche composti chimici, DNA e
altre molecole
Pathway di riferimento
Standard view
-generato dall’unione di evidenze sperimentali provenienti da organismi multipli
- individuato dal prefisso map
Pathway di riferimento
KEGG ORTHOLOGY (KO) view
I geni assegnati ad un KO group sono evidenziati
in viola
Pathway di riferimento
Enzyme (EC) view
I geni assegnati ad un KO group sono evidenziati
in viola
Pathway di riferimento
Reaction (RN) view
I geni assegnati ad un KO group sono evidenziati
in viola
Pathway organismo-specifico
generato da informazioni provenienti da un unico organismo o informazioni da KEGG ORTHOLOGY
I geni specifici
dell’organismo
coinvolto nel
pathway sono
colorati in verde
Pathway specifico per più organismi
Pathway organismo-specifico + drug info
I geni coinvolti in malattie
sono evidenziati in rosa
I geni target di farmaci
sono evidenziati in
celeste
KEGG DRUG
Contiene informazioni su:
• Farmaci approvati in Giappone, USA ed Europa che
riguardano la loro struttura chimica
• Target dei farmaci ed enzimi che li metabolizzano
• Storia della trasformazione della struttura chimica delle
molecole rappresentate attraverso mappe
I farmaci sono identificati con la lettera D + 5 numeri
ES: Gleevec D01441
KEGG DRUG
Pathway globali – reference pathway
Pathway globale – Homo sapiens
Pathway globale – Arabidopsis thaliana
Pathway globale
Homo Sapiens + Arabidopsis Thaliana
Disease Pathway Map
Stadi
della
malattia
sono visti come perturbazioni di processi di regime
Vogliamo sapere se ci sono
gruppi di geni differenzialmente
espressi mappati nei pathway e
in quali pathway
Pathway-Express
Pathway-Express : http://vortex.cs.wayne.edu/projects.htm
Impact Analysis: mappatura dei geni differenzialmente espressi nei pathway
molecolari e valutazione della propagazione della perturbazione della trasduzione
del segnale genico provocata dalla variazione di espressione genica
Pathway-Express : http://vortex.cs.wayne.edu/projects.htm
L’Impact Factor è formato da tre contributi:
- Numero di geni differenzialmente espressi mappati in un pathway rispetto al
numero di geni che formano il pathwaylivello di rappresentatività della lista
dei geni DE nel pathway
- Fold-change dei geni differenzialmente espressi mappatientità della
perturbazione del pathway provocata dai geni differenzialmente espressi
- Posizione dei geni differenzialmente espressi all’interno del pathwayun gene
posizionato a monte (p.es. sulla membrana cellulare o su un nodo cui fa capo
una sottorete) di una cascata di segnale è “più importante” di un gene
posizionato a valle
35
GeneOntology
Cos’è un’ontologia?
An ontology is a specification of a conceptualization
that is designed for reuse across multiple applications
and implementations. …a specification of a
conceptualization is a written, formal description of a
set of concepts and relationships in a domain of
interest.
Peter Karp (2000) Bioinformatics 16:269
… un insieme di definizioni
Cos’è un’ontologia genica?
Ontologia genica: un vocabolario di definizioni, indipendente
dall’organismo, da utilizzare per descrivere i geni attraverso i loro
prodotti genici (proteine)
• “trasferimento” delle informazioni
funzionali fra organismi differenti a parità di
complessità del genoma
• “trasferimento” delle informazioni
funzionali da organismi “meno complessi” ad
organismi “più complessi”
• univocità nella descrizione delle
caratteristiche di un gene
Gene Ontology http://www.geneontology.org/
Consorzio
che si occupa della definizione delle ontologie geniche
per la classificazione dei geni attraverso i loro prodotti genici
http://www.geneontology.org/
Che tipo di informazione è rilevante
per descrivere un prodotto genico?
• Che cosa codifica il gene?
Funzione molecolare
• Dove e quando il prodotto agisce? Componente cellulare
• In che cosa è coinvolto?
Processo biologico
Tre ontologie
• Funzione molecolare -> definizioni che riguardano la funzione
biochimica di un prodotto genico
- enzima, lega gli ioni calcio, lega i nucleotidi, etc
• Processo biologico -> definizioni che riguardano il processo di coregolazione all’interno del quale il prodotto genico può essere
inserito
- metabolismo di una molecola, glicolisi, ciclo della cellula, apoptosi
• Componente cellulare -> definizioni che riguardano il “luogo” della
cellula nel quale un determinato prodotto genico può agire
- membrana cellulare, reticolo endoplasmatico
Componente cellulare
• Dove agisce un prodotto
Componente cellulare
Componente cellulare
Funzione molecolare
• Attività o compito del prodotto genico
glucose-6-phosphate isomerase activity
Funzione molecolare
24th Feb 2006 Jane Lomax
insulin binding
insulin receptor activity
Processo biologico
-una serie di eventi a cui prende parte il prodotto
cell division
Processo biologico
transcription
Processo biologico
regulation of gluconeogenesis
Processo biologico
limb development
GO evidence codes
I geni sono associati a
categorie sulla base di
evidenze di diverso tipo
Statistiche di GeneOntology
Com’è organizzata un’ontologia?
Ontologie
Ogni ontologia è
strutturata in un Grafo
Aciclico Diretto (DAG)
Ogni livello del grafo
costituisce una
categoria ontologica o
GO term
 A ciascun GO term è
associata una
definizione univoca
Categorie ontologiche
Struttura di un’ontologia
• I GO term sono legati per mezzo di due tipi di
relazioni:
– is-a

– part-of 
Struttura di un’ontologia
cell
is-a
part-of
membrane
chloroplast
mitochondrial
membrane
chloroplast
membrane
Struttura di un’ontologia
• Ogni ontologia non è una
lista di termini biologici, ma
è strutturata in livelli
gerarchici
Struttura di un’ontologia
Lo stesso gene può essere annotato in più di un GO term
gene
A
Struttura di un’ontologia
I geni possono essere raggruppati sulla base di livelli
gerarchici e percorsi definiti dall’utente
sono ammesse le parentele multiple
cell
Directed Acyclic Graph
(DAG) - multiple
parentage allowed
membrane
chloroplast
mitochondrial
membrane
chloroplast
membrane
Come funziona GeneOntology?
• GO è organismo indipendente
- Alcuni termini, soprattutto quelli ai più bassi
livelli di gerarchia e di dettaglio, possono
essere specifici per certi organismi
- photosynthesis
– Quando però essi vengono collassati insieme ai livelli
con più alto ordine gerarchico la dipendenza
dall’organismo scompare
Anatomia di un GO term
id: GO:0006094
name: gluconeogenesis
namespace: process
def: The formation of glucose from
noncarbohydrate precursors, such as
pyruvate, amino acids and glycerol.
[http://cancerweb.ncl.ac.uk/omd/index.html]
exact_synonym: glucose biosynthesis
xref_analog: MetaCyc:GLUCONEO-PWY
is_a: GO:0006006
is_a: GO:0006092
unique GO ID
term name
ontology
definition
synonym
database ref
parentage
GO tools
• GO mette a disposizione strumenti per fare
ricerca ottimizzata nella banca dati
• Altri gruppi hanno creato strumenti con differenti
propositi:
http://neurolex.org/wiki/Category:Resource:Gene_Ontology_Tools
Analisi tradizionale
Gene 1
Apoptosis
Cell-cell signaling
Protein phosphorylation
Mitosis
…
Gene 3
Growth control
Gene 4
Mitosis
Nervous system
Oncogenesis
Pregnancy
Protein phosphorylation
Oncogenesis
…
Mitosis
…
Gene 2
Growth control
Mitosis
Oncogenesis
Protein phosphorylation
…
Gene 100
Positive ctrl. of cell prolif
Mitosis
Oncogenesis
Glucose transport
…
Analisi tradizionale
• Ricerca gene by gene
• Richiede di fare una ricerca in letteratura
• time-consuming
Se utilizziamo le annotazioni
fornite da GO…
…il lavoro è già fatto!
GO:0006915 : apoptosis
Raggruppamento per processo
Mitosis
Gene 2
Gene 5
Gene45
Gene 7
Gene 35
…
Apoptosis
Gene 1
Gene 53
Positive ctrl. of
cell prolif.
Gene 7
Gene 3
Gene 12
…
Glucose transport
Gene 7
Gene 3
Gene 6
…
Growth
Gene 5
Gene 2
Gene 6
…
Come facciamo ad ottenerlo automaticamente e….
….Esiste un modo per associare una significatività
statistica a questi raggruppamenti di geni?
Over-representation analysis:
- Esistono gruppi di geni differenzialmente espressi
rappresentati in maniera “sproporzionata” in qualche GO
term?
- Questa rappresentatività “sproporzionata” è
statisticamente significativa rispetto al
totale dei geni che vengono annotati in quel GO term?
68
Quanto è probabile che gruppi di geni
differenzialmente espressi vengano catalogati
in un GO term “by chance”?
80
70
60
50
40
30
20
10
0
mitosis
microarray
1000 genes
experiment
100 genes
differentially
regualted
apoptosis
positive control of glucose transport
cell proliferation
mitosis – 80/100
apoptosis – 40/100
p. ctrl. cell prol. – 30/100
glucose transp. – 20/100
Se osserviamo il numero di geni distribuiti
sull’array e appartenenti alle stesse categorie,
possiamo calcolare la probabilità che ci
interessa:
Process
mitosis
apoptosis
p. ctrl. cell prol.
glucose transp.
Genes on array
800/1000
400/1000
100/1000
50/1000
# genes expected in
100 random genes
80
40
10
5
Onto-Express
occurred
80
40
30
20
Onto-Express: http://vortex.cs.wayne.edu/projects.htm
GO term significativi nell’ontologia Molecular Function
Onto-Express: http://vortex.cs.wayne.edu/projects.htm
Espansione delle ontologie e visualizzazione annidata dei GO term
OntoExpress: http://vortex.cs.wayne.edu/projects.htm
Cellular Component
Molecular
Function
Biological
Process
73
Interpretazione biologica di una lista di geni:
data/text mining
Sfruttare
-le reti di interazioni (gene network) fra bio-entità costruite utilizzando
dati di letteratura o info da banche dati eterogenee
per comprendere quale sia l’effetto a livello molecolare del fenomeno
biologico indagato
- Co-occorrenza di bio-entità (geni, proteine, parole chiave, etc) in testi
- Individuazione di connessioni fra bio-entità riportate in database di
interazioni biologiche (pathway, interazioni fra proteine, interazioni chimiche
o fisiche, co-espressione in esperimenti di espressione genica, etc.)
Text mining: Individuazione della co-occorrenza di parole
in un testo
Ricorrenza in un testo di coppie di elementi bio-entità:
• coppie di nomi di geni
• coppia gene/parola chiave
“X binds Y”, “X phosphorylates Y”, “X is involved in Y process”, “X is a marker
for Y disease”, …
Text mining: Individuazione della co-occorrenza in un testo
Ricorrenza in un testo di coppie di elementi linguistici (bioentità):
• coppie di nomi di geni
• coppia gene/parola chiave
… ma come si fa?
1S) Individuazione nel testo di informazioni (contenute in titolo, testo e abstract) e
metainformazioni (affiliazione, giornale, etc)data retrieving and selection
2S) Analisi grammaticale del testo per individuare i diversi tipi di parole: sostantivi,
aggettivi, verbi e nomi propri parsing
3S) Conteggio del il numero di volte in cui ogni parola appare nei testiinformation
extraction e indexing
4S) Assegnazione di un punteggio ad ogni testo sulla base della co-occorrenza delle
parole cercate (X e Y ) quanto più è alta in un testo tanto più quel testo è attinente alla
co-occorrenza considerata e attesta la relazione fra X e Yscoring
5S) Rappresentazione grafica della connessione tramite una rete
Text mining: Individuazione della co-occorrenza in un testo
Alcuni algoritmi sono capaci di:
-rilevare sulla base di un vocabolario il tipo di
interconnessione fra le bio-entità considerate
“X binds Y”, “X phosphorylates Y”, “X is involved in Y process”, “X is a marker for
Y disease”, …
- dare un peso alla co-occorrenza a seconda della distanza
che separa le bio-entità espressa in numero di parole
- rilevare connessioni indirette:
X è connesso a Y, Y è connesso a Z X è connesso a Z
ciò può influire sulla valutazione dell’attinenza del
documento alla connessione fra le bio-entità
Cosa si può fare con il Data mining?
Costruire reti di “interazioni eterogenee”
Banche dati utili:
- MIPS: Munich Information center for Protein Interaction
- BIND: Biomolecular Interaction Network Databases
- HPRD: Human Protein Reference Database
- IntAct: InterAction
- Reactome
- STRING:Search Tool for the Retrieval of Interacting Genes/Proteins
-…
Letteratura
Scientifica
Integrazione di informazioni eterogenee
Esistono gruppi di geni della mia
lista che sono coinvolti in malattie?
Disease Ontology, GeneRIF e FunDO
Disease Ontology
- Definizioni univoche e standardizzate di malattie
- Integra MeSH di NCBI
Esempi da DO
Disease Ontology
GeneRIF Database
MetaMapTransfer
FunDO
Software basato sul
text-mining che
associa geni da
GeneRIF e malattie da
Disease Ontology
FunDO – Functional Disease Ontology
FunDO – Functional Disease Ontology
314 geni differenzialmente espressi
In quali malattie sono coinvolti?
GNCPro – Gene Network Central PRO
GNCPro – Gene Network Central PRO
Sottomissione di 4 geni
GNCPro aggiunge 5
geni “vicini” a quelli
sottomessi per fornire
nuove vie di
connessione fra i geni
COREMINE
• Motore di ricerca biomedico
• Fornisce set di informazioni ordinate per
attinenza con l’oggetto della query
• Consente di salvare le ricerche effettuate e di
creare gruppi di discussione su temi di ricerca
COREMINE
• Input data da 13 differenti categorie
• Database messi in relazione per creare l’output
COREMINE
• Altre sorgenti consultabili per arricchire l’output
COREMINE
…take-home message
• Ogni banca dati fornisce un “pezzo” di informazione
• Ogni strumento di navigazione fornisce una peculiare “view”
delle informazioni
• Non esiste UNA banca dati omnicomprensiva
• Non esiste UNO strumento capace di collezionare tutte le
informazioni frazionate nelle banche dati
• L’uso di più strumenti consente di collezionare i diversi “pezzi” di
informazione
• La costruzione del “puzzle” è compito di chi interpreta i dati
Esercitazione
http://131.114.94.135/lezioni/ADO_tecnici
• Cercare i seguenti GO term:
0030182
0051402
• Per ciascuno di essi:
- fare l’anatomia dell’ontologia evidenziando i GO term sulla
base degli “is-a” o “part-of”
- indicare quanti sono i prodotti genici associati a ciascun GO
term a seconda dei termini di cui sono “is-a” o “part-of”
- scaricare e salvare la tree view e la graph view ed indicare chi
sono i GO term “padri” dei GO term considerati
- indicare quali GO term dell’albero visualizzato sono “is-a” o
“part-of”