MeV-GEO-Microarrays
Download
Report
Transcript MeV-GEO-Microarrays
Bioinformatics – Functional Genomics – Dr. Víctor Treviño
MICROARRAYS EXCERSIZE - GEO
[email protected]
DESCARGUE
MeV del sitio de TM4 (www.tm4.org)
[email protected]
DATOS DE GEO (GENE EXPRESSION OMNIBUS,
NCBI)
GEO es una base de datos
genérica en formato
“standard” para almacenar y
compartir datos de
microarreglos
Como ejemplo vamos a
buscar datos de Cáncer de
Mama
Busque “Breast Cancer” en
GEO
Filtre para “Homo Sapiens”
Seleccione Series
Agregue “Schmidt” en el
query (deben aparecer 3)
Localice Schmidt-GehrmannBreast-GSE11121
[email protected]
TIPOS DE DATOS EN GEO
ARCHIVO/I
D
CONTENIDO
GSM…
Muestra
GPL…
Plataforma: Información del
diseño del microarreglo
GSE…
Matriz de datos, Serie
Original proporcionada por
autores
GDS…
Data Set : Procesado por el
NCBI, análisis básico ya
hecho
Otros
Información adicional
proporcionada por autores
Algo de
ayuda
del archivo
Descargue el Series Matrix File
[email protected]
CONOCIENDO EL ARCIVO GSE
Descomprima el
GSE11121...gz
Abra en Excel el archivo
GSE11121_series_matrix.tx
t (texto, delimitado)
Comentatios con (!)
Serie
Samples
Datos normalizados por
arreglo
Datos NO Normalizados
entre arreglos
Cada columna es una
muestra (GSM…)
Cada renglón es un gen
[email protected]
USO DE MEV
Abra MeV
Use FileLoad Data
MeV puede leer archivos de
diferentes formatos
El nuestro es de tipo
Affymetrix pero obtenido
desde GEO
Use Select File Loader GEO
Files
Use “Spotted” para que no
cambie los datos.
MeV manual …
“In addition to being
formatted correctly, the input
data should already be
normalized.”
[email protected]
VISUALIZANDO DATOS EN MEV
Muestras en horizontal
Genes en Vertical
Color en la Intersección
es el valor de intensidad
Cambio de colores
(Scheme)
Y escalas (Scale)
Use valores cercanos al
Lower, MidPoint y Upper
[email protected]
NORMALIZACIÓN CON MEV
Siempre vea “Expression
Image”
Realice la operación Log2
(si los datos no son ya
logaritmicos)
Adjust Log Trans.. Log2
Ahora nos falta normalizar
entre arreglos usamos…
Adjust Sample
Normalize Samples
Esto “Estandariza” los datos
vij = (vij – mean(vi)) / sd(vi)
Donde “i” es la muestra y “j”
es el gen
[email protected]
CAMBIE LIMITES
Ajuste la visualización
para que muestre
Verde = Valores de
expresión “BAJOS”
Negro = Valores de
expresión “Medios”
Rojo = Valores de
Expresión “ALTOS”
Límites “Prácticos”
menores que los
extremos
Considere los valores de
sus datos (encerrados en
óvalos)
Mínimo -4.31
“Distribución”
De los datos
0.05
50% datos (mediana)
+4.21 (máximo)
[email protected]
AGRUPANDO MUESTRAS
Dado que leímos un GEO, las
muestras no aparecen
agrupadas en MeV, tenemos
que indicar cuales son
nuestros grupos de muestras
para poder hacer operaciones
estadísticas
Para agrupar muestras…
Use Cluster Manager Sample
Clusters
Use el botón Cluster by List
Import
En el texto puede pegar las
muestras que desee agrupar
Tiene que pegarlas
EXACTAMENTE como aparecen
en MeV (incluso comillas si estas
aparecen)
[email protected]
AGRUPANDO MUESTRAS
Para hacer los grupos requiere de
información clínica o relacionada a
las muestras del experimento
1.
2.
3.
Por ejemplo, puede guiarse del mismo
archivo GSE… data matrix.txt y de los
renglones “samples characteristics”
Copiar y pegar especial
(transposed) muestras e
información clínica y los nombres
Ordenar por carácterística (grade)
Agregar Comillas (usando la
función concatenate)
1.
4.
5.
1
2
3
=CONCATENATE("""",B2,"""")
Tomar los nombres de las
muestras y ponerlos en el “Cluster
Paste List” de Mev”, Use OK
Use Store Cluster y especifique el
Nombre (Label) y Color del grupo
4
5
[email protected]
GENES DIFERENCIALMENTE EXPRESADOS :
T-TEST
Statistics->T-test
Between Subjetcs
Variance Asumption
Para comparar un grupo vs
otro
Usar Unequal variance
Para que sea mas “general”
P-Value Parameters
0.05 cuando se hace 1
prueba, saldrán 5% de falsos
Vamos a hacer + 20,000
pruebas t, tenemos que fijar
el valor crítico mucho mas
abajo
Usar 0.00005 = (1/20000) o
incluso menor
[email protected]
VISUALIZACION DE GENES SIGNIFICATIVOS
Use t-Test Expression Image
Significant Genes
Información General
Se ve clara la diferencia?
No están muy bien
“ordenados” verdad?
[email protected]
VISUALIZACION DE GENES SIGNIFICATIVOS –
AGRUPAMIENTO JERÁRQUICO
Establezca los genes
significativos como la
“fuente de datos activa”
usando botón derecho y
Set as Data Source
(debe enmarcarse en
verde indicando la
activación)
Use ClusteringHierarchical
Active las 2 casillas de “Tree Selection” :
Gene Tree y Sample Tree
Use Euclidean Distance
Use “Average Linkage”
(vea siguiente diapositiva para explicación)
[email protected]
QUE ES AGRUPAMIENTO O CLUSTERING ?
Clustering son métodos de
agrupar objetos mediante la
similitud de sus propiedades
Por ejemplo puedo agrupar autos
en base a su color, forma, tamaño,
desempeño o potencia
También los puedo agrupar
considerando todas las
carácterísticas al mismo tiempo
Para agrupar objetos por
similitud, requerimos una función
de “similitud” o en su caso, una
función de distancia
Cual es la distancia entre
los puntos A y B ?
B
+3
A
+1
+3
-2
Una medida de distancia tipica es
la distancia euclideana
( x1 x 2 ) ( y1 y 2 )
2
2
[email protected]
COMO SE FORMAN LOS GRUPOS (CLUSTERS) ?
Como podrías agrupar
los objetos del A a la G
?
Que grupos se forman?
Claramente A+B+C vs
F+G+E
Donde ponemos a D ?
Junto A+B+C o junto
F+G+E ?
Observa el cluster ABC, A
y B están muy juntos,
deberíamos separar a C
?
D
A B
+3
C
E
F
+1
G
+3
-2
( x1 x 2 ) ( y1 y 2 )
2
2
[email protected]
AGRUPAMIENTO JERÁRQUICO O HIERARCHICAL
CLUSTERING
D
El método de agrupamiento
jerárquico considera y resuelve
las cuestiones observadas
Se basa en calcular una matriz de
distancias
Luego agrupa todos los pares de
muestras más cercanas (cuya
distancia sea mínima)
C
E
+1
F
G
+3
-2
( x1 x 2 ) ( y1 y 2 )
2
2
Por ejemplo AB, luego FG
Luego va uniendo las sobrantes
dependiendo de la distancia y el
método de ligamiento (linkage)
A B
+3
Más cercano (single linkage)
Más lejano (complete linkage)
Promedio (average linkage)
Mas usado en genómica funcional
E se uniría a FG luego C a AB
Luego D a EFG y luego DEFG a ABC
F
G E
D
C
A
B
[email protected]
AGRUPAMIENTO JERÁRQUICO O HIERARCHICAL
CLUSTERING
Matriz de Distancias
Datos
A
B
C
D
E
F
G
X
2.5
3
3.5
0
-1.5
-2
-1.5
Y
3
3
2
4
1.5
1
0.75
A
B
C
D
E
F
G
B
0.50
1.41
2.69
4.27
4.92
4.59
C
1.12
3.16
4.74
5.39
5.03
D
E
F
Promedio = 1.265
4.03 Promedio = 3.3
5.02 2.92
5.59 3.61 0.71
5.15 3.58 0.75 0.56
[email protected]
MUCHOS GENES Y MUESTRAS - DISTANCIA EN
HYPERPLANOS
En nuestro caso un objeto (A o
B) podría ser la muestra o el
gen.
Si el objeto es la muestra,
tenemos 1223 genes dif. Exp.,
¿como calculamos la distancia
euclideana?
(x
ij
xkj )
2
Donde Xij es la expresión del
gen j en la muestra i o k
Luego se obtiene la matriz de
distancias y luego el árbol
jerárquico
En 2 dimensiones, cual es la
distancia entre los puntos A y B ?
( x1 x 2 ) ( y1 y 2 )
2
+3
A
B
+1
-2
+3
2
[email protected]
VER ÁRBOL DE AGRUPAMIENTO JERÁRQUICO
(HIERARCHICAL CLUSTERING)
Seleccione HCL(2)
HCL Tree
Grupo mayoritariamente
Grado 3
Grado 1
Grado 3
Grado 2
Clustering por Muestras
Grupo mayoritariamente
Grado 1
Clustering Por Genes
[email protected]
HIERARCHICAL CLUSTERING- GENES DIF.
EXPRESADOS
Grupo mayoritariamente
Grado 3
Grado 1
Grado 3
Grado 2
Grupo mayoritariamente
Grado 1
Genes expresados “BAJO” en Grupo 3 y “ALTO” en Grupo 1
[email protected]
HIERARCHICAL CLUSTERING- GENES DIF.
EXPRESADOS
Grupo mayoritariamente
Grado 3
Grado 1
Grado 3
Grado 2
Grupo mayoritariamente
Grado 1
Genes expresados “ALTO” en Grupo 3 y “BAJO” en Grupo 1
[email protected]
HIERARCHICAL CLUSTERING- GENES DIF.
EXPRESADOS
Grupo mayoritariamente
Grado 3
Grado 1
Grado 3
Grado 2
Grupo mayoritariamente
Grado 1
Genes con poca diferencia podrían ser “falsos”