Fichero de datos

Download Report

Transcript Fichero de datos

ARLEQUIN
URL = http://cmpg.unibe.ch/software/arlequin3/
estimas intra- e inter-poblacionales de variabilidad:
Gene diversity
Mean number of pairwise differences---Nucleotide diversity
Theta (2M: M = 2N en diploides) –Hom, S, k, π (homocigosidad,
sitios polimórficos, número de alelos, mean number of pairwise differences)
Mismatch distribution
Frecuencias haplotípicas
H-W equilibrium
Test de neutralidad
Ligamiento
Estructura poblacional (AMOVA)
Population pairwise distances (FST)
Exact test
Mantel test
Fichero de datos: datos27_alu.xls
Hoja Original: datos crudos
1) Se prepara una hoja EXCEL:
1ª columna: nombre del HT
Siguientes columnas: poblaciones
1ª Fila: abreviaturas de las poblaciones (importan las mayúsculas)
2ª Fila: sample size
3ª y siguientes: HT ó HG ó Alelos
Hoja Datos:
Fila 2: 27 poblaciones
Fila 5: “simple size” = tamaño muestral
Columna B: HT = haplotye
Columna A: HG = haplogroup
Columna D: nombre del HT y del HG
Columna C: suma de las filas, usada para eliminar las filas de HT no
presentes en las poblaciones elegidas
FICHERO DE DATOS- excel
Crear una matriz con las frecuencias absolutas de cada HG
- Linea 149: Tabla para estimar las frecuencias absolutas de los HG--complétela
- Comprobamos que todo es correcto. Para ello creamos las filas 173 (suma
de los valores de cada HG) y 174 (diferencia entre éstos y los tamaños
muestrales)
- Si todo está correcto, transformamos las fórmulas en valores. Para ello:
Copiamos las filas de la 149 a la 172 y las insertamos en la fila 176: Botón
derecho—pegado especial—valores—aceptar.
- Comprobar que no ha habido errores creando una matriz en la línea 226
que sea la diferencia entre los valores que acabas de pegar y los que están
en la matriz verde.
FICHERO DE DATOS de texto .arp
Se prepara el archivo en el word, pero salvándolo
como texto y la extensión .arp
NOTA: en el nombre nbo deben haber espacios.
SECCIONES-APARTADOS
Hay apartados obligatorios y apartados optativos
[Profile]
Title=“
“
NbSamples = #
nº del 1 al 1000
DataType = DNA
frequency, RFLP, Standard, Microsat
GenotypicData = 0
0 = haplotypic
1 = genotypic data
FICHERO DE DATOS de texto .arp
SECCIONES-APARTADOS
OPCIONALES
LocusSeparator = WHITESPACE
TAB, NONE,cualquiera excepto # y missing data
GameticPhase = 1
0 = desconocida, 1 = conocida
RecessiveData = 0
0 = codominante, 1 = recesivo
MissingData = ‘?’
cualquiera entre únicas ó dobles comillas
Frequency = ABS
ABS (absolutos) ó REL (relativos = frecuencias)
CompDistMatrix = 0
0=usa la especificada (Dist), 1= la computa (HT)
FrequencyThreshold =1e-5
nº de digitos para freq de HT (0.01 a 1e-7)
EpsilonValue =1e-7
criterio de convergencia para los algoritmos EM
(frecHT y desequilibrio)
FICHERO DE DATOS de texto .arp
SECCIONES-APARTADOS
[Data]
[[HaplotypeDefinition]]
HaplListName = “nombre”
HaplList = {
H1
ATCG
H2
ATCA
}
También podemos escribirlo:
[[HaplotypeDefinition]]
HaplListName = “nombre”
HaplList = EXTERN “hapl_file.hap”
FICHERO DE DATOS de texto .arp
SECCIONES-APARTADOS
[Data]
[[DistanceMatrix]]
MatrixName = “nombre”
MatrixSize =#
nº líneas = nº OTUs, sec.,...
MatrixData = {
H1 H2 H3
identificadores OTUs, sec.,...
0.00000
2.00000 0.00000
3.00000 2.00000 0.0000
}
También podemos escribirlo:
[[DistanceMatrix]]
MatrixName = “nombre”
MatrixSize =#
MatrixData = EXTERN “mat_file.hap”
FICHERO DE DATOS de texto .arp
SECCIONES-APARTADOS
[Data]
[[Samples]]
SampleName = “nombre”
SampleSize = #
nº entero = tamaño muestral
SampleData = {
H1
1
tb se puede poner la definición del HT aquí
H2
5
si usanmos FREQUENCY, sólo ID y #
}
se repite tantas veces como muestras tengamos.
Si se trata de genotipos:
SampleData = {
H1
H2
}
1
5
ATTCGCGATTCG
ATTCGCAATTCA
001100
100100
FICHERO DE DATOS de texto .arp
SECCIONES-APARTADOS
[Data]
[[Structure]]
StructureName = “nombre”
NbGroups = #
nº entero = tamaño muestral
IndividualLevel = 0
1 si tenemos datos genotípicos
Group = {
population
population
}
se repite tantas veces como muestras tengamos.
Recordatorio: # indica que no se lee esa
línea, pero nunca puede ir entre dos {}
FICHERO DE DATOS de texto .arp
SECCIONES-APARTADOS
[Data]
[[Mantel]]
MatrixSize = #
MatrixNumber = 2
si ponemos 3, tenemos que definir 2
DistMatMantel, para que correlacione Y con estas dos X
YMatrix =
“fst”, “log_fst”,slatkinlinearfst”, “log_slatkinlinearfst”,
“nm” “custom”
es decir, matriz de distancias genéticas
YMatrixLabels = {
“population” “population”...
}
DistMatMantel = {
0.00
3.20 0.00
0.00 0.76 0.00
}
UsedYMatrixLabels = {
“population” “population”... si queremos definir un subgrupo
}
FICHERO DE DATOS de texto .arp
[Profile]
Title="AMOVA,
27 poblaciones, HG"
Title=""
NbSamples=27
NbSamples=
DataType=FREQUENCY
DataType=
GenotypicData=0
GenotypicData=
Frequency=ABS
Frequency=
[Data]
[[Samples]]
SampleName="GAL"
SampleName=""
SampleSize=191
SampleSize=#
SampleData= {
HG01 39
HG02 74.
74
}
[[Structure]]
StructureName="regiones"
NbGroups=5
IndividualLevel=0
Group={
"GAL"
""
"AST"
""
}
Uso del ARLEQUIN
Open Project---Buscar el archivo ---ABRIR
Uso del ARLEQUIN
Nos da la información del proyecto y vamos a la pestaña SETTINGS
Uso del ARLEQUIN
Aspecto de la pestaña SETTINGS
Uso del ARLEQUIN
Marcamos AMOVA y luego, Standard AMOVA
Uso del ARLEQUIN
POPULATION COMPARISONS
Compute pairwise FST ---- Slatkin’s distance
Como no le dimos datos moleculares: Use conventional F-statistics (haplotype
frequencies only)
Uso del ARLEQUIN
POPULATON DIFFERENTIATION --- Exact test of population differentiation
Uso del ARLEQUIN
MOLECULAR DIVERSITY INDICES --- Standard diversity indices
Uso del ARLEQUIN
START
Uso del ARLEQUIN
Computations are over
File---close projec --- cerrar
FICHERO DE SALIDA
Crea una carpeta con el nombre de tu archivo y introduce 5
ficheros:
amovaHG27_sB.htm
amovaHG27_sB.js
amovaHG27_sB_main.htm
amovaHG27_sB_tree.htm
Arlequin_log.txt (avance del proceso)
Y otro externo con los datos usados:
randseed.txt
Usamos amovaHG27_sB.htm
que lo salvamos como .txt
FICHERO DE SALIDA
-errores y el día y fecha de la corrida
- Información acerca del proyecto y varias secciones
ANALYSES AT THE INTRA-POPULATION LEVEL:
======================================================== ==
Sample : GAL
===========================================================
Standard diversity indices :
No. of gene copies: 191
No. haplotypes : 19
No. of loci : 0
No. of usable loci : 0
loci with less than 5.00 % missing data
No. of polymorphic loci : 0
Haplotype-level computations
Sum of square freqs. : 0.2073
Gene diversity : 0.7969 +/- 0.0228 (Standard deviation is for the sampling process)
================================ ==
Molecular diversity indices : (GAL)
================================
FICHERO DE SALIDA
-errores y el día y fecha de la corrida
- Información acerca del proyecto y varias secciones
ANALYSES AT THE INTRA-POPULATION LEVEL:
================================ ==
Molecular diversity indices : (GAL)
================================
Sample size : 191.0000
No. of haplotypes : 19
Allowed level of missing data : 5.0000
% Number of polymorphic loci : 0
Number of usable loci : 0
Theta(Hom) : 3.104775 º
S.D. Theta(Hom) : 0.471907
Theta(k) : 5.056943
95 % confidence interval limits for theta(k) : [ 3.033856, 8.158112 ]
Unable to compute theta(S) for standard data type Unable to compute theta(Pi) for
standard data type
Al no haberla datos moleculares, este apartado no tiene mucho sentido
FICHERO DE SALIDA
=================================================== ==
GENETIC STRUCTURE ANALYSIS
AMOVA
======================================================
FICHERO DE SALIDA
=================================================== ==
Comparisons of pairs of population samples
======================================================
List of labels for population samples
Population pairwise FSTs
FST P values
Matrix of significant Fst P values Significance Level=0.0500
Matrix of Slatkin linearized FSTs as t/M=FST/(1-FST) (M=N for
haploid data, M=2N for diploid data)
Matrix of M values (M=Nm for haploid data, M=2Nm for diploid data)
Exact Test of Sample Differentiation Based on Haplotype
Frequencies :
List of labels for population samples
Global test of differentiation among sample
Non-differentiation exact P values
Podemos paras los datos (FST y exact test) a un excel
para poder mover filas y columnas
OTRAS POSIBILIDADES
Datos moleculares
No solo podemos usar los HT ó HG de un marcador haploide. Podemos hacer
uso de más información.
Por ejemplo: si usamos los HT para comparar las poblaciones podríamos usar
la divergencia (medida, por ejemplo, por el número de diferencias) molecular
entre ellos, para ponderar las diferencias.
Esta información se la podemos dar de dos maneras:
A) Suministrándole los haplotipos como datos binarios (cada RFLP ó cada SNP
ó cada base, sería una posición)
Ahora, dentro de la sección DATA hemos incluido el apartado:
[[HaplotypeDefinition]]
HaplListName="56 human mtDNA RFLPs"
HaplList= EXTERN "56hapdef1.txt"
Que nos indica las diferencias moleculares entre los distintos HT
FICHERO DE DATOS de texto .arp
SECCIONES-APARTADOS
[Data]
[[HaplotypeDefinition]]
HaplListName = “nombre”
HaplList = {
H1
ATCG
H2
ATCA
}
También podemos escribirlo:
[[HaplotypeDefinition]]
HaplListName = “nombre”
HaplList = EXTERN “hapl_file.hap”
Ahora existe la posibilidad de calcular los FST basados
sólo en las frecuencias o pedirle que nos “compute
distance matriz” usando “pairwise differences”
También le podemos pedir:
- que nos imprima la matriz de distancia entre los HT
- los índices moleculares de diversidad: Theta
RESULTADOS:
El nº de loci: posiciones que le hemos puesto
Mean number of pairwise differences, equivalente a pi y te da
las diferentes Theta, basadas en Homocigosis, nº alelos, nº
sitios polimórficos y pi
B) También podemos darle directamente la matriz de
diferencias entre los HT, incluyendo en DATA el
apartado:
[[DistanceMatrix]]
MatrixName="A matrix of genetic
distance between 56 haplotypes"
MatrixSize= 56
#LabelPosition=LINE
MatrixData=EXTERN "amovadis.dis“
Para ello vamos a usar el programa HAPLOSITE
http://www.haplosite.com/haplosearch
HAPLOSEARCH
http://www.haplosite.com/haplosearch
Tenemos que crear un archivo con el siguiente formato:
START: 090
>CRS
TATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATAA
ATACTTGACCACCTGTAGTACATAAAAACCCAATCCACATCAAAACCC
CCTCCCCATGCTTACAAGCAAGTACAGCAATCAACCCTCAACTATCAC
ACATCAACTGCAACTCCAAAGCCACCCCTCACCCACTAGGATACCAA
CAAACCTACCCACCCTTAACAGTACATAGTACATAAAGCCATTTACCGT
ACATAGCACATTACAGTCAAATCCCTTCTCGTCCC
>SEQ5
093
>SEQ6
094
HAPLOSEARCH
Esto lo hacemos a partir del excel:
A) Nosotros hemos analizado entre las posiciones 65 y 365, por lo que en
la primera línea tenemos que poner START: 065
B) Ahora preparamos la sec. del CRS, para ello abrimos el archivo
RE_rCRS.txt y seleccionamos de la posición 16065 a la 16365.
Cuando ya lo tenemos sin espacios, sin marcas de párrafo y en
mayúsculas, lo añadimos a la segunda fila como
>CRS^pSecuencia en mayúsculas^p
C) Ahora en las restantes filas escribimos >H#^p”motivo HT”^p.
- Para ello creamos el excel, lo copiamos y convertimos la tabla en texto:
sustituimos ^p por ^p>
- reemplazamos 2 espacios por uno (tantas veces como necesario)
- reemplazamos ^t por ^p
- revisamos que no queden espacios al final de las posiciones de los HT,
reemplazamos espacio^p por ^p
- lo salvamos como .txt (texto sin formato)
HAPLOSEARCH
D) lo corremos en el programa http://www.haplosite.com/haplosearch
Procesar, examinar, get sequence, populations genetics, procesar.
- Esperar---abrir con WORDPAD, aceptar, Guardar como
“sec_amova27_rosi.txt”
E) preparar la matriz para el arlequín, cuyo formato es::
[Data]
[[HaplotypeDefinition]]
HaplListName="U3"
HaplList={
H01..
TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT
TTTTTTTTTTTTTTTTTTTTTCTTTTTTTTTTTTAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA^p
H02..
}
FICHERO DE DATOS de texto .arp
SECCIONES-APARTADOS
[Data]
[[HaplotypeDefinition]]
HaplListName = “nombre”
HaplList = {
H1
ATCG
H2
ATCA
}
También podemos escribirlo:
[[HaplotypeDefinition]]
HaplListName = “nombre”
HaplList = EXTERN “hapl_file.hap”
FICHERO DE DATOS de texto .arp
Pasos:
- Copiamos sec_amova27_rosi.txt como matriz.txt
- Quitamos la 1ª fila
- reemplazamos > por nada
- reemplazamos ^p por 3 espacios
- reemplazamos 3espaciosH por ^pH
- quitamos el CRS y salvamos.
Ahora introducimos en amova_HT135_mol.arp el encabezado y
la matriz
En DataType ponemos DNA y añadimos:
LocusSeparator=none
CompDistMatrix=1
Si está bien se te activaran los “Molecular diversity indices”
NOTA: Tambien existe la posibilidad de usar un archivo externo,
ver los modelos del arlequin