url = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: gene...

40
URL = http://cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity Mean number of pairwise differences--- Nucleotide diversity Theta (2M: M = 2N en diploides) –Hom, S, k, π (homocigosidad, sitios polimórficos, número de alelos, mean number of pairwise differences) Mismatch distribution Frecuencias haplotípicas H-W equilibrium Test de neutralidad Ligamiento Estructura poblacional (AMOVA) Population pairwise distances (F ) ARLEQUIN estimas intra- e inter-poblacionales de variabilidad: Gene diversity Mean number of pairwise differences--- Nucleotide diversity Theta (2M: M = 2N en diploides) –Hom, S, k, π (homocigosidad, sitios polimórficos, número de alelos, mean number of pairwise differences) Mismatch distribution Frecuencias haplotípicas H-W equilibrium Test de neutralidad Ligamiento Estructura poblacional (AMOVA) Population pairwise distances (F )

Upload: tonia-borjas

Post on 22-Jan-2016

241 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

URL = http://cmpg.unibe.ch/software/arlequin3/

estimas intra- e inter-poblacionales de variabilidad:

Gene diversity

Mean number of pairwise differences---Nucleotide diversity

Theta (2M: M = 2N en diploides) –Hom, S, k, π (homocigosidad,

sitios polimórficos, número de alelos, mean number of pairwise differences)

Mismatch distribution

Frecuencias haplotípicas

H-W equilibrium

Test de neutralidad

Ligamiento

Estructura poblacional (AMOVA)

Population pairwise distances (FST)

Exact test

Mantel test

ARLEQUIN

estimas intra- e inter-poblacionales de variabilidad:

Gene diversity

Mean number of pairwise differences---Nucleotide diversity

Theta (2M: M = 2N en diploides) –Hom, S, k, π (homocigosidad,

sitios polimórficos, número de alelos, mean number of pairwise differences)

Mismatch distribution

Frecuencias haplotípicas

H-W equilibrium

Test de neutralidad

Ligamiento

Estructura poblacional (AMOVA)

Population pairwise distances (FST)

Exact test

Mantel test

Page 2: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity
Page 3: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Fichero de datos: datos27_alu.xls

1) Se prepara una hoja EXCEL:

1ª columna: nombre del HT

Siguientes columnas: poblaciones

1ª Fila: abreviaturas de las poblaciones (importan las mayúsculas)

2ª Fila: sample size

3ª y siguientes: HT ó HG ó Alelos

Hoja Datos: Fila 2: 27 poblaciones Fila 5: “simple size” = tamaño muestral Columna B: HT = haplotye Columna A: HG = haplogroup Columna D: nombre del HT y del HG Columna C: suma de las filas, usada para eliminar las filas de HT no presentes en las poblaciones elegidas

Hoja Original: datos crudos

Page 4: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE DATOS- excel

- Linea 149: Tabla para estimar las frecuencias absolutas de los HG---

complétela

Crear una matriz con las frecuencias absolutas de cada HG

- Comprobamos que todo es correcto. Para ello creamos las filas 173 (suma

de los valores de cada HG) y 174 (diferencia entre éstos y los tamaños

muestrales)

- Si todo está correcto, transformamos las fórmulas en valores. Para ello:

Copiamos las filas de la 149 a la 172 y las insertamos en la fila 176: Botón

derecho—pegado especial—valores—aceptar.

- Comprobar que no ha habido errores creando una matriz en la línea 226

que sea la diferencia entre los valores que acabas de pegar y los que están

en la matriz verde.

Page 5: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE DATOS de texto .arp

SECCIONES-APARTADOS

Hay apartados obligatorios y apartados optativos

[Profile]

Title=“ “

NbSamples = # nº del 1 al 1000

DataType = DNA frequency, RFLP, Standard, Microsat

GenotypicData = 0 0 = haplotypic 1 = genotypic data

Se prepara el archivo en el word, pero salvándolo como texto y la extensión .arp

NOTA: en el nombre nbo deben haber espacios.

Page 6: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE DATOS de texto .arp

SECCIONES-APARTADOS

LocusSeparator = WHITESPACE TAB, NONE,cualquiera excepto # y missing data

GameticPhase = 1 0 = desconocida, 1 = conocida

RecessiveData = 0 0 = codominante, 1 = recesivo

MissingData = ‘?’ cualquiera entre únicas ó dobles comillas

Frequency = ABS ABS (absolutos) ó REL (relativos = frecuencias)

CompDistMatrix = 0 0=usa la especificada (Dist), 1= la computa (HT)

FrequencyThreshold =1e-5 nº de digitos para freq de HT (0.01 a 1e-7)

EpsilonValue =1e-7 criterio de convergencia para los algoritmos EM

(frecHT y desequilibrio)

OPCIONALES

Page 7: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE DATOS de texto .arpSECCIONES-APARTADOS

[Data]

[[HaplotypeDefinition]]

HaplListName = “nombre”

HaplList = {

H1 ATCG

H2 ATCA

}

También podemos escribirlo:[[HaplotypeDefinition]]

HaplListName = “nombre”

HaplList = EXTERN “hapl_file.hap”

Page 8: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE DATOS de texto .arpSECCIONES-APARTADOS

[Data]

[[DistanceMatrix]]

MatrixName = “nombre”

MatrixSize =# nº líneas = nº OTUs, sec.,...

MatrixData = {

H1 H2 H3 identificadores OTUs, sec.,...

0.00000

2.00000 0.00000

3.00000 2.00000 0.0000

}

También podemos escribirlo:

[[DistanceMatrix]]

MatrixName = “nombre”

MatrixSize =#

MatrixData = EXTERN “mat_file.hap”

Page 9: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE DATOS de texto .arpSECCIONES-APARTADOS

[Data]

[[Samples]]

SampleName = “nombre”

SampleSize = # nº entero = tamaño muestral

SampleData = {

H1 1 tb se puede poner la definición del HT aquí

H2 5 si usanmos FREQUENCY, sólo ID y #

}

se repite tantas veces como muestras tengamos.

Si se trata de genotipos:SampleData = {

H1 1 ATTCGCGATTCG ATTCGCAATTCA

H2 5 0 0 1 1 0 0 1 0 0 1 0 0

}

Page 10: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE DATOS de texto .arpSECCIONES-APARTADOS

[Data]

[[Structure]]

StructureName = “nombre”

NbGroups = # nº entero = tamaño muestral

IndividualLevel = 0 1 si tenemos datos genotípicos

Group = {

population

population

}

se repite tantas veces como muestras tengamos.

Recordatorio: # indica que no se lee esa línea, pero nunca puede ir entre dos {}

Page 11: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE DATOS de texto .arpSECCIONES-APARTADOS

[Data]

[[Mantel]]

MatrixSize = #

MatrixNumber = 2 si ponemos 3, tenemos que definir 2 DistMatMantel, para que correlacione Y con estas dos X

YMatrix = “fst”, “log_fst”,slatkinlinearfst”, “log_slatkinlinearfst”, “nm” “custom” es decir, matriz de distancias genéticas

YMatrixLabels = {

“population” “population”...

}

DistMatMantel = {

0.00

3.20 0.00

0.00 0.76 0.00

}

UsedYMatrixLabels = {“population” “population”... si queremos definir un subgrupo

}

Page 12: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE DATOS de texto .arp[Profile]

Title="AMOVA, 27 poblaciones, HG"NbSamples=27DataType=FREQUENCYGenotypicData=0Frequency=ABS

[Data][[Samples]]

SampleName="GAL"SampleSize=191SampleData= {

HG01 39HG02 74.}[[Structure]]

StructureName="regiones"NbGroups=5IndividualLevel=0Group={

"GAL""AST"}

[Profile]Title=""NbSamples=DataType=GenotypicData=Frequency=

[Data][[Samples]]

SampleName=""SampleSize=#SampleData= {

HG01 39HG02 74}[[Structure]]

StructureName="regiones"NbGroups=5IndividualLevel=0Group={

""""}

Page 13: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity
Page 14: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Uso del ARLEQUINOpen Project---Buscar el archivo ---ABRIR

Page 15: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Uso del ARLEQUINNos da la información del proyecto y vamos a la pestaña SETTINGS

Page 16: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Uso del ARLEQUINAspecto de la pestaña SETTINGS

Page 17: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Uso del ARLEQUINMarcamos AMOVA y luego, Standard AMOVA

Page 18: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Uso del ARLEQUINPOPULATION COMPARISONS

Compute pairwise FST ---- Slatkin’s distance

Como no le dimos datos moleculares: Use conventional F-statistics (haplotype frequencies only)

Page 19: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Uso del ARLEQUINPOPULATON DIFFERENTIATION --- Exact test of population differentiation

Page 20: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Uso del ARLEQUINMOLECULAR DIVERSITY INDICES --- Standard diversity indices

Page 21: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Uso del ARLEQUINSTART

Page 22: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Uso del ARLEQUINComputations are over

File---close projec --- cerrar

Page 23: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE SALIDACrea una carpeta con el nombre de tu archivo y introduce 5 ficheros:

amovaHG27_sB.htm

amovaHG27_sB.js

amovaHG27_sB_main.htm

amovaHG27_sB_tree.htm

Arlequin_log.txt (avance del proceso)

Y otro externo con los datos usados: randseed.txt

Usamos amovaHG27_sB.htm

que lo salvamos como .txt

Page 24: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE SALIDA-errores y el día y fecha de la corrida

- Información acerca del proyecto y varias secciones

ANALYSES AT THE INTRA-POPULATION LEVEL: ======================================================== == Sample : GAL =========================================================== Standard diversity indices : No. of gene copies: 191 No. haplotypes : 19 No. of loci : 0 No. of usable loci : 0 loci with less than 5.00 % missing data No. of polymorphic loci : 0 Haplotype-level computations Sum of square freqs. : 0.2073 Gene diversity : 0.7969 +/- 0.0228 (Standard deviation is for the sampling process) ================================ == Molecular diversity indices : (GAL) ================================

Page 25: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE SALIDA-errores y el día y fecha de la corrida

- Información acerca del proyecto y varias secciones

ANALYSES AT THE INTRA-POPULATION LEVEL: ================================ == Molecular diversity indices : (GAL) ================================

Sample size : 191.0000 No. of haplotypes : 19

Allowed level of missing data : 5.0000 % Number of polymorphic loci : 0

Number of usable loci : 0 Theta(Hom) : 3.104775 º

S.D. Theta(Hom) : 0.471907 Theta(k) : 5.056943 95 % confidence interval limits for theta(k) : [ 3.033856, 8.158112 ] Unable to compute theta(S) for standard data type Unable to compute theta(Pi) for standard data type

Al no haberla datos moleculares, este apartado no tiene mucho sentido

Page 26: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE SALIDA=================================================== == GENETIC STRUCTURE ANALYSIS AMOVA ======================================================

Page 27: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

List of labels for population samples

Population pairwise FSTs

FST P values

Matrix of significant Fst P values Significance Level=0.0500

Matrix of Slatkin linearized FSTs as t/M=FST/(1-FST) (M=N for haploid data, M=2N for diploid data)

Matrix of M values (M=Nm for haploid data, M=2Nm for diploid data)

Exact Test of Sample Differentiation Based on Haplotype Frequencies :

List of labels for population samples

Global test of differentiation among sample

Non-differentiation exact P values

FICHERO DE SALIDA=================================================== == Comparisons of pairs of population samples ======================================================

Page 28: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Podemos paras los datos (FST y exact test) a un excel para poder mover filas y columnas

Page 29: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

OTRAS POSIBILIDADES

Datos moleculares

No solo podemos usar los HT ó HG de un marcador haploide. Podemos hacer uso de más información.

Por ejemplo: si usamos los HT para comparar las poblaciones podríamos usar la divergencia (medida, por ejemplo, por el número de diferencias) molecular entre ellos, para ponderar las diferencias.

Esta información se la podemos dar de dos maneras:

A) Suministrándole los haplotipos como datos binarios (cada RFLP ó cada SNP ó cada base, sería una posición)Ahora, dentro de la sección DATA hemos incluido el apartado:

[[HaplotypeDefinition]]HaplListName="56 human mtDNA RFLPs"HaplList= EXTERN "56hapdef1.txt"

Que nos indica las diferencias moleculares entre los distintos HT

Page 30: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE DATOS de texto .arpSECCIONES-APARTADOS

[Data]

[[HaplotypeDefinition]]

HaplListName = “nombre”

HaplList = {

H1 ATCG

H2 ATCA

}

También podemos escribirlo:[[HaplotypeDefinition]]

HaplListName = “nombre”

HaplList = EXTERN “hapl_file.hap”

Page 31: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Ahora existe la posibilidad de calcular los FST basados sólo en las frecuencias o pedirle que nos “compute distance matriz” usando “pairwise differences”

También le podemos pedir:- que nos imprima la matriz de distancia entre los HT- los índices moleculares de diversidad: Theta

RESULTADOS:El nº de loci: posiciones que le hemos puestoMean number of pairwise differences, equivalente a pi y te da las diferentes Theta, basadas en Homocigosis, nº alelos, nº sitios polimórficos y pi

Page 32: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

B) También podemos darle directamente la matriz de diferencias entre los HT, incluyendo en DATA el apartado:

[[DistanceMatrix]]MatrixName="A matrix of genetic

distance between 56 haplotypes"MatrixSize= 56#LabelPosition=LINEMatrixData=EXTERN "amovadis.dis“

Para ello vamos a usar el programa HAPLOSITE http://www.haplosite.com/haplosearch

Page 33: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

HAPLOSEARCH http://www.haplosite.com/haplosearch

Tenemos que crear un archivo con el siguiente formato:START: 090>CRSTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATAAATACTTGACCACCTGTAGTACATAAAAACCCAATCCACATCAAAACCCCCTCCCCATGCTTACAAGCAAGTACAGCAATCAACCCTCAACTATCACACATCAACTGCAACTCCAAAGCCACCCCTCACCCACTAGGATACCAACAAACCTACCCACCCTTAACAGTACATAGTACATAAAGCCATTTACCGTACATAGCACATTACAGTCAAATCCCTTCTCGTCCC>SEQ5093

>SEQ6094

Page 34: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Esto lo hacemos a partir del excel:

A) Nosotros hemos analizado entre las posiciones 65 y 365, por lo que en la primera línea tenemos que poner START: 065

B) Ahora preparamos la sec. del CRS, para ello abrimos el archivo RE_rCRS.txt y seleccionamos de la posición 16065 a la 16365. Cuando ya lo tenemos sin espacios, sin marcas de párrafo y en mayúsculas, lo añadimos a la segunda fila como

>CRS^pSecuencia en mayúsculas^p

HAPLOSEARCH

C) Ahora en las restantes filas escribimos >H#^p”motivo HT”^p.- Para ello creamos el excel, lo copiamos y convertimos la tabla en texto:sustituimos ^p por ^p>- reemplazamos 2 espacios por uno (tantas veces como necesario)- reemplazamos ^t por ^p- revisamos que no queden espacios al final de las posiciones de los HT,

reemplazamos espacio^p por ^p- lo salvamos como .txt (texto sin formato)

Page 35: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

D) lo corremos en el programa http://www.haplosite.com/haplosearchProcesar, examinar, get sequence, populations genetics, procesar.- Esperar---abrir con WORDPAD, aceptar, Guardar como “sec_amova27_rosi.txt”

E) preparar la matriz para el arlequín, cuyo formato es::[Data] [[HaplotypeDefinition]]

HaplListName="U3"HaplList={

H01.. TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTCTTTTTTTTTTTTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA^pH02.. }

HAPLOSEARCH

Page 36: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

FICHERO DE DATOS de texto .arpSECCIONES-APARTADOS

[Data]

[[HaplotypeDefinition]]

HaplListName = “nombre”

HaplList = {

H1 ATCG

H2 ATCA

}

También podemos escribirlo:[[HaplotypeDefinition]]

HaplListName = “nombre”

HaplList = EXTERN “hapl_file.hap”

Page 37: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity

Pasos:- Copiamos sec_amova27_rosi.txt como matriz.txt- Quitamos la 1ª fila- reemplazamos > por nada- reemplazamos ^p por 3 espacios- reemplazamos 3espaciosH por ^pH- quitamos el CRS y salvamos.

Ahora introducimos en amova_HT135_mol.arp el encabezado y la matriz

En DataType ponemos DNA y añadimos: LocusSeparator=noneCompDistMatrix=1

Si está bien se te activaran los “Molecular diversity indices”

NOTA: Tambien existe la posibilidad de usar un archivo externo, ver los modelos del arlequin

FICHERO DE DATOS de texto .arp

Page 38: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity
Page 39: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity
Page 40: URL = //cmpg.unibe.ch/software/arlequin3/ estimas intra- e inter-poblacionales de variabilidad: Gene diversity