capÍtulo 5. el tratamiento de datos en ...ggppegaj/antropogenetica/05-1-tratamdatos...de...

20
Jose A. Peña - UPV/EHU Antropogenética - Capítulo 5 - Página 1 CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ANTROPOGENÉTICA - La ley de equilibrio Hardy-Weinberg - La similaridad genética - El análisis estadístico de la similaridad: AFC, MDS, ACP, Dendrogramas. Bootstrap - Geografía y genes: Clinas, Mapas sintéticos, Autocorrelación espacial, Test de Mantel, AMOVA - Otros: Método del centroide, Mestizaje, Redes filogenéticas, Desequilibrio de ligamiento, Genética Forense, Minería de datos - Programas de interés en Antropogenética La ley de equilibrio Hardy-Weinberg Generalmente, antes de hacer cualquier otro cálculo, es preciso conocer si nuestra población se encuentra en equilibrio de Hardy-Weinberg. La ley de equilibrio de Hardy y Weinberg es un modelo que predice la relación que debe existir entre frecuencias alélicas y frecuencias genotípicas en una población de características ideales, que debiera cumplir unos determinados supuestos: a. La población debe ser grande y estable, preferiblemente de tamaño infinito. b. No hay una marcada acción de la selección. c. La población debe ser panmíctica, lo cual significa que el apareamiento de los individuos dentro de la población ocurre al azar (la probabilidad de cruzamiento con cualquier pareja potencial debe ser idéntica). d. No debe existir mutación. Hardy y Weinberg En estas circunstancias, para un locus dialélico, con dos alelos A y a, que en una población y una generación dadas muestran unas frecuencias génicas de p para el alelo A y de q para el alelo a y donde p + q = 1, los gametos que se produzcan en ambos sexos portarán estos alelos con las mismas frecuencias y formarán cigotos con los diferentes genotipos con las siguientes frecuencias: Los genotipos resultantes aparecerán por tanto en la nueva generación con las proporciones siguientes:

Upload: others

Post on 10-Aug-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 1

CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ANTROPOGENÉTICA - La ley de equilibrio Hardy-Weinberg - La similaridad genética - El análisis estadístico de la similaridad: AFC, MDS, ACP, Dendrogramas. Bootstrap - Geografía y genes: Clinas, Mapas sintéticos, Autocorrelación espacial, Test de Mantel,

AMOVA - Otros: Método del centroide, Mestizaje, Redes filogenéticas, Desequilibrio de ligamiento,

Genética Forense, Minería de datos - Programas de interés en Antropogenética La ley de equilibrio Hardy-Weinberg

Generalmente, antes de hacer cualquier otro cálculo, es preciso conocer si nuestra

población se encuentra en equilibrio de Hardy-Weinberg. La ley de equilibrio de Hardy y Weinberg es un modelo que predice la relación que debe

existir entre frecuencias alélicas y frecuencias genotípicas en una población de características ideales, que debiera cumplir unos determinados supuestos:

a. La población debe ser grande y estable, preferiblemente de tamaño infinito. b. No hay una marcada acción de la selección. c. La población debe ser panmíctica, lo cual significa que el apareamiento de los

individuos dentro de la población ocurre al azar (la probabilidad de cruzamiento con cualquier pareja potencial debe ser idéntica).

d. No debe existir mutación.

Hardy y Weinberg

En estas circunstancias, para un locus dialélico, con dos alelos A y a, que en una población y una generación dadas muestran unas frecuencias génicas de p para el alelo A y de q para el alelo a y donde p + q = 1, los gametos que se produzcan en ambos sexos portarán estos alelos con las mismas frecuencias y formarán cigotos con los diferentes genotipos con las siguientes frecuencias:

Los genotipos resultantes aparecerán

por tanto en la nueva generación con las proporciones siguientes:

Page 2: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 2

El método más sencillo para comprobar la existencia de equilibrio Hardy-Weinberg se basa en el test:

donde Oi son los individuos observados y Ei son los individuos esperados que portan el fenotipo o genotipo i. El número de grados de libertad casi siempre se calcula como el número de fenotipos menos el número de alelos.

Ejercicio

Comprobar el equilibrio de H-W en una muestra de 200 individuos en la que las frecuencias genotípicas observadas han sido:

Genotipo Observados AA 30 Aa 100 aa 70 Total 200

El valor esperado para un grado de libertad y p: 0,05 es 3,84 (p0,05 1gl:3,84). Si el valor observado es superior, no asumiremos que hay equilibrio. Si el valor observado es inferior, asumiremos que hay equilibrio. En el gráfico, la línea azul muestra la probabilidad de que las diferencias sean debidas al azar. Resultado Genotipo Observados Esperados Diferencia Chi-2 AA 30 32 (0,42x200) -2 0,125 Aa 100 96 (2x0,4x0,6x200) 4 0,167 aa 70 72 (0,62x200) -2 0,056 Total 200 200 0,348 A 160 (30x2+100) a 240 (70x2+100) (p 0,05 1gl = 3,84) A 0,4 (160/400) No hay desequilibrio a 0,6 (240/400) 0,348<3,84

No obstante, es más fiable el test de la probabilidad exacta de Fisher. En este caso los cálculos son suficientemente complejos como para que sea

recomendable realizarlos mediante algún programa estadístico, como Arlequin.

Page 3: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 3

Gómez-Pérez et al, 2011. Am J Hum Biol. 23(6):790-5.

Información sobre Arlequin, al final de este capítulo

Cuando se analiza una serie de polimorfismos en una población, es preciso comprobar

si se cumplen estas proporciones. En caso contrario, probablemente no se esté dando alguno de los presupuestos de partida. Entre estos presupuestos, el tamaño de la población, la mutación o la selección difícilmente provocarán un alejamiento estadísticamente significativo de las frecuencias genotípicas esperadas.

Supongamos una población sobre la que actúa una presión selectiva que elimina el 20% de los individuos AA:

Generación 1 Generación 2 Esperados Chi-2 AA 81 65 65,19 0,00 Aa 18 18 17,62 0,01 aa 1 1 1,19 0,03 Total 100 84 84 0,04 Generación 1 Generación 2 p 0,84 p 0,9 0,88 q 0,1 0,12 Total 1 1

Es muy probable que cuando la ley de equilibrio Hardy-Weinberg no se cumple en una

población, haya algún tipo de emparejamiento no aleatorio, es decir, de cruzamientos preferenciales entre los individuos.

A veces esto ocurre como efecto de un gran aislamiento y un alto grado de endogamia, pero también puede implicar que hay algún tipo de mezcla en la muestra entre dos o más grupos heterogéneos, por ejemplo dos subpoblaciones de diferente origen geográfico o étnico. Lo más probable en definitiva es que el muestreo no sea representativo de una población, de modo que los resultados que puedan obtenerse en forma de frecuencias génicas resulten escasamente útiles.

Supongamos dos poblaciones diferentes que se encuentran en una misma región, cada una en equilibrio, que son muestreadas como si fueran una población única: Población 1 Población 2 Total Esperados Chi-2 AA 81 25 106 98 0,7 Aa 18 50 68 84 3,0 aa 1 25 26 18 3,6 Total 100 100 200 200 7,26 Población 1 Población 2 Total p 0,01 p 0,9 0,50 0,7 q 0,1 0,50 0,3 Total 1 1 1

Page 4: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 4

La similaridad genética Asumiendo que las similitudes genéticas entre los individuos y entre las poblaciones

son originadas por un antepasado común, cuanto más similares sean dos poblaciones, mayor será el parentesco genético entre ellas. Esto significa que si son muy similares, se habrán separado recientemente de su población antecesora común y si son muy diferentes, sus líneas evolutivas se habrán separado hace mucho tiempo. Por tanto, a partir de las diferencias en el patrimonio genético de varias poblaciones podrá estimarse su historia evolutiva con una cierta fiabilidad.

Supongamos una población que se ha subdividido en k subpoblaciones,

Al cabo del tiempo se irán acumulando diferencias entre las subdivisiones, de modo que encontraremos diferentes frecuencias génicas.

La frecuencia génica promedio para un alelo de un locus dialélico será

y la varianza para ese mismo alelo será

Dividiendo la varianza por su valor máximo obtenemos la varianza estandarizada,

varianza de Wahlund o FST, que es una medida directa del grado de divergencia de las poblaciones y es una función del tiempo

Pero, además de obtener una idea aproximada del tiempo que llevan diferenciándose

las subpoblaciones, podemos conocer el grado de similaridad genética entre cada par de subpoblaciones, de modo que aquellas más distintas llevarán más tiempo diferenciándose y aquellas más similares se habrán separado más recientemente.

El método más sencillo para valorar las diferencias entre frecuencias alélicas de dos o más poblaciones es la distancia de Prevosti:

donde pik es la frecuencia del alelo k en la población i y pjk es la frecuencia del alelo k en la población j. La más utilizada en trabajos sobre poblaciones humanas es la distancia FST de Reynolds

Page 5: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 5

donde pij y p'

ij son las frecuencias del alelo j en el locus i en dos poblaciones diferentes.

Hay muchos otros coeficientes de distancia, específicos de microsatélites,

polimorfismos bialélicos, secuencias de ADN, etc

El análisis estadístico de la similaridad: AFC, MDS, ACP, Dendrogramas. Bootstrap Las matrices de distancia genética pueden ser representadas en un espacio euclídeo

mediante diferentes métodos, con el objetivo de obtener una más fácil interpretación de los resultados. Entre los métodos más habituales se encuentran los métodos topológicos y los dendrogramas. En el primer caso, se obtiene una representación de las diferentes subpoblaciones en forma de puntos respecto a dos o más ejes. En el segundo, se representan las subpoblaciones en los extremos de las ramas de un árbol, cuyas longitudes son proporcionales a las distancias genéticas que las separan.

A continuación se introduce muy brevemente algún concepto relativo a tres métodos de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial de Correspondencias, el Análisis de Componentes Principales y a algunos métodos de elaboración de dendrogramas.

Métodos de representación topológica Análisis de Escalamiento Multidimensional Análisis Factorial de Correspondencias Análisis de Componentes Principales

Métodos de elaboración de dendrogramas Mínimo Máximo Media UPGMA Neighbour joining (Vecino más próximo)

Análisis de Escalamiento Multidimensional (MDS)

Con el fin de ajustar la matriz de distancias genéticas D obtenida entre k muestras, a una representación euclídea en s dimensiones ( s ≤ k - 1 ), se asocia a una nueva matriz de distancias D*, de modo que dadas dos distancias genéticas tal que

dij < di'j' debe cumplirse, siempre que sea posible que las distancias representadas sean d*ij < d*i'j' De este modo, situando los elementos de la matriz D en orden creciente sus distancias

asociadas deben quedar ordenadas de la misma forma

Page 6: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 6

Esto puede comprobarse gráficamente representando las distancias genéticas frente a

las distancias del gráfico en el denominado diagrama de Sephard. Cuanto más lineal resulte, mejor será la representación.

Puede valorarse la fiabilidad de la representación mediante el coeficiente de estrés La configuración final, conseguida después de una serie de iteraciones, será aquella

que minimice el coeficiente de estrés.

Los valores de estrés obtenidos dependerán del tamaño de la matriz, entre otros

factores, pero pueden considerarse orientativos los siguientes rangos: 0,20 - mala 0,10 – regular 0,05 – buena 0,03 - excelente Una vez obtenida la solución final, se interpreta la posición de cada población en

función de la proximidad o lejanía al resto de poblaciones implicadas. En la figura se muestra un Análisis de Escalamiento Multidimensional a partir de STRs

del cromosoma 6 en poblaciones europeas.

1 2 3 4 1 0 0,4 0,6 0,3 2 0 0,2 0,2 3 0 0,3 4 0

Page 7: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 7

García-Obregón et al, 2010 Int J Immunogenet. 37(4):279-87.

Ejercicio Se trata de representar la siguiente matriz de distancias mediante un Análisis de

Escalamiento Multidimensional.

1 2 3 4 1 0 0,4 0,6 0,3 2 0 0,2 0,2 3 0 0,3 4 0 Resultado

Análisis Factorial de Correspondencias (AFC)

En este método los datos se escalan de modo que poblaciones y alelos pueden representarse simultaneamente. Por otra parte, se utiliza exclusivamente la distancia chi-cuadrado, por lo que no son utilizables los coeficientes de distancia genética habituales. La interpretación de los resultados también es ligeramente diferente. En el AFC se considera la influencia de los alelos sobre la posición de las poblaciones. En el MDS se considera exclusivamente la posición relativa de las poblaciones.

Iriondo et al, 1999. Hum. Biol. 71:43-54.

Page 8: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 8

Análisis de Componentes Principales (ACP) Este método obtiene una representación a partir de las correlaciones entre variables. No es adecuado para frecuencias alélicas, pero puede utilizarse sobre genomas

completos. En el ACP se interpretan los ejes. En la figura, se observa que el eje 1 representa la variabilidad del continente africano y

el eje 2 la variabilidad del resto de continentes, reflejando claramente el proceso Out of Africa.

Mallick et al. (2016). Nature, 538, 201-206.

Dendrogramas

Mediante un algoritmo de clasificación se transforma la matriz de coeficientes de distancia en un dendrograma. El proceso basicamente puede ser así: se elige el menor coeficiente de la matriz; este coeficiente relaciona dos individuos o clases (hi y hj), que quedarán unidos en el dendrograma. En las sucesivas matrices, ambos conformarán una única clase; sus coeficientes de distancia respecto a las otras clases podrán ser los coeficientes que presentaba hi, los que presentaba hj, el promedio, etc.

Los principales algoritmos de clasificación son los siguientes: Método del mínimo:

La distancia entre el binomio hi+hj y otra clase (hk) será el valor mínimo de ambas distancias.

Método del máximo:

La distancia entre el binomio hi+hj y otra clase (hk) será el valor máximo de ambas distancias.

Método de la media:

La distancia entre el binomio hi+hj y otra clase (hk) será la media de ambas distancias.

Page 9: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 9

Método UPGMA (Unweighted Pair Group Method with Arithmetic mean): Es similar al método de la media, pero ponderando respecto a los tamaños muestrales.

Método Neighbour Joining:

Es un método iterativo en el que se consideran en sucesivas iteraciones las distancias entre cada par de poblaciones, reajustando la longitud de las ramas hasta alcanzar un dendrograma consenso.

En la figura se observa un dendrograma NJ obtenido a partir de 13 STRs autosómicos en poblaciones de España y Portugal.

Pérez-Miranda et al, 2005

Forensic Sci Int. 152(2-3):259-62.

Ejercicio:

Construir un dendrograma mediante el método de la media a partir de una matriz de distancias.

1 2 3 4 5 1 0 0,5 1 2 5 2 0 2 3 4 3 0 7 8 4 0 6 5 0

Page 10: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 10

Respuesta En cada matriz se buscará el nodo que asocie las poblaciones con el coeficiente más

bajo.

La menor distancia es 0.5, que relaciona 1 con 2. Así pues, 1 y 2 pasan a ser una sola clase (1,2). La distancia de (1,2) respecto a 3 será la media de la distancia entre 1 y 3 (1) y la distancia entre 2 y 3 (2), es decir, 1.5 ...

1/2 3 4 5 1/2 0 1,5 2,5 4,5 3 0 7 8 4 0 6 5 0

1/2/3 4 5 1/2/3 0 4,75 6,25 4 0 6 5 0

1/2/3/4 5 1/2/3/4 0 6,12 5 0

Evaluación de un dendrograma mediante remuestreo (bootstrap)

Los métodos de taxonomía numérica no han contado tradicionalmente con métodos para su evaluación, al contrario que los métodos topológicos (varianza explicada, estrés, etc.).

Por ello en los últimos años se han introducido los métodos de remuestreo, muy útiles cuando se desconoce el tipo de distribución de los datos que se manejan.

En esencia, se basa en el intercambio arbitrario de una pequeña parte de la matriz de datos, tantas veces como se desee. De este modo, se obtendrán una serie de matrices de distancia, todas ellas diferentes y sólo una correcta, que permitirá evaluar la robustez de la representación. Así, si tras este tratamiento ligeramente distorsionador, se observa que se mantiene un determinado nodo del dendrograma original, puede decirse que presenta una cierta robustez.

Los resultados se representan como unos valores, generalmente en tanto por ciento que se sitúan en los diferentes nodos del dendrograma.

Page 11: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 11

En la figura se observa un dendrograma NJ con Bootstrap obtenido a partir de

haplogrupos de ADNmt

Alfonso-Sánchez et al, 2006 J Hum Genet. 51(5):429-39.

Geografía y genes: Clinas, Mapas sintéticos, Autocorrelación espacial, Test de Mantel, AMOVA Clinas

Las tendencias de variación gradual de un carácter, frecuencia alélica, haplotípica, etc en un sentido determinado del espacio se denominan gradientes clinales o clinas.

Cuando se pretende detectar la presencia de una clina, debe realizarse un análisis de correlación de las frecuencias respecto a las coordenadas geográficas. La existencia de una significación en la asociación entre frecuencias génicas y un determinado eje de coordenadas estará revelando la presencia de un gradiente clinal.

Clinas observadas en el oeste de Eurasia para el haplotipo MAPT*H2.

Alfonso-Sánchez et al, 2018. Heredity. 120, 91–99

Los gradientes pueden tener una

orientación longitudinal, latitudinal e incluso en relación con la altura, como en el caso de Jujuy (Argentina).

Gómez-Pérez et al, 2011.

Am J Hum Biol. 23(2):177-84.

Figura: Clinas determinadas por la altura en Jujuy para varias inserciones Alu. Las comarcas más altas son las que tienen un color más claro

en el mapa.

Page 12: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 12

Mapas sintéticos

Son mapas geográficos que muestran el área estudiada, sobre la que se representan las variaciones locales de una variable mediante diferencias en altura, diferentes tramas o un gradiente de color. Cada muestra se asigna a un punto en el mapa. A partir de los valores de los diferentes puntos, se realiza una extrapolación para todos los puntos intermedios.

Este tipo de representación puede realizarse para las frecuencias de un alelo, los valores propios de un eje en un análisis de escalamiento multidimensional, o cualquier otra variable.

En la figura se representan los valores de

persistencia de actividad lactasa en Europa.

Beja-Pereira et al, 2003 Nat Genet. 35(4):311-3.

Autocorrelación espacial

Es la correlación de una variable consigo misma, cuando las observaciones son realizadas en diferentes puntos del espacio. Si la presencia de una cualidad en una parte de un territorio convierte su presencia en las zonas vecinas en más o menos probable, existe un efecto de contigüidad en la estructura espacial y en tal caso el fenómeno muestra una autocorrelación espacial. Entre los diferentes índices que se han desarrollado para estimar el grado de autocorrelación, el más utilizado es el de Moran.

Los valores del índice de Moran pueden representarse frente a la distancia dando lugar a una figura denominada correlograma.

Autocorrelación espacial para la persistencia de actividad lactasa en Europa. Los puntos verdes

indican significación.

Peña et al, 2002 Antropo 3:51-60

Page 13: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 13

El patrón esperado de acuerdo al modelo de aislamiento por la distancia es el de una progresiva disminución del índice de Moran en las sucesivas clases de distancia. Puede además estimarse la significación de los valores de autocorrelación, de modo que aunque no es una condición decisiva, el gráfico será más fiable si muestra significación en la mayor parte de sus valores. Test de Mantel

Es un método utilizado para la comparación de matrices. Se trata de un coeficiente de correlación específico para datos interdependientes, ya que los valores de una matriz lo son. Puesto que no se conoce su distribución nula, es preciso construir una distribución esperada mediante un proceso de remuestreo.

En este ejemplo, se realizó un test de Mantel para la matriz de distancias geograficas y una matriz de distancias basadas en listas de apellidos en la provincia de Cuneo (Italia). La asociación resultó significativa, de modo que la posición geográfica de las localidades condiciona su patrimonio onomástico y presumiblemente genético, más que su origen étnico, italiano o provenzal. R2 = 0,243; p < 0,0001

Biondi et al, 2005 J Biosoc Sci. 37(2):163-74.

Análisis molecular de la varianza (AMOVA)

Es un método que analiza la heterogeneidad entre varios grupos de poblaciones, descomponiendo la varianza en 3 niveles: individuos dentro de las poblaciones, entre poblaciones dentro de los grupos poblacionales y entre grupos, permitiendo obtener una significación estadística.

En la tabla: AMOVA para una serie de poblaciones de Europa, Africa y Asia, a partir de varias inserciones Alu del cromosoma 6. García-Obregón et al, 2012. Hum Immunol. 73(7):720-5

Page 14: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 14

Otros: Método del centroide, Mestizaje, Redes filogenéticas, Desequilibrio de ligamiento, Genética Forense, Minería de datos Método del centroide

Se representa la heterocigosidad observada en cada población frente a la varianza introducida por dicha población al conjunto de poblaciones (ri). Refleja el grado de flujo génico que han experimentado.

Las poblaciones que quedan por debajo de la línea muestran un flujo génico con otras poblaciones menor de lo esperado, lo que implica un cierto grado de aislamiento. Las que quedan por encima muestran un mayor flujo génico de lo esperado. Si aparecen en el extremo superior derecho (mucha heterocigosidad, pero también mucha varianza) es porque su flujo génico proviene del exterior.

Figura: Método del centroide para frecuencias alélicas de inserciones Alu en poblaciones amerindias. Los Waorani y los Ache muestran un intenso aislamiento. Alaska y Muskokes presentan un alto grado de mestizaje, probablemente con asiáticos y europeos, respectivamente.

Waorani

Gómez-Pérez et al, 2011

Am J Hum Biol. 23(6):790-5.

Estima del grado de mestizaje

Mediante el método del centroide es posible conocer la existencia de un flujo génico más o menos intenso. Además, puede estimarse el grado de mestizaje originado por este flujo. Para ello, se debe resolver una ecuación con 2 o 3 incógnitas, en función del número de poblaciones de referencia, mediante métodos iterativos.

En la tabla se observan las proporciones estimadas mediante 2 métodos de los componentes europeo, africano y amerindio en 2 grupos de colombianos. Los afrocolombianos, descendientes de esclavos huídos, eran refractarios al mestizaje con europeos. Los mestizos mostraron los 3 componentes.

Además, hay métodos para visualizar el mestizaje. En la figura, el triángulo muestra las proporciones de los 3 componentes.

Page 15: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 15

Gómez-Pérez et al, 2010 Ann Hum Biol. 37(4):488-500

El gráfico del programa Structure muestra, para cada individuo, la probabilidad de origen de sus genes, para un número de poblaciones originales preestablecido.

En la figura, el número de poblaciones se establece entre 2 y 14. El análisis está basado en 1327 marcadores y 3945 individuos.

Tishkof et al. 2009

Science 324:1035-1044

Redes filogenéticas

Es un tipo de gráfico en forma de red que muestra relaciones filogenéticas entre secuencias nucleotídicas, genes, cromosomas o genomas. Generalmente se muestran todos los pasos mutacionales y las frecuencias se representan mediante el diámetro de los círculos.

En la figura se muestra un haplogrupo característico de los Waorani (A2-Huao) junto a otros de poblaciones amerindias.

Cardoso et al, 2008 Forensic Science International: Genetics Supplement Series 1:269–270

Page 16: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 16

Desequilibrio de ligamiento

Cuando dos marcadores se encuentran muy próximos en un cromosoma pueden encontrarse ligados, de modo que los alelos segregarán conjuntamente en forma de haplotipos. Puede entonces analizarse si los diferentes haplotipos se distribuyen al azar o existe un cierto desequilibrio, de modo que algunos sean más frecuentes de lo que cabría esperar en función de sus frecuencias alélicas. Esto habitualmente será un indicativo de procesos de flujo génico ocurridos en el pasado.

No pueden calcularse las frecuencias haplotípicas por conteo, excepto para marcadores del cromosoma Y o el ADNmt ya que no se conocen las combinaciones alélicas específicas de cada individuo. Por ello hay que recurrir a métodos iterativos.

Se calcula la frecuencia del haplotipo, su desequilibrio de ligamiento y su significación. En la tabla se muestran los valores del desequilibrio de ligamiento para algunos

haplotipos de 3 STRs del cromosoma 6

Peña et al, 2002 Annals of Human Biology

29:176-191

Genética Forense

Probabilidad de coincidencia (pM, Matching probability) Es la probabilidad de que dos individuos tomados al azar tengan el mismo genotipo. Para un locus, la probabilidad es:

donde i y j son todos los posibles alelos y Pij es la frecuencia de cada genotipo (que

puede ser 2pq o q2) y se eleva al cuadrado porque ha de ocurrir en uno y otro individuo. La probabilidad combinada para varios loci es el producto de las probabilidades

individuales, asumiendo que no hay ligamiento (pML).

La capacidad de discriminación (Pd, Power of discrimination) es

Capacidad de exclusión (PE, Power of exclusion) Se define como la fracción de individuos que tienen un perfil de ADN que es diferente

del portado por un individuo tomado al azar de la población. Para un locus dado será:

donde h es la proporción de heterocigotos y H de homocigotos y para varios loci (PEt):

Page 17: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 17

En la tabla pueden compararse los valores de PM, PD y PE para un STR y una inserción

Alu en la población de Finlandia. Los valores son mucho mejores para el análisis forense en el STR.

Match Power of Power of probability discrimination exclusion Locus PM PD PE STR 0,095 0,905 0,496 Alu 0,376 0,624 0,186

Se puede comparar el interés de diferentes marcadores con ForensicMarkers,

en la sección de Software

Minería de datos A partir del desarrollo de técnicas de laboratorio de alto rendimiento (high-

throughput), la cantidad de datos que pueden obtenerse en un análisis ha crecido espectacularmente. Aunque los métodos estadísticos para su análisis no son radicalmente diferentes, ha sido preciso adaptarlos a un enorme flujo de datos. Es lo que se conoce como minería de datos.

Entre los nuevos conceptos destacan la tasa de descubrimientos falsos, es decir, falsos positivos por la mera acumulación de resultados. Por lo demás, se han adaptado métodos clásicos, como los test T de Student, ANOVA, regresión, cluster, etc.

Imagen con 560 x 315 SNPs

analizados en una placa

Resultado de un programa de análisis

estadístico de minería de datos

Page 18: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 18

Programas de interés en Antropogenética

Past (Windows) (http://folk.uio.no/ohammer/past/) Programa estadístico que, entre otras opciones incluye MDS, Factorial de

correspondencias, test de Mantel cluster ...

GeDis (Windows, MacOSX, Linux) (http://www.ehu.es/~ggppegaj/javain.html) MDS, dendrogramas, clinas, mapas sintéticos.

Page 19: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 19

PHYLIP (http://evolution.genetics.washington.edu/phylip.html) Coeficientes de distancia, Neighbour joining, bootstrap ...

Arlequin (Windows) (http://cmpg.unibe.ch/software/arlequin3/) Test H-W, AMOVA, Frecuencias haplotípicas y desequilibrio de ligamiento, coeficientes

de distancia, Tests de diferenciación interpoblacional

Page 20: CAPÍTULO 5. EL TRATAMIENTO DE DATOS EN ...ggppegaj/antropogenetica/05-1-TratamDatos...de representación topológica, el Análisis de Escalamiento Multidimensional, el Análisis Factorial

Jose A. Peña - UPV/EHU

Antropogenética - Capítulo 5 - Página 20

Network (Windows) (http://www.fluxus-engineering.com/sharenet.htm) Redes

Structure (Linux, Solaris, Mac OSX, Windows) (http://pritch.bsd.uchicago.edu/software/structure2_2.html) Evaluación gráfica del grado de mestizaje