clados granada 17 diciembre 2009. evolución del proyecto resultados presupuesto
TRANSCRIPT
CLADOS
Granada 17 Diciembre 2009
Evolución del proyecto Resultados Presupuesto
Anomalías en marcadores (SNPs) Anomalías estructurales (SNP y CNV)
CLADOS. Detección de anomalías estructurales mediante modelos
gráficos probabilísticos:factores genéticos de susceptibilidad a
enfermedades
CLADOS. Detección de anomalías estructurales mediante modelos
gráficos probabilísticos:factores genéticos de susceptibilidad a
enfermedades
ObjetivosObjetivo:
red bayesiana para diagnóstico de susceptibilidad a la EM
Objetivo:red bayesiana para diagnóstico de
susceptibilidad a la EM
No es para el diagnóstico de la enfermedad
(datos de expresión genética, mRNA)
Usan genotipos en vez de haplotipos
Las variables son los genotipos simples Valores: AA, aa, A/a
Los consideran independientes (ausencia de epístasis) Ej. Medidas ponderadas de riesgo (Lancet 2009)
Modelan las dependencias: AA-BB, AA-B/b, etc. Ej. Redes bayesianas (Nature Genetics 2005)
Factores genéticos de susceptibilidad a enfermedades: algunas soluciones
Factores genéticos de susceptibilidad a enfermedades: algunas soluciones
ObjetivosObjetivo:
red bayesiana para diagnóstico de susceptibilidad a la EM
Objetivo:red bayesiana para diagnóstico de
susceptibilidad a la EM
1. Representación de los factores genéticos de riesgo
2. Selección de variables: Selección a gran escala: TDT-2G Selección fina: TDT
P , reconstrucción filogenética
3. Agrupación de valores
4. Aprendizaje automático de la estructura de la red bayesiana
1. Representación de los factores genéticos de riesgo
1. Representación de los factores genéticos de riesgo
Representar genes, no nucleótidos:
SNPs (A/a, B/b, etc.) -> haplotipos (tag SNPs) (AB, Ab, aB, ab)
Problemas Los marcadores no suelen contener al gen
Los marcadores cambian entre muestras (Affymetrix, Illumina)
No genes, sino haplotipos en desequilibrio de ligamiento: Asociación entre nucleótidos de posiciones cercanas debido a la baja recombinación
gen
SNPs asociados y DL
2 pequeños bloques de baja
recombinación
2. Selección de variables
2. Selección de variables Selección burda
TDT-2G: alta sensibilidad
2. Selección de variables Una variable de L SNPs tiene 2L valores (haplotipos)
distintos
Los loci asociados pueden ser muy largos (L muy grande)
Selección a fina escala
TDTP: alta sensibilidad y especificidad
Acotar la zona de asociación intentando aumentar la especificidad al locus de susceptibilidad a la enfermedad (reducir efecto de DL)
EjemploTDT
P
Problemas:
muchas discontinuidades, incluso usando ventanas deslizantes
El resultado depende del tamaño de la ventana
2. Selección de variables
Diferentes anchos de ventanas
1 24
6 8 10
2. Selección de variables
Mucha incertidumbre Haplotipos largos a veces capturan mejor la
asociación El marcador con asociación más fuerte cambia con
el ancho del haplotipo (ventana)
3. Reducción de los valores
Mucha incertidumbre Haplotipos largos a veces capturan mejor la
asociación El marcador con asociación más fuerte cambia con
el ancho del haplotipo (ventana) El comportamiento depende de la muestra
(subpoblación)
2. Selección de variables
SNPs asociados Negro: Asociados en IMSGC (tríos)
Rojo: Asociados en WTCCC (caso/control)
Verde: Asociados en ambos
Muy pocos en comúnBuscar comunes en el mismo bloque de baja recombinación
2. Selección de variables
Mucha incertidumbre si queremos determinar el locus de susceptibilidad Haplotipos largos a veces capturan mejor la
asociación El marcador con asociación más fuerte cambia con
el ancho del haplotipo (ventana) El comportamiento depende de la muestra
(subpoblación)
No es importante para modelar los factores de riesgo
3. Agrupación de valores
Simplificación parcial Por la baja frecuencia de las mutaciones y de
recombinaciones, sólo una minoría de haplotipos existen en la población
Aun así, el número de haplotipos distintos es considerable y pueden aparecer nuevos valores
Necesidad de conocer la relación entre los haplotipos para poder agruparlos Árboles filogenéticos
TreeDT (Sevon et al., IEEE Trans. Comp Biol. & Bioinformatics 2007)
Caso/control Test estadístico basado en árboles (otros:
Seltman et al. 2001 AJHG) No modelan la recombinación, sólo
mutaciones Grafos ancestrales de recombinación: Modelan la
recombinación (Lam et al. 2000 AJHG)
3. Agrupación de valores
Longitud arcos no proporcional
θ=0; T
Longitud arcos proporcional
θ=0; T
Longitud arcos no proporcional
θ=0; U
Longitud arcos no proporcional
θ=0; U
Longitud arcos no proporcional
θ=0,0032; T
Longitud arcos proporcional
θ=0,0032; T
Longitud arcos no proporcional
θ=0,0032; U
Longitud arcos proporcional
θ=0.0032; U
θ=0; T
θ=0,003; U
θ=0; U
θ=0,003; T
Medidas de distancia intra-árbol Según haplotipo de referencia
Distancia al más ancestral (más frecuente) (L) Distancia completa (LxL)
Según modelo Mutaciones Recombinaciones Ambas
3. Agrupación de valores
Estudios relacionados
TreeDT (Sevon et al., IEEE Trans. Comp Biol. & Bioinformatics 2007)
Caso/control
Test estadístico basado en árboles (otros: Seltman et al. 2001, Lam et al. 2000)
Del cladograma a la agrupación Hacerlas binarias (usar valores centrales):
De 2L a 2 (haplotipo riesgo sí/no) Selección de los valores representativos:
Usar el haplotipo más frecuente de T/U (más ancestral): hT, hU o sólo hT y umbral
Otras posibilidades???
Calcular la distancia filogenética a hT, hU Los marcadores no coinciden
Usar muestra caso/control (permitir subpoblaciones)
3. Agrupación de valores
Muestra de tríos (1000 tríos): usada para obtener los haplotipos de susceptibilidad
Muestra caso/control (3000 inds. en total): 1/3 para obtener haplotipo fundador y umbral Resto para aprender/probar el modelo
Redes bayesianas Clasificador simple: ausencia de epístasis TAN Redes más genéricas: K2?
4. Aprendizaje automático? de la estructura de la red