clados granada 17 diciembre 2009. evolución del proyecto resultados presupuesto

CLADOS

Granada 17 Diciembre 2009

Evolución del proyecto Resultados Presupuesto

Anomalías en marcadores (SNPs) Anomalías estructurales (SNP y CNV)

CLADOS. Detección de anomalías estructurales mediante modelos

gráficos probabilísticos:factores genéticos de susceptibilidad a

enfermedades

CLADOS. Detección de anomalías estructurales mediante modelos

gráficos probabilísticos:factores genéticos de susceptibilidad a

enfermedades

ObjetivosObjetivo:

red bayesiana para diagnóstico de susceptibilidad a la EM

Objetivo:red bayesiana para diagnóstico de

susceptibilidad a la EM

No es para el diagnóstico de la enfermedad

(datos de expresión genética, mRNA)

Usan genotipos en vez de haplotipos

Las variables son los genotipos simples Valores: AA, aa, A/a

Los consideran independientes (ausencia de epístasis) Ej. Medidas ponderadas de riesgo (Lancet 2009)

Modelan las dependencias: AA-BB, AA-B/b, etc. Ej. Redes bayesianas (Nature Genetics 2005)

Factores genéticos de susceptibilidad a enfermedades: algunas soluciones

Factores genéticos de susceptibilidad a enfermedades: algunas soluciones

ObjetivosObjetivo:

red bayesiana para diagnóstico de susceptibilidad a la EM

Objetivo:red bayesiana para diagnóstico de

susceptibilidad a la EM

1. Representación de los factores genéticos de riesgo

2. Selección de variables: Selección a gran escala: TDT-2G Selección fina: TDT

P , reconstrucción filogenética

3. Agrupación de valores

4. Aprendizaje automático de la estructura de la red bayesiana



Representar genes, no nucleótidos:

SNPs (A/a, B/b, etc.) -> haplotipos (tag SNPs) (AB, Ab, aB, ab)

Problemas Los marcadores no suelen contener al gen

Los marcadores cambian entre muestras (Affymetrix, Illumina)

No genes, sino haplotipos en desequilibrio de ligamiento: Asociación entre nucleótidos de posiciones cercanas debido a la baja recombinación

gen

SNPs asociados y DL

2 pequeños bloques de baja

recombinación

2. Selección de variables

2. Selección de variables Selección burda

TDT-2G: alta sensibilidad

2. Selección de variables Una variable de L SNPs tiene 2L valores (haplotipos)

distintos

Los loci asociados pueden ser muy largos (L muy grande)

Selección a fina escala

TDTP: alta sensibilidad y especificidad

Acotar la zona de asociación intentando aumentar la especificidad al locus de susceptibilidad a la enfermedad (reducir efecto de DL)

EjemploTDT

P

Problemas:

muchas discontinuidades, incluso usando ventanas deslizantes

El resultado depende del tamaño de la ventana


Diferentes anchos de ventanas

1 24

6 8 10


Mucha incertidumbre Haplotipos largos a veces capturan mejor la

asociación El marcador con asociación más fuerte cambia con

el ancho del haplotipo (ventana)

3. Reducción de los valores

Mucha incertidumbre Haplotipos largos a veces capturan mejor la


el ancho del haplotipo (ventana) El comportamiento depende de la muestra

(subpoblación)


SNPs asociados Negro: Asociados en IMSGC (tríos)

Rojo: Asociados en WTCCC (caso/control)

Verde: Asociados en ambos

Muy pocos en comúnBuscar comunes en el mismo bloque de baja recombinación


Mucha incertidumbre si queremos determinar el locus de susceptibilidad Haplotipos largos a veces capturan mejor la


el ancho del haplotipo (ventana) El comportamiento depende de la muestra

(subpoblación)

No es importante para modelar los factores de riesgo


Simplificación parcial Por la baja frecuencia de las mutaciones y de

recombinaciones, sólo una minoría de haplotipos existen en la población

Aun así, el número de haplotipos distintos es considerable y pueden aparecer nuevos valores

Necesidad de conocer la relación entre los haplotipos para poder agruparlos Árboles filogenéticos

TreeDT (Sevon et al., IEEE Trans. Comp Biol. & Bioinformatics 2007)

Caso/control Test estadístico basado en árboles (otros:

Seltman et al. 2001 AJHG) No modelan la recombinación, sólo

mutaciones Grafos ancestrales de recombinación: Modelan la

recombinación (Lam et al. 2000 AJHG)


Longitud arcos no proporcional

θ=0; T

Longitud arcos proporcional

θ=0; T


θ=0; U


θ=0; U


θ=0,0032; T


θ=0,0032; U


θ=0.0032; U

θ=0; T

θ=0,003; U

θ=0; U

θ=0,003; T

Medidas de distancia intra-árbol Según haplotipo de referencia

Distancia al más ancestral (más frecuente) (L) Distancia completa (LxL)

Según modelo Mutaciones Recombinaciones Ambas


Estudios relacionados

TreeDT (Sevon et al., IEEE Trans. Comp Biol. & Bioinformatics 2007)

Caso/control

Test estadístico basado en árboles (otros: Seltman et al. 2001, Lam et al. 2000)

Del cladograma a la agrupación Hacerlas binarias (usar valores centrales):

De 2L a 2 (haplotipo riesgo sí/no) Selección de los valores representativos:

Usar el haplotipo más frecuente de T/U (más ancestral): hT, hU o sólo hT y umbral

Otras posibilidades???

Calcular la distancia filogenética a hT, hU Los marcadores no coinciden

Usar muestra caso/control (permitir subpoblaciones)


Muestra de tríos (1000 tríos): usada para obtener los haplotipos de susceptibilidad

Muestra caso/control (3000 inds. en total): 1/3 para obtener haplotipo fundador y umbral Resto para aprender/probar el modelo

Redes bayesianas Clasificador simple: ausencia de epístasis TAN Redes más genéricas: K2?

4. Aprendizaje automático? de la estructura de la red

clados granada 17 diciembre 2009. evolución del proyecto resultados presupuesto

Documents