análisis estadístico de polimorfismos genéticos en estudios epidemiológico

Upload: jvalgal

Post on 04-Mar-2016

5 views

Category:

Documents


0 download

DESCRIPTION

genetica

TRANSCRIPT

  • 333 Gac Sanit. 2005;19(4):333-41

    NOTA METODOLGICA

    ResumenEl anlisis de los polimorfismos genticos permite identifi-

    car genes que confieren susceptibilidad a presentar enfer-medades. En este trabajo se presenta la nomenclatura utili-zada en la bibliografa de epidemiologa gentica y unaestrategia bsica de anlisis estadstico de estudios epide-miolgicos que incorporan estos marcadores. En primer lugar,se presenta el anlisis descriptivo de un nico polimorfismoy la evaluacin del equilibrio Hardy-Weinberg. A continuacinse presentan los mtodos para evaluar la asociacin con laenfermedad. Para ello se emplean modelos de regresin lo-gstica y se estudian los posibles modelos de herencia. Porltimo, se presentan mtodos para el anlisis simultneo demltiples polimorfismos: estimacin de las frecuencias de ha-plotipos y anlisis de asociacin con la enfermedad.Palabras clave: Epidemiologa gentica. Polimorfismo. Ge-notipo. Haplotipo. Anlisis estadstico.

    AbstractAnalysis of genetic polymorphisms allows the genes that con-

    fer susceptibility to diseases to be analyzed. This paper pre-sents the nomenclature used in genetic epidemiology litera-ture and a basic strategy for statistical analysis ofepidemiological studies that use genetic markers. First, a des-criptive analysis of a single nucleotide polymorphism is pre-sented, with assessment of Hardy-Weinberg equilibrium.Next, methods to assess the association with disease are pre-sented. To do this, logistic regression models are used andalternative models of inheritance are explored. Finally, methodsfor the simultaneous analysis of multiple polymorphisms arepresented: haplotype frequency estimation and analysis of di-sease association.Key words: Genetic epidemiology. Polymorphism. Genotype.Haplotype. Statistical analysis.

    Anlisis estadstico de polimorfismos genticos en estudiosepidemiolgicos

    Raquel Iniestaa / Elisabet Guina / Vctor Morenoa,baServicio de Epidemiologa y Registro del Cncer, IDIBELL, Instituto Cataln de Oncologa, LHospitalet de Llobregat, Barcelona.

    Espaa; bUnidad de Bioestadstica, Facultad de Medicina, Universidad Autnoma de Barcelona, Barcelona, Espaa.

    (Statistical analysis of genetic polymorphisms in epidemio-logical studies)

    Correspondencia: Dr. Vctor Moreno.Servicio de Epidemiologa y Registro del Cncer. Instituto Cataln de Oncologa.Gran Va, km 2,7. 08970 LHospitalet de Llobregat. Barcelona.Espaa.Correo electrnico: [email protected]: 5 de octubre de 2004. Aceptado: 12 de enero de2005.

    morfismos son la base de la evolucin y los que se con-solidan, bien pueden ser silentes o proporcionar ven-tajas a los individuos, aunque tambin pueden contri-buir a causar enfermedades1. Se conocen muchasenfermedades determinadas genticamente por mu-taciones o variantes denominadas de alta penetran-cia, ya que los portadores de la variante suelen ma-nifestar la enfermedad con una alta probabilidad. Estasvariantes suelen ser de baja frecuencia en la poblacingeneral, por ejemplo, las mutaciones heredadas en elgen supresor de tumores APC determinan la aparicinde la poliposis familiar adenomatosa que a menudo de-genera en carcinomas en el colon, pero esta entidadno explica ms de un 1% del total de tumores de colon.

    En la actualidad muchos investigadores centran sustrabajos en identificar genes con polimorfismos que sedan en la poblacin con mayor frecuencia y que influ-yen en el riesgo de padecer una enfermedad, pero conbaja probabilidad (son los llamados polimorfismos debaja penetrancia). Tambin se les denomina varian-tes que confieren susceptibilidad gentica a la enfer-medad, y para que dicha variante gentica se expre-

    Introduccin

    Los polimorfismos genticos son variantes del ge-noma que aparecen por mutaciones en algunosindividuos, se transmiten a la descendencia y ad-quieren cierta frecuencia en la poblacin tras ml-tiples generaciones. Se ha estimado que hay una va-riante en cada 1.000 pares de bases de los 3.000millones que configuran el genoma humano. Los poli-

    10 Nota Metodolo 272 (333-341) 26/7/05 12:48 Pgina 333

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

  • 334

    Iniesta R, et al. Anlisis estadstico de polimorfismos genticos en estudios epidemiolgicos

    Gac Sanit. 2005;19(4):333-41

    se a menudo es necesaria la participacin de una ex-posicin2. Un ejemplo son las variantes nulas (as lla-madas porque anulan la funcin) en genes que codifi-can enzimas glutatin-S-transferasas (GSTT1, GSTM1).Los individuos fumadores y portadores de la variantenula podran tener un riesgo aumentado de padecer cn-cer de pulmn o de vejiga, posiblemente por ser inca-paces de metabolizar los carcingenos del tabaco3-5,aunque estos hallazgos no siempre son consistentes6.

    Los polimorfismos ms frecuentes son cambios deuna nica base. A stos se les llama polimorfismos deun nico nucletido (single nucleotide polymorphism[SNP], pronunciado esnip). Por ejemplo, en el gende la apolipoprotena E (ApoE) se han descrito variospolimorfismos frecuentes que consisten en cambios deuna nica base. Uno de ellos, denominado ApoE -4,resulta en un cambio en el aminocido cistena de laposicin 112 por una arginina. Esta variante se asociacon la enfermedad de Alzheimer7. Otros polimorfismosson repeticiones, en un nmero variable de veces, deuna secuencia corta (variable number tandem repeat[VNTR]). Por ejemplo, los individuos afectados por ata-xia de Fredreich, una enfermedad autosmica recesi-va, son portadores de variantes en el gen frataxin conun nmero elevado repeticiones del triplete GAA en elprimer intrn. Los individuos normales suelen tenermenos de 40 repeticiones, mientras que los afectadostienen entre 100 y 1.700 repeticiones8. En otras oca-siones, los polimorfismos se deben a deleciones o in-serciones de secuencias cortas de nucletidos. El cam-bio de un nico nucletido, si ocurre en una zonacodificante como en el ejemplo de la ApoE, puede pro-vocar un cambio de aminocido en la protena resul-tante, y ello puede resultar en una modificacin de suactividad o funcin. Los cambios tambin pueden ocu-rrir en zonas del promotor de un gen y modificar su ex-presin. Estas zonas promotoras modulan el procesode transcripcin del ADN en ARN (la transcripcin esel primer paso de la decodificacin de un gen a unaprotena). Lo mismo puede ocurrir si el cambio se pro-duce en un intrn, como el ejemplo de la ataxia de Frie-drich8. Aunque los intrones no se traducen a protena,cambios en su estructura pueden modular la expresindel gen. Otras veces, probablemente la mayora, loscambios son silentes y no tienen repercusiones fun-cionales. Mientras que slo estudios moleculares es-pecficos pueden poner de manifiesto si los polimor-fismos son funcionales, los estudios epidemiolgicos sonfundamentales para valorar si hay efectos en la saludde la poblacin1,9,10.

    Cuando el objetivo de un estudio es identificar unpolimorfismo o variante en un gen que est relaciona-do con una enfermedad se pueden emplear diferentesestrategias. En primer lugar, es importante obtener evi-dencia de que al menos una fraccin de la enferme-dad est determinada genticamente. Para ello son ti-

    les los estudios de agregacin familiar, los de geme-los o los de emigrantes. En segundo lugar, hay que iden-tificar dnde estn los genes de inters para la enfer-medad. En esta fase se realizan estudios denominadosde ligamiento (linkage), que emplean como marcado-res genticos una serie de polimorfismos repartidos portodo el genoma. En estos estudios se suelen emplearfamilias grandes con varios miembros afectados y susanlisis permiten identificar zonas del genoma de in-ters, pero tienen poca resolucin. En esas zonas iden-tificadas puede haber centenares de genes interesan-tes y miles de polimorfismos candidatos. Para identificarcon mayor precisin los genes de inters y, dentro deesos genes, el o los polimorfismos responsables, se em-plean estudios de asociacin, en los que se comparala frecuencia relativa de las diferentes variantes de unaserie de polimorfismos entre los individuos afectadosy un grupo control adecuado. Estos estudios suelen se-leccionar genes candidatos (aquellos cuya funcinpuede estar relacionada con la enfermedad de inters),y dentro de esos genes se busca como marcadores ge-nticos a determinados polimorfismos, normalmente detipo SNP, repartidos a lo largo del gen.

    En cuanto a la metodologa de estudio, se suelenemplear diseos epidemiolgicos clsicos basados enindividuos no relacionados, como estudios de casos ycontroles o de cohortes. Tambin se pueden empleardiseos basados en familias, en los que los individuosde control son parientes de los casos, como losdiseos de casos y hermanos sanos o tros (caso y pa-dres)11-13.

    En esta revisin presentaremos la estrategia habi-tual de anlisis de estudios basados en diseos con in-dividuos no relacionados que incluyen informacin depolimorfismos. Para simplificar, en los ejemplos trata-remos el caso de polimorfismos tipo SNP con una nicavariante, pero los mtodos sirven para marcadores mscomplejos. En primer lugar revisaremos el anlisis deun nico polimorfismo y, a continuacin, el anlisis si-multneo de mltiples polimorfismos. Para una revisinde la nomenclatura empleada en epidemiologa gen-tica es recomendable la introduccin de Elston14.

    Anlisis descriptivo de un polimorfismo

    Un polimorfismo se caracteriza porque diferentes in-dividuos presentan distintos nucletidos o variantes enuna posicin concreta del genoma, que se denominalocus. A cada posible variante se le denomina alelo. Sise trata de un SNP, normalmente sern 2 los posiblesalelos en un locus: por ejemplo, el cambio de T por C(T > C). Si el locus corresponde a un cromosoma au-tosmico (del 1 al 22), cada individuo es portador de2 alelos, uno en cada copia del cromosoma, que se he-

    10 Nota Metodolo 272 (333-341) 26/7/05 12:48 Pgina 334

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

  • redan del padre y madre de manera independiente. Lapareja de alelos observada en un individuo se deno-mina genotipo y, para el locus T > C del ejemplo, las 3 posibilidades de parejas de alelos son: TT, TC y CC.Los individuos con los 2 alelos idnticos, sean TT o CC,se denominan homocigotos y los que tienen diferentesalelos (TC), heterocigotos. En general se considera va-riante al alelo menos frecuente, pero esto puede dife-rir de una poblacin a otra.

    La descripcin estadstica de un polimorfismo con-siste, en primer lugar, en estimar la prevalencia en lapoblacin de cada alelo y de cada genotipo posible, loque en nomenclatura gentica se denomina estimar lasfrecuencias allicas y genotpicas, respectivamente. Engeneral, las tcnicas de laboratorio permiten determi-nar el genotipo de cada individuo. Las frecuencias ge-notpicas, por tanto, se estiman directamente calculandola proporcin de individuos con cada genotipo. Para es-timar las frecuencias allicas simplemente se duplicala muestra tomando como unidad de observacin el cro-mosoma (cada individuo contribuye con 2 cromosomas)y se calcula la proporcin de cada alelo. Por ejemplo,si en una muestra de 200 individuos observamos lossiguientes genotipos:

    110 TT, 75 TC y 15 CC,

    las frecuencias genotpicas sern:

    0,55 TT, 0,38 TC y 0,07 CC,

    y las frecuencias allicas sern:

    0,74 T y 0,26 C [0,74 = (110 ( 2 + 75)/(200 ( 2)]

    Equilibrio de Hardy-Weinberg

    El principio de equilibrio de Hardy-Weinberg deter-mina qu frecuencias deben observarse en la pobla-cin para cada genotipo en funcin de las frecuenciasde los alelos. En condiciones habituales, si la transmisinde los alelos de los progenitores a los descendienteses independiente y no ocurren fenmenos distorsio-nadores, como la aparicin frecuente de nuevas mu-taciones o la seleccin de alelos, la probabilidad de ob-servar una combinacin de alelos concreta (un genotipo)depende del producto de las probabilidades (frecuen-cias) de cada alelo. En nuestro ejemplo, si llamamosp a la frecuencia de T, el primer alelo, y q a la frecuenciade C, el segundo (suponiendo que slo hay 2 alelosposibles), las frecuencias esperadas de cada genoti-po son:

    Np2 TT, 2Npq TC y Nq2 CC,

    donde N es el tamao de muestra. Si en nuestro ejem-plo sustituimos p y q por los valores estimados:

    0,74 y 0,26 respectivamente, las frecuencias espera-das sern:

    109,52 TT, 76,96 TC y 13,52 CC.

    Estas frecuencias esperadas se pueden compararcon las observadas utilizando el test de la 2 HW = (O-E)2/E, con 1 grado de libertad. Para el ejemplo HWvale 0,20, que corresponde a una p de 0,64, por lo quees compatible con el equilibrio de Hardy-Weinberg.

    Antes de realizar un anlisis de asociacin se debecomprobar si se cumple el principio de equilibrio deHardy-Weinberg en la muestra de controles (como re-presentantes de la poblacin general). En el caso deque se observara una desviacin del equilibrio se de-bera revisar el mtodo de genotipificacin, pues en oca-siones se producen sesgos al interpretar los resulta-dos por ser ms fcil de detectar un genotipo que otros.Otras posibilidades son que los individuos no sean in-dependientes (p. ej., por consanguinidad) o que se duna seleccin de un alelo (p. ej., por estar asociado conla longevidad). Tampoco debe olvidarse que si emplea-mos un nivel de significacin del 5%, por azar puedeobservarse falta de ajuste al esperado, aunque la con-dicin de transmisin de alelos con independencia seacorrecta en la poblacin del estudio. En la muestra decasos es posible que no se cumpla el equilibrio de Hardy-Weinberg; ello puede ser indicativo de que el polimor-fismo pueda estar asociado con la enfermedad.

    Anlisis de asociacin de un polimorfismo con la enfermedad

    Desde el punto de vista estadstico, un polimorfis-mo constituye una variable categrica con varios ge-notipos posibles y se suele considerar como categorade referencia al grupo de individuos homocigotos parael alelo ms frecuente. Para evaluar la asociacin deun polimorfismo con la enfermedad se construye la tablade contingencia correspondiente y se puede contras-tar la hiptesis de asociacin mediante un test de la 2.Tambin se pueden calcular las odds ratios (OR) de cadagenotipo respecto de la referencia para cuantificar lamagnitud de la asociacin.

    Si es necesario ajustar los anlisis por posibles va-riables de confusin, entonces es preferible emplear mo-delos de regresin logstica por su versatilidad. Ade-ms, estos modelos permiten evaluar fcilmente si hayinteracciones entre el polimorfismo y otros factores.

    Llamaremos ahora p a la probabilidad de ser caso,G al polimorfismo (que codificar los diferentes geno-

    335

    Iniesta R, et al. Anlisis estadstico de polimorfismos genticos en estudios epidemiolgicos

    Gac Sanit. 2005;19(4):333-41

    10 Nota Metodolo 272 (333-341) 26/7/05 12:48 Pgina 335

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    Jose Manuel Valencia Gallardo

    p = frecuencia allica de T = 1 x TT + 0,5 x TC

    frecuencia allica (T) = pf(C) = q

    p + q = 1

    frecuencia genotpica(TT) = P

    f(TC) = H

    f(CC) = Q

    frecuencia allica de T =1 x TT + 0,5 x TC

  • tipos: TT, TC, CC) y Z a una o ms variables por lasque se desea ajustar el modelo. El modelo logstico sedefine por la ecuacin:

    log[p/(1-p)] = + G + Zdonde , y son parmetros estimados.

    Supongamos que el polimorfismo G es un SNP enel que el alelo variante C modifica el riesgo de la en-fermedad de inters. Ya que cada individuo posee unapareja de alelos, el riesgo asociado con cada genoti-po puede depender del nmero de copias de C, lo quepermite definir varios modelos de herencia posibles cuyaverosimilitud se puede explorar mediante una adecua-da codificacin de los genotipos (tabla 1).

    Los 4 modelos principales de herencia posibles, son:

    Modelo dominante. Supone que una nica copia deC es suficiente para modificar el riesgo y que ser por-tador de 2 copias lo modifica en igual magnitud; es decir,heterocigotos TC y homocigotos CC tienen el mismoriesgo. Se puede comparar la combinacin de estos 2 genotipos respecto a los homocigotos TT:

    log[p/(1-p)] = + Do + ZModelo recesivo. Supone que son necesarias 2 co-

    pias de C para modificar el riesgo; por tanto, heteroci-gotos TC y homocigotos del alelo ms frecuente TT tie-nen el mismo riesgo. Se compara la combinacin deellos respecto a los homocigotos del alelo variante CC:

    log[p/(1-p)] = + Re + ZModelo aditivo. Supone que cada copia de C mo-

    difica el riesgo en una cantidad aditiva (en escala logit);por tanto, los homocigotos CC tienen el doble de ries-go que los heterocigotos TC. Se compara la combina-cin ponderada, donde se da peso 1 a los heterocigo-tos TC y peso 2 a los homocigotos CC:

    log[p/(1-p)] = + Ad + Z

    Modelo codominante. Es el ms general. Cada ge-notipo proporciona un riesgo de enfermedad diferentey no aditivo. Se comparan heterocigotos (He) y homo-cigotos variantes (Va) por separado respecto a los ho-mocigotos del alelo ms frecuente. Este modelo em-plea 2 coeficientes (grados de libertad).

    log[p/(1-p)] = + 1He + 2Va + ZNo es fcil hallar un criterio para establecer el modelo

    de herencia ms adecuado para un polimorfismo concreto.Habitualmente se suele comparar el ajuste del modelocodominante, que es el ms general (2 parmetros), conlos dems modelos (1 parmetro). Estas comparacionespueden realizarse mediante el test de la razn de vero-similitudes. Aun as, a menudo no es posible diferenciarentre varios modelos y se elige el que tenga menor valordel criterio de informacin de Akaike (AIC = 2log[L] +#parmetros), donde L es la verosimilitud del modelo. Estecriterio pondera el ajuste del modelo (2logL) con la com-plejidad (nmero de parmetros). Los resultados obte-nidos al aplicar este criterio, puramente estadstico, debenconsiderarse provisionales. Lo adecuado sera que ob-tuviesen validacin en el laboratorio y que fuesen repli-cados por otros estudios epidemiolgicos.

    Los modelos de interaccin aaden un trmino pro-ducto entre el genotipo y una variable ambiental:

    log[p/(1-p)] = + G + Z + G ZTambin pueden incluir el producto de 2 genotipos

    si se exploran interacciones gen-gen:

    log[p/(1-p)] = + 1G1 + 2G2 + Z + G1 G2A partir de los coeficientes y de los modelos se

    puede calcular las OR de asociacin entre cada genotipoy la enfermedad y los correspondientes intervalos deconfianza del 95%.

    Algunos investigadores analizan el riesgo compa-rando la distribucin de alelos entre casos y controles.Para ello, cada individuo contribuye con 2 observacio-nes en la muestra, una por cada cromosoma, y se com-para el riesgo del alelo variante respecto al ms fre-cuente. Este anlisis slo es correcto en el caso de quela distribucin de los alelos sea independiente en la po-blacin (equilibrio de Hardy-Weinberg en controles). Elanlisis equivalente que es correcto en cualquier oca-sin es el modelo aditivo de genotipos15,16.

    Ejemplo de anlisis

    Supongamos que se ha realizado un estudio decasos y controles en el que se evala si un polimorfis-

    336

    Iniesta R, et al. Anlisis estadstico de polimorfismos genticos en estudios epidemiolgicos

    Gac Sanit. 2005;19(4):333-41

    Tabla 1. Codificacin de variables indicadoras para evaluardiferentes modelos de herencia

    Codominante Dominante Recesivo Aditivo

    Genotipoa He Va Do Re AdTT 0 0 0 0 0TC 1 0 1 0 1CC 0 1 1 1 2

    aGenotipos posibles para un polimorfismo en un locus biallico T > C

    10 Nota Metodolo 272 (333-341) 26/7/05 12:48 Pgina 336

  • mo en un gen relacionado con la reparacin del ADNmodifica el riesgo de padecer cncer colorrectal. En latabla 2 se presentan los 4 modelos principales de ries-go posibles. El modelo codominante muestra que slolos individuos CC tienen un riesgo aumentado. Los he-terocigotos TC tienen un riesgo similar a los homoci-gotos TT, lo que sugiere que el modelo recesivo es eladecuado.

    Anlisis simultneo de mltiples loci

    Con frecuencia son varios los polimorfismos que seanalizan simultneamente en un gen o regin candi-data de un gen. El motivo es que el polimorfismo real-mente responsable de influir o modificar el riesgo dela enfermedad puede ser desconocido; por ello se ana-lizan varios polimorfismos para intentar identificarlo. Entrediferentes polimorfismos localizados en el mismo cro-mosoma y relativamente prximos entre s suele ob-servarse cierto grado de correlacin o asociacin es-tadstica denominada desequilibrio de ligamiento(linkage disequilibrium). Ello es debido a que en el pro-ceso de meiosis que genera los gametos, los cromo-somas que se transmitirn sern copias exactas de losdel progenitor, a excepcin de los entrecruzamientosque generan recombinacin. Es decir, cada cromoso-ma transmitido a la descendencia estar formado poruna composicin de fragmentos largos que son unacopia exacta de los del progenitor, pero combinando par-tes del cromosoma paterno y del materno. La frecuenciade entrecruzamientos por cromosoma es pequea, de1 a 4, y depende de su tamao. La probabilidad de queentre 2 loci cercanos se d una recombinacin es bajay, por ello, se observa el desequilibrio de ligamiento, que

    tiende a disminuir en sucesivas generaciones hasta lle-gar al equilibrio (independencia estadstica).

    El desequilibrio de ligamiento es muy til, pues per-mite localizar polimorfismos relacionados con la enfer-medad. Si aparece una mutacin que genera un poli-morfismo responsable de la enfermedad, es posible queotros polimorfismos cercanos tambin estn asociadoscon ella. De hecho, como lo que se transmite de pa-dres y madres a sus hijos son cromosomas, suele serinteresante identificar el conjunto de alelos que se trans-miten conjuntamente en cada cromosoma, de maneraque sea ms fcil as identificar el polimorfismo cau-sal. A este conjunto de alelos que se transmiten con-juntamente se le denomina haplotipo. Un individuo, paraun conjunto de loci cercanos, posee 2 haplotipos, cadauno en un cromosoma. Identificar los haplotipos a par-tir de los genotipos de cada locus suele ser fcil, aun-que hay algunos casos excepcionales. En la tabla 3 sepresentan los haplotipos para el caso de 2 loci bialli-cos, es decir, 2 polimorfismos cercanos, cada uno deellos con 2 alelos posibles, el primero T > C y el se-gundo A > G. De las 9 combinaciones de genotipos po-

    337

    Iniesta R, et al. Anlisis estadstico de polimorfismos genticos en estudios epidemiolgicos

    Gac Sanit. 2005;19(4):333-41

    Tabla 2. Anlisis del riesgo de un polimorfismo en funcin del modelo de herencia

    Modeloa Genotipob Controles Casos OR IC del 95% pc Cod

    N % N %

    TT 210 65,0 225 62,2 1 0,07Co TC 104 32,2 114 31,5 1,02 0,74-1,42

    CC 9 2,8 23 6,4 2,38 1,09-5,22

    Do TT 210 65,0 225 62,1 1 0,43 0,034TC-CC 113 34,9 137 37,8 1,13 0,83-1,55

    Re TT-TC 314 97,2 339 93,6 1 0,024 0,89CC 9 2,79 23 6,3 2,37 1,09-5,14

    Ad 1,21 0,93-1,57 0,14 0,08

    aModelos de herencia: codominante (Co), dominante (Do), recesivo (Re), aditivo (Ad). bGenotipos y sus agrupaciones para un polimorfismo en un locus biallico T > C.cp del test de asociacin (comparacin con el modelo nulo). dp del test que compara con el modelo codominante.

    Tabla 3. Posibles haplotipos en funcin de los genotipos de 2 loci biallicos

    GenotiposT > C TT TC CCA > GAA T A + T A T A + C A C A + C AAG T A + T G T A + C G C A + C G

    T G + C AGG T G + T G T G + C G C G + C G

    Un individuo es portador de una pareja de haplotipos. Para los individuos con ambosloci heterocigotos (TC/AG) no es posible identificar las parejas de haplotipos.

    10 Nota Metodolo 272 (333-341) 26/7/05 12:48 Pgina 337

  • sibles, todas ellas permiten identificar los haplotipos aexcepcin de una, que corresponde al caso en queambos loci sean heterocigotos. Por ejemplo, si los ge-notipos para un individuo son TC y AA, sus haplotipossern T-A y C-A, es decir, el individuo ser portador deuna pareja de cromosomas, con cada una de estas com-binaciones de alelos. En el caso de que los 2 genoti-pos sean heterocigotos: TC y AG, la combinacin dealelos en cromosomas puede ser T-A y C-G o bien T-G y C-A. No se puede saber qu combinacin es lacorrecta para un individuo si no se conocen los geno-tipos de los progenitores o se emplean tcnicas de la-boratorio muy sofisticadas que permitan identificar ha-plotipos. En la prctica, para realizar anlisis estadsticosde asociacin se recurre a mtodos de estimacin quetienen en cuenta variables con incertidumbre para re-solver este problema.

    Anlisis descriptivo de haplotipos

    La estimacin de las frecuencias para cada haplo-tipo sera sencilla si no se dieran casos de incertidumbre,es decir, casos en que no es posible determinar la pa-reja de haplotipos que lleva el individuo debido a queste tenga 2 o ms loci heterocigotos. Si, adems, hayvalores perdidos en la determinacin de alguno de losgenotipos, la incertidumbre aumenta. Para estimar lafrecuencia de los haplotipos en estos casos hay variasposibilidades:

    1. Mtodos basados en reglas. Consisten en ob-servar la distribucin de alelos en los haplotipos queno presentan incertidumbre e imputar los casos con in-certidumbre a aquellas combinaciones observadas conms frecuencia17. El principal inconveniente de este m-todo es que la solucin puede no ser nica en funcinde cmo se inicie el algoritmo.

    2. Estimacin estadstica mediante el algoritmo es-peranza-maximizacin18 (EM). ste es un mtodo es-tadstico genrico19 para tratar variables no observadas(en este caso, la proporcin de individuos con cada po-sible haplotipo en caso de incertidumbre). El algoritmoitera repetidamente entre 2 pasos hasta conseguir con-vergencia. En primer lugar, se usan unas frecuenciasiniciales, no necesariamente correctas, para cada po-sible haplotipo. En el supuesto de que esas frecuen-cias fuesen correctas, y asumiendo que hay equilibriode Hardy-Weinberg, se podra calcular la frecuencia es-perada de cada combinacin de genotipos con incer-tidumbre (paso E). Con las frecuencias de cada com-binacin de genotipos se pueden obtener las frecuenciasde cada haplotipo maximizando la funcin de verosi-militud de los haplotipos (paso M). Este paso consisteen contar los haplotipos compatibles con cada combi-

    nacin de genotipos. El algoritmo converge a valoresestables de frecuencia de combinaciones de genotiposcon incertidumbre y de frecuencia de haplotipos, quees nuestro objetivo. Para los individuos con incerti-dumbre, a cada pareja de haplotipos posible se le puedecalcular una probabilidad. Una limitacin de este m-todo es que no proporciona directamente varianzas delas estimaciones y, si se analizan simultneamente mu-chos polimorfismos (ms de 20) con un alto grado deincertidumbre, pueden obtenerse soluciones incorrec-tas, pues el algoritmo puede tender hacia un mximolocal. En estas situaciones es importante repetir el al-goritmo empleando diferentes valores iniciales de lasfrecuencias de haplotipos. En nuestra experiencia, parael anlisis simultneo de menos de 10 polimorfismoseste mtodo siempre ha proporcionado soluciones co-herentes.

    3. Estimacin estadstica mediante mtodos Mon-tecarlo basados en cadenas de Markov (MCMC). Setrata de una aproximacin bayesiana al problema queha permitido mejorar los resultados en caso de anali-zar muchos polimorfismos20. Este mtodo proporcionacomo informacin adicional interesante una muestraaleatoria de la distribucin a posteriori de la frecuen-cia de cada haplotipo, que puede ser empleada paracalcular la varianza, adems del valor esperado. De estamanera podemos conocer directamente la precisin dela estimacin de la frecuencia de cada haplotipo.

    Anlisis de la asociacin de los haplotipos con la enfermedad

    Cualquiera de los mtodos anteriores permite iden-tificar o estimar, para cada individuo, la pareja de ha-plotipos que posee en funcin de los genotipos. Estoshaplotipos pueden analizarse entonces en relacin conla enfermedad mediante modelos de regresin logsti-ca. Normalmente se realiza un anlisis de cromosomasy no de individuos, es decir, se duplica la muestra, demanera que cada individuo contribuye con 2 observa-ciones, una para cada haplotipo, y se compara el ries-go asociado con los diversos haplotipos entre s, to-mando como referencia el ms frecuente. Este anlisises ms sencillo de analizar e interpretar que el de pa-rejas de haplotipos y no parece que requiera la reali-zacin ajustes, pues los haplotipos se heredan de ma-nera independiente; no obstante, este aspecto no estcompletamente estudiado.

    En caso de incertidumbre por mltiples heterocigotoso valores perdidos, los mtodos basados en el algorit-mo EM o MCMC proporcionan una lista de parejas dehaplotipos compatibles, cada una con una probabilidadde aparicin asociada. Entonces, estos individuoscontribuyen en los datos con ms de 2 observaciones

    338

    Iniesta R, et al. Anlisis estadstico de polimorfismos genticos en estudios epidemiolgicos

    Gac Sanit. 2005;19(4):333-41

    10 Nota Metodolo 272 (333-341) 26/7/05 12:48 Pgina 338

  • y se emplean las probabilidades de aparicin de cadahaplotipo como pesos en el modelo de regresin lo-gstica. El anlisis combinado de genotipos y haploti-pos suele ser ms informativo que cualquiera de los 2 aislados, aunque hay cierta discusin sobre qu an-lisis es preferible en cada situacin21,22.

    Ejemplo de anlisis de genotipos y haplotipos

    Supongamos un estudio de casos y controlessobre cncer colorrectal en que se analizan 4 poli-morfismos en un gen relacionado con el metabolis-mo de carcingenos. En la tabla 4 se muestra el an-lisis de cada polimorfismo por separado para elmodelo codominante. Los polimorfismos en los lociA y B son raros y slo se ha observado un caso ho-mocigoto variante para cada uno de ellos, por lo quese analizan con el modelo dominante. El polimorfis-mo C muestra una asociacin fuerte con la enfer-medad y las OR crecientes indican que el modelo adi-tivo es el que mejor ajusta. El polimorfismo Dtambin est asociado con la enfermedad, pero enmenor magnitud, y como los OR para heterocigotosy homocigotos variantes son similares, el modelo do-minante es el ms verosmil.

    El anlisis de haplotipos que se muestra en la ta-bla 5 revela que, aunque podra haber 24 = 16 combi-naciones de alelos diferentes, slo se observan 7. Dehecho, 2 haplotipos acumulan una frecuencia del 92%.En los anlisis de asociacin, los haplotipos raros nor-malmente se agrupan en una categora. El punto decorte para definir un haplotipo raro suele depender del

    tamao de muestra global. En nuestro caso, con unos700 individuos limitaremos el anlisis a los 5 haploti-pos con frecuencia superior al 1%.

    El haplotipo 1, el ms frecuente, se toma como re-ferencia. El segundo haplotipo en frecuencia contienevariantes para los polimorfismos C y D, simultneamente.La correlacin (desequilibrio de ligamiento) entre estos2 polimorfismos es muy alta. Este haplotipo es el nicoque muestra un riesgo aumentado significativo y reco-ge la informacin observada en el anlisis de genotipospor separado. Sin embargo, el haplotipo 3, con una fre-cuencia del 4%, slo difiere del ms frecuente por la va-riante en el polimorfismo D, y este haplotipo muestra unaasociacin inversa, no significativa, con la enfermedad.Ello permite deducir que el aumento de riesgo obser-vado en el anlisis del polimorfismo D es espreo, re-flejo de la correlacin (desequilibrio de ligamiento) conel polimorfismo C. Se trata de un fenmeno similar alde la confusin en otros contextos de anlisis epide-

    339

    Iniesta R, et al. Anlisis estadstico de polimorfismos genticos en estudios epidemiolgicos

    Gac Sanit. 2005;19(4):333-41

    Tabla 4. Asociacin de cada polimorfismo con la enfermedad

    Locusa Genotipob Controles Casos OR IC del 95% pc

    N % N %

    A GG 284 96,3 317 96,6 1 0,80GA/AA 11 3,7 11 3,6 0,90 0,38-2,10

    B TT 278 96,5 307 95,6 1 0,57TG/GG 10 3,5 14 4,4 1,27 0,55-2,90

    C AA 158 49,2 141 39,1 1 0,0099AC 137 42,7 172 47,7 1,41 1,02-1,94CC 26 8,1 48 13,3 2,07 1,22-3,51 0,002d

    D TT 126 39,4 112 31,7 1 0,11TC 139 43,4 169 47,9 1,37 0,97-1,92CC 55 17,2 72 20,4 1,47 0,95-2,27 0,038e

    aLos loci estn ordenados segn su posicin en el genoma. bPara los loci A y B se emplean modelos asumiendo un efecto dominante, pues slo se ha observado 1 casohomocigoto variante. cp para el test de asociacin. dp para el modelo aditivo. ep para el modelo dominante.

    Tabla 5. Anlisis de frecuencias de haplotipos y su asociacincon la enfermedad

    Haplotipo Locus A B C D fra OR IC del 95% pb

    Hap 1 G T A T 0,59 1Hap 2 G T C C 0,33 1,50 1,15-1,96 0,003Hap 3 G T A C 0,04 0,59 0,31-1,10 0,095Hap 4 G G A C 0,019 1,63 0,65-4,10 0,30Hap 5 A T A C 0,018 0,88 0,37-2,10 0,78Hap 6 G T C T 0,002 Hap 7 G G A T 0,002

    aFrecuencia estimada de cada haplotipo.bp del test que compara cada haplotipo confrecuencia superior al 1% con el haplotipo ms frecuente (Hap 1).

    10 Nota Metodolo 272 (333-341) 26/7/05 12:48 Pgina 339

  • miolgico. Otra manera de confirmar esta observacines realizar un anlisis de los genotipos del polimorfis-mo D ajustado por el C. La asociacin desaparece (ORmodelo dominante = 0,99; IC del 95%, 0,55-1,77; p =0,99), mientras que el anlisis del polimorfismo C ajus-tado por el D mantiene los estimadores y la significa-cin estadstica. En este ejemplo, los polimorfismos Ay B son poco frecuentes y apenas aportan informacin.

    El hecho de que el polimorfismo C domine la aso-ciacin no permite concluir que es el realmente cau-sante de modificar el riesgo de la enfermedad. Para ellosera necesario contar con informacin de estudios fun-cionales que demostraran un efecto biolgico diferen-te en la variante en comparacin con el alelo ms fre-cuente. La asociacin observada podra ser debida aotro polimorfismo no estudiado cercano al C que es-tuviese altamente correlacionado. Es evidente que sino contramos con la informacin del polimorfismo Cy tuvisemos slo la del D podramos caer en la ten-tacin de imputar el efecto a D, algo que ahora sabe-mos que es falso.

    Software para anlisis de genotipos y haplotipos

    Los anlisis de este trabajo se han realizado con elpaquete haplo.Stats23 del software de uso libre R24. La fun-cin haplo.em permite estimar las frecuencias de haplo-tipos mediante el algoritmo EM. La funcin haplo.glm per-mite ajustar modelos de regresin logstica empleando lasprobabilidades de cada pareja de haplotipos con incerti-dumbre como pesos en el modelo. En R hay otros paquetestiles para anlisis de epidemiologa gentica (genetics,hapassoc y gap) y casi todos emplean una adaptacin delprograma SNPHAP de Clayton25. Otros programas tilesde uso libre son Arlequin26, Haploview27 y EH28 y se puedeencontrar un listado exhaustivo de software para anlisisgenticos en la Universidad Rockefeller29.

    Agradecimientos

    Este trabajo ha recibido financiacin del FIS (expedien-tes 96/0797, 03/0114) y del ISCIII (redes de centros C03/09y C03/10).

    Bibliografa

    1. Guttmacher AE, Collins FS. Genomic medicinea primer. NEngl J Med. 2002;347:1512-20.

    2. Porta M. The genome sequence is a jazz score. Int J Epi-demiol. 2003;32:29-31.

    3. McWilliams JE, Sanderson BJ, Harris EL, Richert-Boe KE,Henner WD. Glutathione S-transferase M1 (GSTM1) deficiencyand lung cancer risk. Cancer Epidemiol Biomarkers Prev. 1995;4:589-94.

    4. Sorensen M, Autrup H, Tjonneland A, Overvad K, Raaschou-Nielsen O. Glutathione S-transferase T1 null-genotype is as-sociated with an increased risk of lung cancer. Int J Cancer.2004;110:219-24.

    5. Hung RJ, Boffetta P, Brennan P, et al. GST, NAT, SULT1A1,CYP1B1 genetic polymorphisms, interactions with environ-mental exposures and bladder cancer risk in a high-risk po-pulation. Int J Cancer. 2004;110:598-604.

    6. Benhamou S, Lee WJ, Alexandrie AK, Boffeta P, BonchardyC, Butkiewicz P, et al. Meta- and pooled analyses of the ef-fects of glutathione S-transferase M1 polymorphisms and smo-king on lung cancer risk. Carcinogenesis. 2002;23:1343-50.

    7. Strittmatter WJ, Weisgraber KH, Huang DY, Dang LM, Sal-vesen GS, Pericak-Yance, et al. Binding of human apolipo-protein E to synthetic amyloid beta peptide: isoform-specificeffects and implications for late-onset Alzheimer disease. ProcNatl Acad Sci USA. 1993;90:8098-102.

    8. Pandolfo M. Friedreichs ataxia: clinical aspects and patho-genesis. Semin Neurol. 1999;19:311-21.

    9. Caporaso NE. Why have we failed to find the low penetran-ce genetic constituents of common cancers? Cancer Epide-miol Biomarkers Prev. 2002;11:1544-9.

    10. Tabor HK, Risch NJ, Myers RM. Opinion: candidate-gene ap-proaches for studying complex genetic traits: practical con-siderations. Nat Rev Genet. 2002;3:391-7.

    11. Cardon LR, Bell JI. Association study designs for complex di-seases. Nat Rev Genet. 2001;2:91-9.

    12. Zhao H. Family-based association studies. Stat Methods MedRes. 2000;9:563-87.

    13. Gauderman WJ, Witte JS, Thomas DC. Family-based asso-ciation studies. J Natl Cancer Inst Monogr. 1999;26:31-7.

    14. Elston RC. Introduction and overview. Statistical methods ingenetic epidemiology. Stat Methods Med Res. 2000;9:527-41.

    15. Schaid DJ. Disease-marker association. En: Elston RC, OlsonJM, Palmer L, editors. Biostatistical genetics and genetic epi-demiology Chichester: Wiley; 2002. p. 206-17.

    16. Clayton D. Population association. En: Balding DJ, Bishop M,Cannings C, editors. Handbook of statistical genetics. Chi-chester: Wiley; 2001. p. 519-40.

    17. Clark AG. Inference of haplotypes from PCR-amplified sam-ples of diploid populations. Mol Biol Evol. 1990;7:111-22.

    18. Excoffier L, Slatkin M. Maximum-likelihood estimation of mo-lecular haplotype frequencies in a diploid population. Mol BiolEvol. 1995;12:921-7.

    19. Dempster AP, Laird NM, Rubin DB. Maximum likelihood fromincomplete data via the EM algorithm. J R Stat Soc Ser B.1997;39:1-38.

    20. Stephens M, Smith NJ, Donnelly P. A new statistical methodfor haplotype reconstruction from population data. Am J HumGenet. 2001;68:978-89.

    21. Clayton D, Chapman J, Cooper J. Use of unphased multilo-cus genotype data in indirect association studies. Genet Epi-demiol. 2004;27:415-28.

    22. Cordell HJ, Clayton DG. A unified stepwise regression pro-cedure for evaluating the relative effects of polymorphisms wit-hin a gene using case/control or family data: application toHLA in type 1 diabetes. Am J Hum Genet. 2002;70:124-41.

    23. Lake SL, Lyon H, Tantisira K, et al. Estimation and tests ofhaplotype-environment interaction when linkage phase is am-biguous. Hum Hered. 2003;55:56-65.

    24. The R Project [Consultado 5 Ene 2005]. Disponible en:http://www.r-project.org

    340

    Iniesta R, et al. Anlisis estadstico de polimorfismos genticos en estudios epidemiolgicos

    Gac Sanit. 2005;19(4):333-41

    10 Nota Metodolo 272 (333-341) 26/7/05 12:48 Pgina 340

  • 25. SNPHAP. A program for estimating frequencies of large ha-plotypes of SNPs. Cambridge: Department of Medical Ge-netics, Cambridge Institute for Medical Research [Consulta-do 5 Ene 2005]. Disponible en: http://www-gene.cimr.cam.ac.uk/clayton/software/snphap.txt

    26. Schneider S, Roessli D, Excoffier L. Arlequin: a software forpopulation genetics data analysis. Ver 2.000. Geneva: Ge-netics and Biometry Lab, Department of Anthropology, Uni-versity of Geneva [Consultado 5 Ene 2005]. Disponible en:http://lgb.unige.ch/arlequin/

    27. Barrett JC, Fry B, Maller J, Daly MJ. Haploview: analysis andvisualization of LD and haplotype maps. [Consultado 5 Ene2005]. Disponible en: http://www.broad.mit.edu/personal/jc-barret/haploview/

    28. EH linkage analysis software. New York: Rockefeller Univer-sity [Consultado 5 Ene 2005]. Disponible en: http://linka-ge.rockefeller.edu/ott/eh.htm

    29. An alphabetic list of genetic analysis software. New York: Roc-kefeller University [Consultado 30 Sep 2004]. Disponible en:http://linkage.rockefeller.edu/soft

    341

    Iniesta R, et al. Anlisis estadstico de polimorfismos genticos en estudios epidemiolgicos

    Gac Sanit. 2005;19(4):333-41

    10 Nota Metodolo 272 (333-341) 26/7/05 12:48 Pgina 341