secuenciación de Ácidos nucleicos

48
INSTITUTO DE BIOTECNOLOGÍA-UNAM MÉTODOS FISICOQUÍMICOS EN BIOTECNOLOGÍA: SECUENCIACIÓN DE ÁCIDOS NUCLEICOS PROYECTO DE INVESTIGACIÓN: ROSALIA DE NECOCHEA CAMPION JUAN CARLOS CANUL TEC CUERNAVACA,MOR JUNIO 2004

Upload: enyel32

Post on 04-Jul-2015

1.245 views

Category:

Documents


11 download

TRANSCRIPT

Page 1: Secuenciación de Ácidos Nucleicos

INSTITUTO DE BIOTECNOLOGÍA-UNAM

MÉTODOS FISICOQUÍMICOS EN BIOTECNOLOGÍA:

SECUENCIACIÓNDE ÁCIDOS NUCLEICOS

PROYECTO DE INVESTIGACIÓN:

ROSALIA DE NECOCHEA CAMPIONJUAN CARLOS CANUL TEC

CUERNAVACA,MOR JUNIO 2004

Page 2: Secuenciación de Ácidos Nucleicos

1

INDICE

Algunos acontecimientos relevantes al desarrollo de los 3métodos de secuenciación de los ácidos nucleicos

1.0 INTRODUCCIÓN 51.1 Los orígenes de la investigación de los ácidos nucleícos 61.2 La identificación de los componentes 71.3 El descubrimiento de la estructura del ADN 8

2.0 FUNDAMENTOS TEÓRICOS 112.1 Estructura de los ácidos nucleicos 112.2 Función biológica de los ácidos nucleicos 12

3.0 DESARROLLO HISTÓRICO 133.1 Secuenciación de ácidos nucleicos 133.2 El método de degradación química 17

3.2.1 Ventajas y desventajas 193.3 El método enzimático 20

3.3.1 Limitaciones del método enzimático 21

4.0 MÉTODOS CONTEMPORÁNEOS EN LA SECUENCIACIÓN 224.1 Automatización del método de Sanger 22

4.1.1 La técnica de PCR y su relevancia a la secuenciación 234.1.2 Polimerasa Taq 244.1.3 Marcado de la cadena de ADN 254.1.4 Incorporación del marcaje a la cadena de ADN 264.1.5 Secuenciación automatizada 284.1.6 El desarrollo de maquinas de secuenciación 29

4.2 Secuenciación de ARN 314.2.1 Métodos indirectos 314.2.2 Métodos directos 33

4.3 Resumen de enzimas utilizadas en la secuenciación 34

5.0 ESTRATEGIAS Y APLICACIONES DE LA SECUENCIACIÓN DE 35ÁCIDOS NUCLEICOS

5.1 Proyecto de secuenciación del genoma humano 355.2 Estrategias para la secuenciación de fragmentos grandes 37

5.2.1 “Chromosome Walking” 375.2.2 “Shotgun Sequencing” 38

5.3 Otras aplicaciones 40

6.0 El FUTURO DE LA SECUENCIACION 416.1 Secuenciación por hibridización 416.2 Secuenciación a futuro sin fragmentación de ADN 41

7.0 REFERENCIAS 43

Page 3: Secuenciación de Ácidos Nucleicos

2

INDICE DE TABLAS Y FIGURASFiguras

Figura 1. Las bases presentes en los ácidos nucleicos 7

Figura 2. Estructura química de los nucleótidos 8

Figura 3. Estructura de la doble hélice del ADN 11

Figura 4. El método de secuenciación de Maxam y Gilbert 19

Figura 5. Enzimas de restricción 20

Figura 6. El método de secuenciación de Sanger 21

Figura 7. La reacción de PCR 23

Figura 8. Secuenciadora con detección paralela para 96 caplilares 31

Figura 9. La secuenciadora ABI PRISM 3700 32

Figura 10. La estrategia de “chromosome walking” 38

Figura 11. La estrategia de secuenciación “shotgun” 39

Figura 12. Secuenciación por hibridización 41

Tablas

Tabla 1. 22 Descubrimientos significativos que permitieron el desarrollo de métodosautomatizados de secuenciación de ácidos nucleicos

Tabla 2. 35Algunas de las enzimas que han tenido un papel importanteen el desarrollo de los métodos de secuenciación

Page 4: Secuenciación de Ácidos Nucleicos

3

Algunos acontecimientos relevantes al desarrollo de los métodos desecuenciación de los ácidos nucleícos

1871. Johann Meisher describe el ácido desoxirribonucleico (ADN) en elesperma de la trucha.

1944. Oswald Avery, Colin McLeod y Macyln McCarthy demuestran que el ADNes la substancia en donde reside la información genética.

1950. Erwin Chargaff determina que las cantidades de adenina y timina, y decitosina y guanina, son las mismas en el ADN: “reglas de Chargaff”.

1952. Rosalind Franklin y Maurice Wilkins llevan a cabo estudios decristalografía de rayos X del ADN.

1953. James Watson y Francis Crick proponen el modelo de la doble hélice delADN.

1958. Matthew Meselson y Frank Stahl demuestran que la replicación del ADNes semiconservativa.

1960. Arthur Kornberg descubre y aísla la enzima ADN polimerasa.

1961. Marshall Niremberger y Severo Ochoa establecen el código genéticouniversal.

1968. Matthew Meselson y Robert Yuan aíslan la primera endonucleasa derestricción.

1977. Allan Maxam y Walter Gilbert, y Frederick Sanger et al., desarrollansimultáneamente métodos para la determinación de la secuencia denucleótidos del ADN.

1978. F. Sanger y su equipo reportan la secuencia genómica completa delvirus øX174.

1981. Se reporta la secuencia del genoma de la mitocondria humana.

1983. Marvin Carruthers y Leroy Hood desarrollan un método para secuenciarautomáticamente fragmentos de ADN de 5 a 75 pares de bases.

Page 5: Secuenciación de Ácidos Nucleicos

4

1986. Leroy Hood y Lloyd Smith desarrollan el primer secuenciador automático,que usa un láser que reconoce marcadores de fluorescencia en el ADN.

1987. Kary Mullis desarrolla la técnica de PCR que permite amplificar millonesde veces fragmentos específicos de ADN.

1988. Por iniciativa de Watson, el Instituto Nacional de Salud en EUA,establece la Oficina para la Investigación del Genoma Humano.

1990. Tres grupos desarrollan simultáneamente el método de electroforesiscapilar, que optimiza la automatización de los métodos de secuenciación delADN.

Se inicia el Proyecto del Genoma Humano.

1995. Se reporta la primera secuencia completa del genoma de un organismovivo, el de la bacteria Haemophilus influenzae.

1996. Se reporta la primera secuencia del genoma de un eucarionte, el de lalevadura Saccharomyces cerevisiae.

1998. Se reporta la primera secuencia del genoma de un animal; el deCaenorhabditis elegans.

1999. Se reporta la secuencia nucleotídica del cromosoma humano 22.

2000. Se reporta la primera secuencia del genoma de una planta, el deArabidopsis thaliana.

2001. Se reporta por dos grupos en forma simultánea, la secuencianucleotídica del genoma humano.

2002. Se reportan las secuencias nucleotídicas de los genomás del ratón (Musmusculus) y del arroz (Oryza sativa).

Page 6: Secuenciación de Ácidos Nucleicos

5

1.0 INTRODUCCIÓN.

El lento y tortuoso progreso que acompañó los inicios de la investigación de losácidos nucleicos es representativo de lo limitado de las técnicas y la falta defacilidades en los períodos tempranos de la bioquímica. Las dificultadesencontradas por los investigadores fueron muchas. Era difícil asegurar lahomogeneidad del material de trabajo. No existían métodos establecidos parael estudio de macromoléculas, y tampoco pautas para el aislamiento deunidades estructurales. Afortunadamente, algunas substancias cercanamenterelacionadas fueron sintetizadas por químicos orgánicos en experimentos queusualmente no estaban relacionados con los ácidos nucleicos. Si lainvestigación de los ácidos nucleicos debe mucho a la química orgánica en superíodo inicial, el trabajo conjunto de la biología y la química han hecho de lainvestigación contemporánea de los ácidos nucleicos una rica fuente dedescubrimiento e invención que ha transformado y mejorado la condiciónhumana.

En general, los ácidos nucleicos son polímeros lineales de nucleótidos.Pueden tener desde 80 nucleótidos, como en el tARN, hasta más de 108 paresde nucleótidos en un cromosoma eucariótico. El cromosoma de Escherichiacoli tiene 4 x 106 pares de bases, 4Mpb. El ADN genómico de una sola célulahumana tiene 3,900 Mpb. A un laboratorio de la mitad de la década de lossetentas le habría tomado dos meses secuenciar 150 nucleótidos.Actualmente, un laboratorio especializado es capaz de secuenciar variosmillones de nucleótidos al día. Desde esta perspectiva, resulta notoria lacapacidad de secuenciación de ácidos nucleicos de las tecnologías disponiblesactualmente. Y es principalmente, el desarrollo y la automatización de losmétodos fisicoquímicos de macromoléculas biológicas, en general, lo que hapermitido lograr estos avances en el conocimiento del material genético.

A finales del siglo pasado, se secuenciaron los primeros genomás,correspondientes a las bacterias Haemophilus Influenzae y Mycobacteriumgenitalium. Esfuerzos más recientes han permitido la determinación desecuencias genómicas más complejas. El primer eucarionte secuenciado fueSaccharomyces cerevisiae. Posteriormente se reportaron las secuencias de losgenomás de Caenorhabditis elegans, de Drosophila melanogaster y deArabidopsis thaliana. A principios del año 2001, dos grupos, de manerasimultánea e independiente, reportaron la secuencia del genoma humano, y afines del año 2002 se reportó el genoma del ratón y del arroz.

Page 7: Secuenciación de Ácidos Nucleicos

6

Con la determinación de la secuencia nucleotídica del genoma humano yla de otros organismos nos hemos adentrado en el conocimiento de la célula.Conociendo la secuencia de todos los genes de un organismo, es posiblededucir su proteoma. Asimismo, con la información que se tiene, es posibleempezar el estudio integral y global de las redes metabólicas y conocer lamanera en que una célula regula la expresión genética en diferentescondiciones metabólicas. Sin embargo, este nuevo conocimiento es preliminar.Si bien podemos enlistar todos los genes de una célula, la determinación de lasposibles interacciones entre sus productos es una meta a largo plazo todavía.Hay, pues, mucho más que conocer para entender el proceso mismo de lavida.

En este trabajo se expone una breve perspectiva histórica de algunos delos hechos que han repercutido sensiblemente en el avance de las tecnologíaspara la secuenciación de los ácidos nucleícos. Desde el tortuoso camino quellevo a la elucidación de la estructura de la doble hélice, pasando por losesfuerzos iniciales para desentrañar el lenguaje del ADN (y de la vida) y losesfuerzos más recientes que inauguraron la era de la genómica. Una miradahacia atrás siempre es importante, no sólo porque ayuda a consolidar losconceptos de una materia en particular, sino también porque se puedeaprender de las experiencias de otros. Además, se presentan los fundamentosteóricos y físicos relacionados con la química de los ácidos nucleicos.y susecuenciación. Finalmente, se citan algunas de las aplicaciones que hanpermitido profundizar en el conocimiento del material genético de las células.

1.1 Los orígenes de la investigación de los ácidos nucleicos.

La historia de los ácidos nucleicos iniciando en 1869, con los estudiosdel bioquímico sueco Friedrich Miescher. En Tuebingen, Miescher extrajo unmaterial de una fracción nuclear de leucocitos presentes en pus obtenido devendajes quirúrgicos. El material extraído, al cual denomino nucleína, era ricoen fósforo. En 1870, Miescher se movió a Basel, donde encontró que elextracto de esperma de salmón era una gran fuente de nucleína. La nucleínaera una substancia albuminoide y fuertemente ácida, combinada con una basenitrogenada que Miescher cristalizó y llamo protamina. De hecho, la nucleínaera en realidad una nucleoproteína. Richard Altmann (1889) obtuvo el primermaterial libre de proteína, al cual dio el nombre de ácido nucleico. JulesPiccard, compañero de Miescher en Basel, hizo más estudios con la nucleína yencontró que también contenía guanina e hipoxantina. Sin embargo, niMeischer, ni sus colegas y sucesores se imaginaron que el ácido nucleicopudiera llevar mensajes complejos en patrones repetidos de componentes máspequeños (Levine y Suzuki, 2000). La botella con el inocente polvo blanco se

Page 8: Secuenciación de Ácidos Nucleicos

7

quedó en el anaquel del laboratorio. Tuvieron que pasar varias décadas pararevelar que, de hecho, era una botella de genes.

1.2 La identificación de los componentes.

Lentamente se fueron llevando a cabo estudios más exactos para laidentificación de los componentes de los ácidos nucleicos. La guanina (G)había sido aislada del guano; sin embargo, su relación con los ácidos nucleicosse estableció hasta 1910, al compararla con el nucleósido que PhoebusLevene obtuvo del ácido guanílico. Albrecht Kossel y A. Neumann aislaron laadenina (A) y la timina (T) de la glándula del timo. Ascoli y Steudeldescubrieron la citosina (C) y el uracilo (U) (Schlenk, 1988).

La ribosa y la desoxirribosa fueron aisladas por Levene en 1909 y 1930,respectivamente. En ambos casos, el aislamiento de los nucleósidos fue unrequisito para proveer el material inicial. La hidrólisis con piridina del ácidonucleico de levadura produjo fosfatos y los nucleósidos adenosina, citosina,guanosina y uridina. Levene determinó que en todos los nucleósidos la pentosaera una ribosa y nombró al ácido original como ácido ribonucleico (ARN). Losnucleósidos fueron identificados como derivados de las bases A, C, G y U(figura 1). En 1929, Levene identificó la desoxirribosa del ácido nucleico aisladodel tejido de la pantorrilla, al cual denominó ácido desoxirribonucleico (ADN).Este ácido exhibía una mayor resistencia a la hidrólisis química que el ARN, yconsiguió degradarlo con enzimás, seguido de la hidrólisis ácida de susdesoxinucleótidos.

En 1935, se descubrió que el ADN podría ser cortado enzimáticamenteen mononucleótidos, en presencia de arsenato. Usando este procedimiento,Klein y Thannhauser obtuvieron los desoxirribonucleótidos y establecieron quecada nucleótido está unido por un enlace fosfodiéster del hidroxilo 5´ alhidroxilo 3´ de su otro vecino (figura 2).

Figura 1. Las bases presentes en losácidos nucleicos. Las bases guanina(G), adenina (A) y citosina (C) existenen el ADN y el ARN. La timina (T) sólose encuentra en el ADN y essubstituida en el ARN por el uracilo(U). Estas bases están unidascovalentemente a los azúcaresdesoxirribosa y ribosa, para formarasí los nucleótidos del ADN y ARN,respectivamente (ver figura 3).

Page 9: Secuenciación de Ácidos Nucleicos

8

De manera lenta y errática, las ideas provenientes de diversos camposempezaron a señalar al ADN como un participante de importancia en la vida dela célula. El trabajo de Fred Griffith en 1928 y el de los investigadores OswaldAvery, Colin McLeod y Macyln McCarthy, en 1944, permitió demostrarinequívocamente que la información genética reside en el ADN. Estacontribución dio lugar a que un importante esfuerzo científico se enfocara en ladeterminación de la composición y la estructura química de la molécula delADN. Pese a lo anterior, durante algún tiempo muchos bioquímicos insistieronen que el ADN era una molécula demásiado “tonta” como para llevar muchainformación; los componentes del ADN parecían muy simples y repetitivoscomo para ser portadores de información.

Figura 2. Estructuraquímica de los (a)ribonucleótidos y (b)desoxirribonucleótidos, constituyentes de losácidos nucleicos. En elARN, el C-1´ de la D-ribosa está unido al N-9 de A o G, o al N-1 deC o U. En el ADN, la 2´-desoxi-D-ribosa está

unida de la misma forma a las cuatro bases, pero la T toma el lugar del U (losnúmeros con tilde se refieren a los átomos de la pentosa; los números sin tilde serefieren a los de la base nitrogenada). Los grupos fosfato pueden estar unidos alC3´ o al C5´ de la pentosa. Si el grupo fosfato está ausente, el compuesto es unnucleósido. En todos los nucleótidos y nucleósidos naturales, el enlace N-glicosídico que une la base nitrogenada al C1´ del azúcar es de configuración _(Voet & Voet, 1995).

1.3 El descubrimiento de la estructura del ADN.

A mediados del siglo pasado, los investigadores no pudieron avanzarmás en la elucidación de la estructura primaria del ADN. Ninguno de losrequerimientos claves para la determinación de la secuencia estaba a la mano:no habían métodos para obtener muestras puras de ADN con una secuenciade bases homogénea, y tampoco estaban disponibles métodos para el corte decadenas de ADN en una base específica. Consecuentemente, toda la atenciónse centró en la estructura secundaria.

Dos experimentos independientes demostraron que el ADN poseía unaestructura secundaria ordenada. Ambos dejaron información vital para sus

Page 10: Secuenciación de Ácidos Nucleicos

9

sucesores, sin embargo, cada contribución tenía un error. En 1938, WilliamAstbury obtuvo un patrón de difracción de rayos-x de fibras secas de ADN, ydedujo que el espacio de 3.34 Å a lo largo del eje de la fibra correspondía al deuna sucesión cercana de nucleótidos planos. Éstos sobresalíanperpendicularmente a lo largo del eje de la molécula para formar una estructurarelativamente rígida. Algunos años después, J. Gulland estudió la viscosidad yla birrefringencia de flujo del ADN y postuló la presencia de puentes dehidrógeno que unían a los grupos hidroxilo de la piridina y la purina y a algunosde los grupos aminos. Desafortunadamente, utilizó las formás tautoméricasenol para la timina y la guanina. La importancia de las formás tautoméricascorrectas (ceto), se reconoció hasta 1953.

Erwin Chargaff estudió la composición del ADN de una amplia variedadde fuentes. Mediante cromatografía en papel separó los productos de lahidrólisis del ADN y con espectroscopia ultravioleta cuantificó sus abundanciasrelativas. Sus datos mostraron que la proporción de purinas (A+G) siempre esigual a la proporción de pirimidinas (C-T) en el ADN de cualquier organismo.Aunque la proporción (G+C)/(A+T) varía de especie a especie, diferentestejidos de una sola especie tienen la misma composición de ADN. Cualquierestructura propuesta para el ADN tenía que considerar este patrón (figura 3).

Los patrones de difracción de rayos X realizados por Rosalind Franklin yMaurice Wilkins revelaron que el ADN podía tener dos estructuras secundariasposibles, cuya formación dependía de la humedad relativa a la cual seobtuvieran los datos. La forma A del ADN se obtuvo a baja humedad. Encambio, el patrón del B-ADN prevalece a una humedad elevada. Éste patrónentrecruzado, representativo de las estructuras helicoidales, tiene una fuertereflexión a 0.34 nm, que indica el espaciamiento entre los pares de basesadyacentes, y una reflexión a 3.4 nm que corresponde a un giro completo de lahélice. Franklin propuso que este comportamiento requería que los gruposfosfatos estuvieran expuestos al agua en el exterior de la hélice, con elcorolario de que las bases estuvieran en el interior de la hélice.

En 1953, James Watson y Francis Crick descifraron la estructura delADN. Watson propuso que el número de nucleótidos en la célula unitariacristalográfica favorecía una hélice de doble cadena. Crick dedujo de los datosdel patrón de difracción que la estructura era una díada, es decir, que tiene unaasimetría tal que las cadenas equivalentes son antiparalelas, es decir, correnen direcciones opuestas a lo largo del eje longitudinal. Sólo quedaba porresolver un problema: cómo construir el núcleo de la hélice, empacando lasbases juntas en una estructura regular. A partir de las conclusiones de Gulland,Watson sabía que los puentes de hidrógeno unían las bases del ADN. Esto lo

Page 11: Secuenciación de Ácidos Nucleicos

10

convenció de que la esencia de la cuestión tenía que ser una regla quegobernara los puentes de hidrógeno entre las bases.

Aconsejado por Jerry Donohue, Watson manipuló modelos de las bases,en las formás tautoméricas ceto, apareando la A con la T y la G con la C.Encontró una relación simple y convincente que involucraba dos puentes dehidrógeno para una pareja A·T y tres puentes de hidrógeno para una parejaG·C. La característica especial de este esquema de apareamiento de bases esque la geometría relativa de los enlaces uniendo las bases a las pentosas esvirtualmente idéntico para los pares A·T y G·C. Resultó obvio que si una purinasiempre se aparea con una pirimidina, entonces una secuencia irregular debases en una cadena sencilla de ADN podría estar apareada regularmente enel centro de una doble hélice sin pérdida de simetría. Las reglas de Chargafffueron reveladas directamente como una consecuencia obligatoria de unaestructura de doble hélice para el ADN. Sobre todo, ya que la secuencia debases de una cadena automáticamente determina la de su pareja, Crick yWatson pudieron visualizar fácilmente cómo una cadena sencilla podría ser eltemplado para la síntesis de una segunda cadena de secuencia de basescomplementaria (figura 3).

El modelo de Watson y Crick de la estructura del ADN fue aceptadorápidamente porque lograba dos cuestiones importantes. Primero, daba cuentade toda la evidencia química y física disponible. Segundo, abría el camino paraexplicar, de manera más detallada, como lleva a cabo el ADN las funcionesnecesarias para ser el portador de la información hereditaria. A partir de estemomento, fue aparente que toda la información requerida para especificar ladiversidad de las moléculas biológicas, necesaria para llevar a cabo lasfunciones de la célula, había que buscarla en la secuencia irregular de lasbases nucleotídicas. Alexander Dounce, en 1950, postuló que el ARN era eltemplado que dirigía la síntesis de proteínas celulares y que una secuencia detres nucleótidos especificaba solo un aminoácido. El reconocimiento de variostipos de ARN por Robert Holley no tardó en llegar. Más adelante, GobindKhorana sintetizó los 64 tri-ribonucleósidos difosfato y los poli-ribonucleótidoscon secuencias repetidas de di-, tri- y tetranucleótidos que fueron usados comomARN para identificar cada triplete del código. Y el establecimiento del códigogenético por Marshall Niremberg y Severo Ochoa fue el evento culminante.

Page 12: Secuenciación de Ácidos Nucleicos

11

Figura 3. Representación esquemática de la estructura de la doble hélice del ADN.En el texto se explica la configuración de la estructura.

2.0 FUNDAMENTOS TEORICOS.

2.1 Estructura de los ácidos nucleicos.

El ADN es una doble hélice. Cada una de las hélices es un polímerointegrado por millones de nucleótidos que son los monómeros del polímero.Cada nucleótido está formado por una desoxirribosa, una base púrica opirimídica y un grupo fosfato. Las dos cadenas de ADN son antiparalelas y seunen entre sí a través de puentes de hidrógeno que se forman entre las basescomplementarias (A·T y G·C) de las dos hebras del ADN. De esta manera, seobtiene una estructura tipo doble hélice, donde las bases de los nucleótidos seencuentran orientadas hacia el interior, mientras que los grupos fosfato y lasdesoxirribosas lo hacen hacia el exterior, formando los esqueletos fosfodiésterde cada hélice (figura 3). Los pares de nucleótidos se encuentran separadosentre sí por 3.4 Å, cada diez pares de nucleótidos (34 Å) se alcanza una vueltade la hélice. La diferencia fundamental entre todas las moléculas de ADN queforman el material genético de los seres vivos es la secuencia de los millonesde estos cuatro tipos de nucleótidos con sus bases A, T, G y C en cadamolécula de ADN.

Page 13: Secuenciación de Ácidos Nucleicos

12

Al igual que en el ADN, los estudios de la estructura del ARN empezaroncon su estructura primaria. Esta búsqueda se logró en paralelo que la del ADN,pero tuvo la complejidad extra del grupo hidroxilo 2´ de los ribonucleótidos. Adiferencia del ADN, las moléculas de ARN constan generalmente de cadenasúnicas de polinucleótido, debido a que se forman copiando la secuencia debases de una cadena de ADN. El apareamiento de las bases de Watson-Cricken el ARN es normal, aunque el tARN es una rica fuente de pares de basesinusuales. Hoy se sabe que el ARN tiene una mayor versatilidad estructuralque el ADN en la variedad de sus especies, en la diversidad de susconformaciones, y en su reactividad química. Los ARNs naturales puedenformar estructuras de doble cadena o adoptar una forma globular compuestapor pequeños dominios dobles conectados por segmentos de cadena sencilla.Las dobles hélices del ARN sólo pueden adoptar la forma A, ya que el hidroxilo2´ de la ribosa constituye un impedimento estérico.

2.2 Función biológica de los ácidos nucleicos.

Las funciones de los ácidos nucleicos son de almacenamiento,expresión y replicación de la información biológica. En términos generales,todas las moléculas de ADN tienen una configuración similar. Sin embargo, elADN de una determinada especie de organismos tiene una secuencia debases propia: su estructura primaria está agrupada en unidades funcionalesllamadas genes. La información que contiene esta secuencia desempeñadiversas funciones. Los genes estructurales codifican para enzimás, proteínasestructurales y proteínas reguladoras. Otros tipos de genes codifican moléculasde ARN que no especifican la estructura primaria de un polipéptido, i.e., tARNs.

El primer paso en la síntesis de proteínas es la síntesis de una moléculade ARN usando como molde un segmento de una de las cadenas del ADN. Enla transcripción, el orden de los desoxirribonucleótidos de uno o varios genesse transfiere uno por uno a una secuencia de ribonucleótidos complementaria.Este proceso está mediado por la enzima ARN polimerasa; y al igual que lareplicación del ADN, siempre ocurre en la dirección 5' a 3'.

Como los procariontes no tienen membrana nuclear, las moléculas deARN que se transcriben de los genes son inmediatamente traducidas a nivel delos ribosomás para sintetizar las proteínas. En el caso de los eucariontes, losARN transcritos son transportados del núcleo al citoplasma, a través de lamembrana nuclear. Además, los genes de los eucariontes contienen intrones,estructuras de ADN que interrumpen la región del gen que codifica para laproteína (exón). Al transcribirse un gen en los núcleos de las células de loseucariontes, el ARN resultante incluye tanto las regiones de los intrones como

Page 14: Secuenciación de Ácidos Nucleicos

13

las de los exones. Esta molécula de ARN se “procesa” para dar lugar al mARNmaduro que se exporta del núcleo de la célula al citoplasma, donde luego setraduce en proteína.

La información genética contenida en cada molécula de mARN setraduce en proteínas a través de un proceso enzimático que se realiza en losribosomás. En la traducción participan principalmente tres tipos distintos deARN: el ARN ribosomal (rARN), que junto con varias proteínas forman losribosomás; el ARN mensajero (mARN), que acarrea la información genéticacontenida en genes específicos del ADN y los ARNs de transferencia (tARN),que sirven como adaptadores específicos para cada aminoácido durante elordenamiento lineal de éstos en la síntesis de proteínas, conforme la secuenciadel mARN.

La síntesis de proteínas, que de facto es la traducción de la secuenciade nucleótidos presentes en el mARN, se lleva a cabo mediante lapolimerización de aminoácidos en proteínas, a nivel de los ribosomás endirección 5' a 3'. La secuencia del mARN realiza la codificación en forma detripletes de bases (codones) de acuerdo con el código genético, incorporandoen cada paso de lectura un aminoácido de la proteína. Cada tARN tiene unasecuencia complementaria o anticodón para el codón del aminoácido, que lepermite reconocer el codón correcto sobre el mARN.

3.0 DESARROLLO HISTORICO

3.1 Secuenciación de ácidos nucleicos.

Inicialmente, se pensaba que la secuenciación de los ácidos nucleicosera mucho más difícil que la de las proteínas, y muy poco progreso se hizohasta 1960. Esto se debió, en parte, a la falta de substratos puros del tamañoadecuado, con los cuales desarrollar los métodos y en parte, a la composiciónde los ácidos nucleicos. Se esperaba que la interpretación de los resultados dela secuenciación de los ácidos nucleicos (cuatro monómeros) fuera más difícilque el de las proteínas (20 aminoácidos), y se tendrían que aislar productos dedegradación más grandes para poder traslaparlos y deducir sus secuencias.Por otro lado, el hecho de tener cuatro componentes solamente, se pensaba,haría más fáciles los analices finales. Al inicio, la dificultad predominante fue lainterpretación de los resultados, pero a medida que las técnicas se fueronmejorando y que se fueron estudiando moléculas más largas, la cuestión delanálisis empezó a ser más importante. Hoy, la secuenciación de ácidosnucleicos es más rápida y simple que la secuenciación de proteínas.

Page 15: Secuenciación de Ácidos Nucleicos

14

La estrategia básica de la secuenciación de ácidos nucleicos es idénticaa la que se utiliza en la secuenciación de proteínas. Ésta involucra:

1.- La degradación específica y el fraccionamiento de los polinucleótidosde interés a fragmentos suficientemente pequeños para ser secuenciados.

2.- La secuenciación de los fragmentos pequeños.

3.- El ordenamiento de los fragmentos a través de la repetición de lospasos anteriores, usando un procedimiento de degradación que produce unaserie de fragmentos de polinucleótidos que traslapan el punto de corte en laprimera serie.

El primer ácido nucleico en ser secuenciado fue el tARNAla de levadura.La secuencia de este nucleótido de 76 bases fue realizada por Holley ycolaboradores en siete años (Stewart y Letham, 1977). Ellos usaron métodosde secuenciación similares a los que se usaban para secuenciar proteínas; lahidrólisis parcial con enzimás y el fraccionamiento de los productos encolumnas de intercambio iónico. El grupo de Holley introdujo el uso de laribonucleasa T1 (de Aspergillus oryzae), la cual corta ARN después de residuosde guanina y de la ribonucleasa pancreática A, que corta después de residuospirimídinicos.

Poco después, Frederick Sanger y sus colaboradores dirigieron susesfuerzos para desarrollar técnicas de fraccionamiento más rápidas y simples,las cuales permitieron la secuenciación de ARN y luego de ADN. El grupo deSanger marcó el ARN con 32P, y pudo detectarlo mediante autoradiografías.Además, introdujeron un método más sencillo para fraccionar losoligonucleótidos. Una técnica de separación bidimensional, con electroforesisen acetato de celulosa, seguido de la electroforesis de intercambio iónico enpapel. Siguiendo este enfoque general, el grupo de Sanger desarrollo variosmétodos para estudiar los nucleótidos aislados (Sanger, 1988).

Uno de los métodos consistía en someter a los oligonucleótidosdigeridos con la ribonucleasa T1, a una digestión parcial con una exonucleasa5´ y correr los productos en una electroforesis sobre papel de dietilaminoetil(DEAE)-celulosa a pH 1.9. La degradación secuencial del extremo 5´ da unamezcla de fragmentos, en donde todos tienen el mismo extremo 3´ perodifieren en sus extremos 5´. En la electroforesis los fragmentos se ordenan portamaño, y de la posición relativa de dos bandas adyacentes es posibleidentificar la naturaleza de los nucleótidos, por los cuales ellos difieren. Otrométodo exitoso fue la técnica “correría de puntos” (“wandering spot”). Se

Page 16: Secuenciación de Ácidos Nucleicos

15

desarrolló un sistema bidimensional en el que primero se digería con unaexonucleasa y los fragmentos obtenidos se ordenaban de acuerdo a sutamaño, de tal manera que cada punto difería del punto siguiente por unnucleótido. El sistema fue arreglado para que las posiciones relativas de dospuntos vecinos dependieran de los nucleótidos por los cuales diferían. Elmétodo fue extendido para usarse con digestiones más complejas, pero no fueposible distinguir la A de la G con absoluta certidumbre. Con estos métodos, sesecuenció el ARN ribosomal 5S de 120 residuos (Sanger, 1988). El arte desecuenciar ARN por estás técnicas alcanzó su cenit en 1976, con lasecuenciación del genoma de 3,569 nucleótidos del bacteriofago MS2 porWalter Fiers.

El principal problema con la secuenciación del ADN era su talla muylarga; el ADN más pequeño que se encontraba disponible era el de genomasde bacteriófagos de cadena simple, de cerca de 5000 nucleótidos, como eløX174. Y éstos eran muy largos para poder secuenciarlos con los métodos queexistían hasta ese momento. Otra dificultad era la falta de enzimas derestricción adecuadas. No existía una enzima con una especificidad análoga ala de la ribonucleasa T1 para el ADN.

Alrededor de 1973, se usaron técnicas similares a las empleadas con elARN para secuenciar ADN, y se pudieron determinar unas pocas secuenciasde unos 50 residuos. Sin embargo, los métodos eran lentos y laboriosos, yresultó obvio que si se iban a atacar secuencias vastas de materialesgenéticos, se necesitaba un nuevo enfoque. Una alternativa a la hidrólisisparcial fue usar técnicas de copiado enzimático para la secuenciación. C.Weissmann y sus colaboradores descubrieron que el bacteriófago Q_ tiene unaARN polimerasa que copia su propio ARN y desarrollaron técnicas para marcarel ARN y deducir su secuencia. La enzima obvia para copiar el ADN fue la ADNpolimerasa.

Un enfoque elegante para conseguir la digestión específica del ADN,que pudo ser combinado con un procedimiento de copiado, fue sugerido por C.Chamberlin en 1963. La técnica hace referencia a que en condicionesnormales los substratos de la ADN polimerasa son los desoxirribonucleósidostrifosfatos, pero si se remplaza el magnesio por manganeso en el medio, sepueden usar ribonucleósidos trifosfatos. Si la incubación se hace con unribonucleósido trifosfato, por ejemplo, el rCTP y tres desoxirribonucleósidostrifosfatos, se puede construir una cadena de ADN con todos los dCsremplazados por rCs. Estos enlaces son lábiles en soluciones alcalinas opueden ser digeridos con una ribonucleasa. De esta manera, se puede

Page 17: Secuenciación de Ácidos Nucleicos

16

preparar una digestión específica en C y otras digestiones similares paraescindir los otros residuos.

Por otra parte, la ADN polimerasa requiere un ADN de cadena sencillacomo templado y un iniciador o “primer”. Éste es un oligonucleótido quecontiene un extremo 3´ libre que es complementario con una cadena molde deADN y funciona como punto de inicio para la adición de nucleótidos. Sanger ysu grupo utilizaron como templado el ADN de cadena sencilla del bacteriófagof1 y sintetizaron el iniciador con base en el método desarrollado por Khorana.Como iniciador usaron un desoxirribonucleótido con una secuencia predicha apartir de la secuencia de aminoácidos, ya conocida, de una proteína de lasuperficie del bacteriófago. Con este método, pudieron determinar la secuenciade 80 nucleótidos. Sin embargo, para poder sintetizar otros 80 residuos,necesitaban hacer otro iniciador. Este procedimiento era todavía lento paraanalizar muchos fragmentos.

Hasta el momento, Sanger y su grupo habían obtenido en susexperimentos ADN altamente marcado, usando el substrato radioactivo conuna actividad específica alta y en bajas concentraciones. Ellos observaron quecuando usaban 32P-ATP, los productos de ADN formados se terminaban antesde que se incorporara una A. Debido, presumiblemente, a que a la enzima lefaltaba ATP. Esto les sugirió un nuevo enfoque para secuenciar ADN. Si unopuede producir una mezcla de fragmentos con el mismo extremo 5´ (quecorresponde al extremo 5´ del iniciador) y terminarlos en posiciones 3´correspondientes a las A´s, la determinación de los tamaños relativos de todosesos fragmentos debería producir una medida de la posición relativa de lasA´s. Esto, combinado con datos similares de los otros tres nucleótidos, es todolo que uno necesita para la determinación completa de una secuencia.Paralelamente, se estudiaron otros métodos de fraccionamiento, y laelectroforesis en gel de acrilamida resulto ser la más eficiente. Con esta técnicase pudieron separar nucleótidos de hasta 250 residuos de acuerdo a sutamaño. En el gel, los fragmentos más pequeños migran más rápido que losmás grandes, y cada uno puede ser separado de sus vecinos, los cualesdifieren en tamaño sólo por un nucleótido. Después de introducir ligerasmodificaciones, desarrollaron el método del “más y menos”, con el que sedeterminó la mayoría de la secuencia del bacteriofago øX174. Sin embargo, elgrupo de Sanger no tardaría en desarrollar un método más eficiente yconfiable: el enzimático, que se discute más adelante.

Page 18: Secuenciación de Ácidos Nucleicos

17

Después de 1975, se realizó un progreso dramático en la tecnología dela secuenciación de los ácidos nucleicos. Tres avances hicieron esto posible:

1.- El descubrimiento de las endonucleasas de restricción, enzimás quecortan ADN de cadena doble en secuencias específicas.

2.- El desarrollo de mejores técnicas de secuenciación de ADN.

3.- El desarrollo de técnicas de clonación que permitieron la adquisiciónde un segmento de ADN en las cantidades necesarias para secuenciarlo.

En 1977, se reportaron dos protocolos para la secuenciación de ADN. Elprimer método fue el de Maxam y Gilbert. Con este método, al igual que con elde Sanger, se obtiene una autoradiografía en donde puede leerse unasecuencia. Sin embargo, se determina la secuencia de una molécula de ADNutilizando químicos que cortan en posiciones específicas fragmentos marcadosen sus extremos 5´. El segundo método es el de Sanger. Éste utiliza untemplado de ADN de cadena sencilla para sintetizar la hebra complementaria,la cual se termina en posiciones específicas. En los dos casos, la secuencia dela molécula se determina por diferencias en los tamaños de los fragmentosgenerados.

3.2 El método de degradación química (Maxam and Gilbert, 1977).

En este método, un fragmento de ADN de cadena doble o sencilla semarca en los extremos 5´ o 3´ de una o ambas hebras con 32P. Después,la muestra de ADN se divide en cuatro alícuotas y se fragmenta encuatro reacciones químicas distintas. Posteriormente, los fragmentos deADN generados pueden ser separados por electroforesis en cuatrocarriles distintos con base en su tamaño. Conociendo el nucleótido en elque se realizaron los cortes, se puede inferir la secuencia de la moléculaoriginal (figura 4). Las reacciones químicas que se utilizan parafragmentar la molécula de ADN son las siguientes:

1. Corte de las purinas. Las purinas adenina y guanina se metilancon dimetil sulfato (DMS). Después, la reacción es tratada encondiciones alcalinas; la molécula de ADN se fragmenta en laspurinas metiladas. Como resultado, se obtiene una serie debandas oscuras que corresponden a las guaninas (las cuales semetilan 5 veces más rápido), y bandas claras que corresponden alas adeninas. Para interpretar fácilmente el patrón de bandas

Page 19: Secuenciación de Ácidos Nucleicos

18

generadas, se puede comparar contra un tratamiento quefavorezca el corte de las adeninas.

2. Corte de adeninas. Esta reacción es una variación de la anterior.Las purinas metiladas se tratan inicialmente con un ácido diluido.Esto favorece el corte de las adeninas metiladas. Después de untratamiento alcalino las guaninas también son cortadas. Estetratamiento genera una serie de bandas oscuras y claras quetambién corresponden a las adeninas, y las guaninas,respectivamente.

3. Corte de pirimidinas. Esta reacción utiliza el reactivo hidracina,que corta las bases citosina y timina. Posteriormente, se trata conpiperidina para completar la reacción.

4. Corte de citosina. La presencia de NaCl 2M inhibe la reacción dehidracina con tiamina, y el tratamiento posterior con piperidina,produce solamente fragmentos que terminan en citosina.

Desde que se reporto este método, no se han encontrado reactivosquímicos específicos que corten las bases A o T, por lo que se utiliza laestrategia de corte descrita en la figura 4. Esta estrategia permite distinguirentre los nucleótidos que se encuentran al final de cada corte y deducir lasecuencia de ADN.

Page 20: Secuenciación de Ácidos Nucleicos

19

1 2 3 4

Figura 4. El método de Maxam y Gilbert para secuenciar ADN. Los números de loscarriles en el gel corresponden a los distintos tipos de corte que se describen en eltexto.

3.2.1 Ventajas y desventajas del método de degradación química.La baja resolución obtenida cuando se reportó la técnica no se debió a

un factor inherente al método de Maxam-Gilbert, si no a una limitante de losgeles de acrilamida. En un inicio, se consideraba un logro poder diferenciar eltamaño de 250 fragmentos y determinar la secuencia de ese tamaño. Elanálisis de una secuencia en geles de acrilamida era complicado, ya que no sepodía separar los fragmentos grandes. Otro problema que comúnmente afectala resolución de las bandas obtenidas en el gel es el ensanchamiento debandas cuyas secuencias favorecen la formación de estructuras secundarias.Para mejorar la resolución del gel se ha reportado que el uso de geles deacrilamida muy delgados, en conjunto con un voltaje alto de corrimiento,produce bandas más delgadas y mejor separadas (Sanger y Coulson, 1978).

Otro aspecto del método de Maxam-Gilbert que puede ser un pocolaborioso es la necesidad de separar y analizar individualmente las hebras delADN que se quiere secuenciar (Sanger et al., 1977). Esto se puede realizarmediante enzimás de restricción (figura 5) que separen los extremos

Page 21: Secuenciación de Ácidos Nucleicos

20

etiquetados para el análisis. Alternativamente, las dos hebras marcadaspueden ser desnaturalizadas y separadas en un gel (Maxam y Gilbert, 1977).

Hoy en día, el método más usado para la secuenciación de ácidosnucleicos es el método de Sanger. Sin embargo, es justo decir que el métodode Maxam-Gilbert es el más adecuado para determinar la secuencia defragmentos cortos de ADN, debido a que puede determinar la secuencia desdela primera base. En cambio, el método de Sanger sólo permite la lectura apartir de la base 10-20 (Tahara et al., 1990).

Figura 5. Las enzimás de restricción reconocen secuenciasespecíficas de ADN y pueden ser utilizadas para separar lashebras etiquetadas antes de secuenciar por el método deMaxam-Gilbert.

3.3 El método enzimático (Sanger et al., 1977).

El método de secuenciación enzimático salió casi al mismo tiempo queel de Maxam y Gilbert, pero ha sido más utilizado. Esto se debe, en granparte, a que se han realizado grandes avances en la automatización deesta técnica, lo cual se discutirá más adelante. El método de Sanger sebasa en el uso de la ADN polimerasa para sintetizar cadenas de ADNcon una terminación específica. Con este método se generanfragmentos de ADN de todos los tamaños posibles que se puedandistinguir entre sí, por el tipo de marcaje que llevan o por laincorporación de un terminador específico. Las enzimás del tipo de laADN polimerasa requieren de un templado de ADN de cadena sencilla, yrealizan la síntesis de la hebra complementaria extendiéndola a partir deun iniciador en dirección 5’ a 3’. Entre los componentes de la reacción seincluyen nucleótidos que no tienen un grupo hidroxilo en su extremo 3’(ddNTP), para poder obtener una terminación especifica en las cadenas.Una vez que el ddNTP se incorpora como el residuo terminal, evita quela cadena de ADN sintetizada continúe extendiéndose. La incorporaciónde los ddNTPs es al azar, de tal forma que se obtienen fragmentos detodos los tamaños posibles que terminan en un residuo especifico.

En el método de Sanger (1977), la estrategia es hacer cuatroreacciones diferentes de síntesis de ADN, utilizando un ddNTP distintoen cada tubo. Con la mezcla del nucleótido normal (dNTP) y su

Page 22: Secuenciación de Ácidos Nucleicos

21

terminador (ddNTP), se pueden generar fragmentos complementarios dediferentes tamaños que terminan en el mismo nucleótido. Después,estos fragmentos se pueden separar en un gel de electroforesis concuatro carriles distintos, para determinar la secuencia del templado(figura 6).

Figura 6. El método de Sanger. Cuatro reacciones con ddNTPs diferentes permitenla síntesis de distintos fragmentos con una terminación específica. Estosfragmentos se pueden separar por electroforesis y comparando los tamaños, sepuede determinar la secuencia del templado.

El método de Sanger tiene varias ventajas sobre el método de Maxam-Gilbert (Blackburn y Gait, 1996). Las reacciones de secuenciación del métodoenzimático se pueden realizar en unas horas, en cambio las del método deMaxam-Gilbert tardan al menos un día. Las reacciones del método de Sangerson más “puras”, con menos contaminantes que puedan afectar la resolucióndel gel.

3.3.1 Limitaciones del método enzimático.

Cuando se reportó este método para la secuenciación de ADN, se usabael fragmento Klenow de la polimerasa I, y sólo un ciclo de síntesis (incubando a37 ºC) para obtener fragmentos de distintos tamaños. Todos los fragmentostenían incorporados en sus cadenas, nucleótidos marcados con 32P. El grupo

Page 23: Secuenciación de Ácidos Nucleicos

22

de Sanger reportó que con esta técnica se podía determinar una secuencia dehasta 300 nucleótidos, a partir de 15 bases del iniciador, aproximadamente. Almomento de publicar esta técnica, también reportaron que la mayor dificultadera que los ddGTPs no estaban disponibles comercialmente. Desde entoncesse ha experimentado con variaciones del protocolo original y se han realizadograndes avances en la automatización de este método. En la tabla 1 seresumen algunos de los avances más importantes que han permitido eldesarrollo de métodos automatizados para la secuenciación de ADN.

4.0 MÉTODOS CONTEMPORÁNEOS EN LA SECUENCIACIÓN

4.1 Automatización del método de Sanger

En la tabla 1 se resumen algunos de los avances mas importantes quehan permitido el desarrollo de métodos automatizados para la secuenciaciónde ADN (usando el método de Sanger).

Tabla 1. Descubrimientos significativos que permitieron el desarrollo de losmétodos automatizados de secuenciación de ácidos nucleicos.

Avance Descripción ReferenciaReacción encadena de lapolimerasa

(PCR)

Técnica que permite la amplificaciónexponencial de un fragmento de ADN

Mullis, 1990

Polimerasa Taq Polimerasa termoestable que puedeutilizarse en el PCR

Innis et al., 1988;Carballeira et al.,

1990Marcaje del

ADNEl marcaje y el tipo de detección utilizadopara identificar los fragmentos de ADNsintetizados

Prober et al.,1987; Igloi, 1998

Secuenciadoresautomatizados

Desarrollo de máquinas automatizadascon la capacidad determinar la secuenciade miles de pares de bases por día

Hunkapiller, et al.,1991; Lipshutz y

Fodor, 1994

Page 24: Secuenciación de Ácidos Nucleicos

23

4.1.1 La técnica de PCR y su relevancia en la secuenciación de ADN.

En 1985, el químico Kary Mullis desarrolló la técnica de la reacción encadena de la polimerasa (PCR). Este método permite la amplificaciónexponencial de una molécula de ADN, generando millones de copias de unfragmento. Esto se lleva acabo con oligonucleótidos que contienen un grupoextremo 3´ libre, que es complementario con la cadena molde de ADN. Los“oligos” funcionan como punto de inicio para la adición de nucleótidos y paracopiar la cadena molde en el PCR. Una vez que el oligonucleótido se une a sublanco, la polimerasa de ADN puede seguir extendiendo la hebracomplementaria. En una reacción típica de PCR se usan dos oligonucleótidosque flanquean la región de ADN que se desea amplificar. El número de copiasdel fragmento de ADN que se encuentra entre los dos oligonucleotidos seamplifica con varios ciclos de reacción.Cada ciclo de una reacción de PCRconsta de tres pasos (figura 7):

1) Desnaturalización de las hebrasde ADN- El templado es el fragmentode ADN que se desea amplificar, juntocon la región que reconocen losoligonucleótidos. Para que eloligonucleótido se pueda unir, esnecesario que el templado sea decadena sencilla. Así que este paso delPCR es para separar las cadenas deADN, si el templado es de doblecadena. Además, en este paso sedeshace cualquier tipo de estructurasecundaria formada entre lossegmentos complementarios de losoligonucleótidos y que pudierainterferir con su habilidad de unirse alt emp lado . T íp i camen te , l adesnaturalización del ADN se hacecon una incubación breve del tubo dereacción a una temperatura de 94 ºC.

2) Temperatura de alineamiento - Esta temperatura se calcula con base enlas características de los oligos que serán utilizados. La temperatura a la cualla mitad de los oligos están unidos a su blanco (Tm), se calcula tomando encuenta el tamaño de los oligos y su contenido de GC (%GC). Después de

Figura 7. La reacción de PCR consiste envarios ciclos de 3 pasos. Lastemperaturas y los tiempos indicados sonejemplos y varían dependiendo de lascaracterísticas del ADN que se deseeamplificar.

Page 25: Secuenciación de Ácidos Nucleicos

24

desnaturalizar las hebras de ADN, se incuba a una temperatura cercana a laTm, para que los oligos puedan encontrar su región complementaria en eltemplado. y se unan a ella.

3). Extensión de la cadena de ADN - Este es el último paso de un ciclo dereacción de PCR y normalmente se hace a 72 ºC, la temperatura óptima parala polimerasa de ADN. En este paso, la polimerasa extiende la cadenacomplementaria del templado. La síntesis de la cadena complementaria tienecomo punto de inicio el complejo oligonucleótido/templado. El tiempo deincubación de este paso depende del tamaño del segmento que se deseaamplificar. Como regla general se considera que la polimerasa puede sintetizar1,000 bases por minuto. En la reacción de PCR, típicamente, se llevan acabode 30 a 40 ciclos de estos tres pasos, para lograr la amplificación deseada.

La técnica de PCR resultó relevante para la secuenciación de ácidosnucleicos debido a que se adaptó al método de Sanger, de tal forma que sepuede sintetizar un mayor número de copias de los fragmentos con unaterminación específica. De esta forma, la señal del marcaje que lleva cadafragmento aumenta, y es posible obtener lecturas más claras de los fragmentosgrandes, lo que a su vez, permite la lectura de secuencias más largas, una vezque se pueda superar el problema de la resolución de los geles.

4.1.2 Polimerasa Taq.

Cuando se desarrolló el método de secuenciación de Sanger, se usó elfragmento Klenow de la polimerasa I de E. coli para hacer la síntesis de losfragmentos de ADN con una terminación específica (Sanger et al, 1977). En1957, se aisló la Polimerasa I y durante muchos años se pensó que era laúnica polimerasa que tenía E. coli (Brown, 1999). De hecho, su actividad es tangrande que enmáscara la actividad de las otras polimerasas de esta bacteria, yhasta que se obtuvó una mutante que no producía la polimerasa I (polA), fueque se pudieron detectar las otras enzimás (Lewin, 1997). El uso de estaenzima tiene algunas desventajas, en comparación con las polimerasas que seaislaron de otros organismos, años después. La reacción de síntesis de ADNreportada por Sanger en 1977, es de un solo paso, y en esta se tienen quesintetizar todas las posibles combinaciones de fragmentos de ADN necesariospara determinar la secuencia de un templado. La razón por la que la síntesis serealiza en un solo paso se debe a que la temperatura óptima para la actividadde Klenow es alrededor de 37 ºC (temperatura óptima de crecimiento de E.coli). Por lo tanto, al elevar la temperatura para desnaturalizar los híbridos oestructuras secundarias del ADN, se inactiva la Klenow, y es necesario añadirmás enzima para hacer un segundo ciclo de síntesis de fragmentos de ADN.

Page 26: Secuenciación de Ácidos Nucleicos

25

El uso de la Klenow para generar fragmentos de ADN en las reaccionesde PCR y para síntetizarlo en la secuenciación de ácidos nucleicos se fuereemplazando con otras polimerasas más estables, aisladas de organismostermófilos. Una de las polimerasas más conocidas, fue aislada de Thermusaquaticus, y se le dio el nombre de Taq (Innis et al., 1988). Dedido a que estaenzima es resistente a altas temperaturas, fue posible automatizar la reacciónde PCR, sin necesidad de añadir enzima nueva en cada ciclo de reacción. Latemperatura de extensión de las cadenas de ADN se realiza a 72 ºC, en lugarde 37 ºC. Al hacer el alineamiento de los oligos a una temperatura máselevada, se obtiene una mayor especificidad y homogeneidad en losfragmentos generados para la reacción.

Las polimerasas termoestables que se caracterizaron a finales de los80s contribuyeron a optimizar el método de Sanger para secuenciar ácidosnucleicos. En ese tiempo, se reportó la purificación de polimerasas que podíansintetizar hasta 1500 bases de ADN por minuto, y que mantenían su actividaden un intervalo amplio de temperaturas elevadas (70-80 ºC) (Carballeira et al.,1990). Con estas enzimás, por fin fue posible obtener fragmentos uniformes deADN de hasta 1000 bases y se pudo determinar una secuencia de este tamaño(Innis et al., 1988).

4.1.3 Marcado de la cadena de ADN.

Se han explorado distintas maneras de marcar la cadena de ácidosnucleicos sintetizados para la secuenciación de ácidos nucleicos por el métodode Sanger. Originalmente, se utilizaron nucleótidos marcados con 32P en lamezcla de síntesis y algunos de éstos se incorporaban en la cadena (Sanger etal., 1977). Los nucleótidos incorporados al final de la cadena (ddNTPs) nollevaban ningún marcaje (32P), sólo carecían del grupo hidroxilo 3’ para evitarque se siguiera extendiendo la cadena. Para poder resolver el orden de losfragmentos sintetizados de esta forma, era necesario separarlos en un gel dearchilamida de cuatro carriles distintos y luego tomarle una radiografía paradetectar el marcaje (32P). En los años siguientes, se exploraron otros tipos demarcas que no fueran radioactivas para etiquetar estos fragmentos de ADN(Igloi, 1998). Eventualmente, los fluoróforos fueron remplazando a los isótoposradioactivos, como el método preferido de marcaje (Prober et al., 1987). Larazón de esto, es que marcar moléculas de ADN con isótopos radioactivos eslaborioso, tardado, peligroso y caro (Smith et al., 1985). Además, laspropiedades de las moléculas fluorescentes han contribuido al desarrollo detécnicas automatizadas de secuenciación de ácidos nucleicos. Por ejemplo, laposibilidad hacer todas las reacciones de terminación específica en un solotubo (Prober et al., 1987).

Page 27: Secuenciación de Ácidos Nucleicos

26

Existen muchas diferentes etiquetas para los fragmentos de ADN. Lasmoléculas fluorescentes tienen varias propiedades que se adaptaron con ciertafacilidad hacia el desarrollo de métodos automatizados para la secuenciaciónde ácidos nucleicos, y las limitaciones en su uso se han ido resolviendo. Porejemplo, se observó que una inconsistencia en la intensidad de la señal de losdistintos fragmentos, podía complicar la interpretación de la información que seobtenía del detector (Bennett, 2003). Experimentando con distintos fluoróforos,se han encontrado algunos que dan una señal constante y que se puedendistinguir entre si con mayor facilidad (Rosenblum et al., 1997). También, seobservó que la modificación de los dideoxynucleótidos (ddNTPs) con algúncomponente fluorescente, puede causar que la migración del fragmento deADN en un gel de acrilamida sea un poco distinta, y causar dificultad en lainterpretación de la secuencia. Prober et al. (1987) encontraron que era posibleusar cuatro etiquetas fluorescentes de la misma familia y que estabanestructuralmente relacionados, pero con distintos rangos de absorción. Lasimilitud de estructura provoca que la influencia sobre la migración de losdistintos fragmentos sea mínima y facilita la interpretación de la secuencia.

Además, se ha intentado variar la proporción de nucleótidos que estánen la mezcla de reacción. Ansorge et al. (1990) encontraron que la polimerasaT7 tiene preferencia por algunos nucleótidos. Observaron que si se usa unaproporción equimolar de cada ddNTP, marcado con una molécula fluorescente,la magnitud de la señal que se obtiene es distinta, y se incrementa en el ordenA<G<C<T. Para compensar esta preferencia natural, se varió la proporción delos ddNTPs en la mezcla de reacción (2:2:1:0.5 = T:C:G:A) y así la intensidadde la señal obtenida de las bandas fue constante).

Otro problema, fue la afinidad de las polimerasas por los terminadoresddNTPs. Tabor y Richardson (1995) identificaron el residuo crítico quediscriminaba entre dNTPs y ddNTPs en el sitio activo de la polimerasa Taq ymediante ingeniería de proteínas reemplazaron este aminoácido. El resultadofue una polimerasa intrínsicamente termoestable con 8,000 veces más afinidadpor los ddNTPs.

4.1.4 Incorporación del marcaje a la cadena de ADN.

Independientemente del tipo de marcaje utilizado, existen distintasformás de incorporar el marcaje a los fragmentos de ADN generados en unareacción de síntesis. Se han explorado tres formás distintas de incorporación:

1. Marcaje del iniciador- El iniciador parece ser un buen lugar paraincorporar una marca porque se encuentra en el extremo 5’ de la cadena de

Page 28: Secuenciación de Ácidos Nucleicos

27

ADN y no existen muchas posibilidades de que el marcaje interfiera con elproceso enzimático de la síntesis. Sin embargo, en la práctica esta región hasido difícil de modificar enzimáticamente porque es muy inerte. Kempe et al.(1985) reportaron que después de una incubación de 96 horas con ARN ligasa,sólo pudieron modificar 20% del iniciador en el extremo 5’ con un marcador debiotina.

2. Marcaje incorporado en la cadena- Se pueden incorporar nucleótidosmarcados a la cadena de ADN durante su síntesis, tal como lo hicieron Sangeret al.(1997). Es importante que el marcaje no interfiera con la actividad de lapolimerasa que incorpora los nucleótidos a la cadena. Igloi (1998) reportó quesólo dos de las polimerasas termoestables, utilizadas comúnmente en lasecuenciación, aceptan dNTPs fluorescentes como sustratos. A pesar de queel marcaje de ADN fue el primero en reportarse, no se ha utilizado tanampliamente porque no tiene ventajas claras sobre los otros métodos.

3. Marcaje del nucleótido terminal- Este método de marcaje, claramente,es el más sencillo y el mejor por varias razones. En este caso, el nucleótidoresponsable de la terminación (ddNTP), es el que lleva la marca. Esto aseguraque todas las cadenas sintetizadas a partir de un templado, lleven incorporadouna sola marca en el mismo lugar (al final de la cadena, en el extremo 3’). Deesta manera, se obtienen fragmentos que producen bandas uniformes y cuyassecuencias se pueden determinar más fácilmente. Sin embargo, esta no hasido la razón principal por la que este método ha sido el más popular. Unaventaja adicional de tener el nucleótido terminal marcado, es que se puedenusar nucleótidos terminales que lleven cuatro tipos distintos de marcaje (unodiferente para cada nucleótido). Esto implica que las cuatro reacciones determinación específica (ddATP, ddCTP, ddGTP, y ddTTP) se pueden llevaracabo en el mismo tubo, y ya no se tienen que hacer por separado (Prober etal., 1987). Además, debido a que se puede determinar cual es el nucleótidoterminal de los fragmentos de ADN con base en su señal, es posible resolver lasecuencia de un templado con sólo un carril. Las bandas que se ven, emitenuna señal distinta, dependiente del nucleótido terminal incorporado. El hechode que las bandas puedan ser diferenciadas con un carril, elimina la variaciónque puede ocurrir entre carriles. Además, si por alguna razón se produceterminación inespecífica (en un dNTP), no se detecta el fragmento, porque nolleva un ddNTP marcado al final. Hoy en día, este es el método que más seutiliza para marcar las cadenas de ADN. Kelley (1994) reportó que lainformación obtenida en las primeras 300 bases de la secuenciación, es másprecisa (98% contra 95%) utilizando terminadores (ddNTPs) que llevan unamarca fluorescente en lugar de iniciadores con una marca fluorescente.

Page 29: Secuenciación de Ácidos Nucleicos

28

4.1.5 Secuenciación automatizada

Los hallazgos de la década de los 80s (mejores polimerasas, PCR,marcas fluorescentes) contribuyeron al desarrollo de máquinas automatizadascapaces de determinar miles de bases de secuencia por día. Las primerasmáquinas de secuenciación salieron a finales de los 80s. En 1986, Smith et al.reportaron una técnica de secuenciación automatizada, basada en laterminación específica con cuatro diferentes fluoróforos. La mezcla de síntesisse cargaba en un solo carril de gel, en tubo, y se usaba un detector óptico paradeterminar la absorción de cada banda, casi al final del tubo. Esta informaciónpasaba directamente a una computadora y permitía obtener informaciónprecisa de hasta 200 pares de bases (pb) de la secuencia. Sin embargo,habían varias áreas que podían ser optimizadas para aumentar la longitud dela secuencia obtenida: (1) el tamaño, diámetro y composición del gelelectroforético, (2) los reactivos para la reacción de secuenciación, (3) lascondiciones de electroforesis, (4) equipo óptico/electrónico de detección, (5) losmarcadores fluorescentes (Smith et al., 1986).

Posteriormente, se experimentó con el uso de una máquina que tenía undetector óptico capaz de leer la información de cuatro carriles (Ansorge et al.,1987). En este caso, se reportó que era posible obtener información precisa demás de 400 pb, usando solo un marcador fluorescente y separando las cuatroreacciones. Sin embargo, se reportó que a pesar de las aparentes ventajas deluso de marcadores distintos y un carril de detección, era mejor separar lasreacciones para que los resultados no se vieran afectados por las diferencias(causantes de variación en la migración electroforética) o similitudes (espectrosde absorción traslapados) entre los marcadores (Ansorge et al, 1987).

Ansorge et al. (1988) reportaron el primer protocolo que usabamarcadores fluorescentes en lugar de isótopos radioactivos para el método desecuenciación de Maxam-Gilbert. Utilizaron un marcador que no interfería conla degradación de la molécula de ADN y lograron secuenciar 50oligonucleótidos de 20 bases cada uno, en un sólo gel. En este reporte, losautores demuestran que también es factible automatizar el método de Maxam-Gilbert usando fluoróforos. Sin embargo, en los años siguientes no hubomuchos avances en esta área, ya que el desarrollo de las técnicasautomatizadas de secuenciación se enfocó principalmente en mejorar elmétodo de Sanger.

En 1994, se reportó el uso de la polimerasa termoestable “SequiTherm”,que es capaz de sintetizar fragmentos grandes con terminación específica.Esto permitió determinar hasta 1000 bases de una secuencia por reacción

Page 30: Secuenciación de Ácidos Nucleicos

29

(Zimmmerman et al., 1994). Esto fue un gran hallazgo, porque a pesar de losavances en la automatización de la secuenciación la información que seobtenía después de unas 400 bases de secuencia era difícil de interpretar ysusceptible a error. La excepción eran reacciones de secuenciación utilizandola polimerasa T7, con la cual era posible obtener hasta 700 bases desecuencia con 99% de precisión, pero esta tenia la desventaja de no sertermoestable (Ansorge et al., 1990; Church et al., 1994).

4.1.6 El desarrollo de máquinas de secuenciación

Después de que Smith et al. (1986) reportaron el uso de la primera máquinaautomatizada que usaba un detector óptico para obtener la información desecuenciación (la cual pasaba directamente a una computadora). Se empezó aexperimentar con otros equipos y variaciones de la técnica de secuenciacióncon el objetivo de mejorar el rendimiento con estas máquinas.

a) Secuenciadoras basadas en geles tipo “slab”--Estas secuenciadorasusan un gel vertical para separar los fragmentos generados durante lareacción de secuenciación y tienen distintos sistemas de detección paraleer el orden de los marcadores fluorescentes. Meldrum (2000) hace unacomparación de algunas propiedades de las máquinas comerciales máscomunes que salieron en los 1990s:

ABI PRISM 377 _ Esta secuenciadora salió a finales de los 80s. Sebasaba en el uso de un carril para detectar cuatro marcadoresfluorescentes distintos. Usa una cámara CCD y es capaz de leer hasta200 bases por muestra por hora. Se pueden cargar hasta 96 muestrasen un solo gel y éstos se detectan simultáneamente.

ASTRAL _ Esta máquina usa un láser de Argón para iluminar lasmuestras lateralmente. Puede detectar más de cuatro marcadoresdistintos por muestra y es capaz de acomodar hasta 96 muestras porgel. En un experimento típico se pueden obtener 300 bases desecuencia por muestra en un tiempo de 7-8 hrs.

LI-COR Modelo 4200 _ Esta máquina salió en 1997 y tiene un sistemade análisis que detecta una longitud de onda cercana al infrarrojo. Estamáquina es capaz de detectar los productos de 2 reacciones desecuenciación simultáneos y bidireccionales, produciendo 2 veces másinformación de cada reacción de secuenciación. Tiene 64 carriles y seproducen secuencias de hasta 1000 bases de cada extremo deltemplado con una precisión del 99%.

Page 31: Secuenciación de Ácidos Nucleicos

30

Había mucho interés en reducir el tiempo requerido para obtener losdatos de secuenciación, dado que esto era uno de los pasos limitantespara completar proyectos de secuenciación. La compañía MJ Research,Inc. introdujo una máquina en 1998 que llamaron el sistema “HUGE”.Ésta se basaba en el uso de un gel horizontal de poliacrilamida ultra-delgado (75 µm); Tenía 96 carriles y podía leer 450 bases por carril en90 minutos (Meldrum, 2000) . Este aparato se superó en 1999, cuandose introdujo el secuenciador “Clipper”, desarrollado por la compañíaVisible Genetics, Inc. Éste era capaz de secuenciar 400 bases en 30minutos en un gel de poliacrilamida con un grosor de 50 µm, o 1000bases en menos de cuatro horas (Yager et al., 1999).

b) Secuenciadoras basadas en electroforesis capilar- El segundo tipo desecuenciadoras automáticas se basaba en un sistema capilar para hacerla separación de los fragmentos de distinto tamaños. Los capilares secaracterizan por tener un diámetro pequeño (≈200 µm) y permiten haceruna separación rápida de alta resolución sin calentar la muestra (Huangy Mathies, 1994). Por mucho tiempo, esta técnica de separación se violimitada por el problema de cómo detectar múltiples capilares sin tenerque usar múltiples detectores. Por lo tanto, a pesar del beneficio de quela separación capilar es muy rápida (1-2 horas con excelente resolución),no podía competir con las secuenciadoras que separaban las muestrasen un gel tipo “slab” (Huang y Mathies, 1994; Behr et al., 1999). En1994, Huang y Mathies reportaron el uso de un aparato con un sistemade detección paralelo de dos fluoróforos que podía leer la información de25 capilares simultáneamente. Esta máquina era aproximadamente 10veces más rápida que las secuenciadoras típicas de geles tipo “slab”.Pronto empezaron a salir otras secuenciadoras automáticas que usabanseparación por electroforesis capilar, con sistemas de detecciónparalelos (figura 8) para multiples capilares, por ejemplo:

CEQ 2000 (Evans, 2000) _ Esta secuenciadora tiene ocho capilares conun detector de cuatro colores. Los pasos para preparar el gel, i.e., ladesnaturalización de la muestra y la carga, son automatizadas. Estesistema es capaz de determinar 500 bases de secuencia de cada capilaren 2 horas, o leer hasta 96 muestras automáticamente en un día.

Secuenciadora MCE (Behr et al., 1999) _ Esta secuenciadora sedesarrolló en el Instituto Max-Planck. Tiene una detección paralela de 96capilares (Figura 8) y es capaz de procesar 15,000 muestras sinintervención humana.

Page 32: Secuenciación de Ácidos Nucleicos

31

Figura 8. Esta secuenciadora tiene un detector paralelo capaz de leer la informaciónde 96 capilares simultáneamente. Luz de un láser de Argón se guía por una fibraóptica (Fi) hasta el generador (PI) que distribuye la luz de forma uniforme por todoslos capilares.

MegaBACE 1000 _ Esta máquina también tiene 96 capilares y es posibleobtener secuencias hasta de 800 pares de bases por corrida (Meldrum, 2000)

ABI PRISM 3700 _ Esta es la secuenciadora que se utiliza en el Instituto deBiotecnología de la UNAM (figura 9). Puede detectar 5 marcadoresfluorescentes distintos y correr 24 horas sin intervención humana. Cuenta con96 capilares (y 8 de reserva) y se puede recargar hasta cuatro vecesautomáticamente. Se pueden hacer hasta 500 corridas sin necesidad decambiar los capilares. Cada corrida dura aproximadamente 2.5 hrs y detecta unpromedio de 550 bases por reacción de secuenciación (Meldrum, 2000).

Page 33: Secuenciación de Ácidos Nucleicos

32

Figura 9. La secuenciadora ABI PRISM 3700. Es el aparato que actualmente se tieneen el IBt-UNAM. Hay una segunda máquina en el Centro de Investigación sobreFijación de Nitrogeno (CIFN-UNAM). Puede correr 768 reacciones de secuencia sinatención técnica en 36 horas. La longitud de las lecturas obtenidas es de unpromedio de 600-700 bases” (kinish.cifn.unam.mx/~retligen/infrastructura.htm).

4.2 Secuenciación de ARN

Paralelo al desarrollo de los métodos de secuenciación de ADN, tambiénse reportaron avances en la secuenciación de ARN. Desde que Holleysecuenció un tARN para Alanina en 1965, se han desarrollado métodos desecuenciación de ARN similares a los utilizados para secuenciar ADN(Blackburn y Gait, 1996). Básicamente, los métodos de secuenciación de ARNse dividen en 2 categorías.

4.2.1 Métodos indirectos

En este caso, el ARN se convierte primero a cADN con la enzima transcriptasareversa y luego se usa el fragmento obtenido como templado para la reacciónde secuenciación. En realidad, este método determina la secuencia de unamolécula de ADN a partir de la cual se infiere la secuencia de la molécula deARN. Este método indirecto es uno de los más comunes para la secuenciaciónde ARN porque tiene todas las ventajas de la secuenciación de ADN.

Page 34: Secuenciación de Ácidos Nucleicos

33

4.2.2 Métodos directos

Estos métodos se utilizan para secuenciar la molécula de ARN cuando escomplicado utilizar el método indirecto (Igloi, 1998). Esto suele suceder conARNs muy pequeños, o con estructuras secundarias extensas (ribosomales,transferencia). Todas estas técnicas requieren de que el ARN este en formapura.

a) Método enzimático-- En los primeros reportes se experimentó con unaforma enzimática para secuenciar ARN directamente. En este caso,los autores Brownlee y Cartwright (1977) reportaron los resultados dela secuenciación de una molécula de mARN de casi 200 pb.Utilizaron un iniciador marcado con 32P y la transcriptasa reversa.Usando reacciones similares a las del método de Sanger, los autoresgeneraron fragmentos de cADN con una terminación específica dadapor ddNTPs. Después, resolvieron el orden de los fragmentos deADN generados en un gel de acrilamida. Se ha visto que laconcentración del ARN templado influye mucho en la resolución delgel. Los autores Carpenter y Simon (1990) reportaron que cuantomayor era la cantidad de ARN viral usado como templado, menor erala resolución obtenida en el gel de acrilamida debido a que lasbandas eran anchas, complicando la interpretación del orden. Ellosobtuvieron la mejor resolución utilizando 0.4 µg (0.75 pmol) de ARNcomo templado. En una reacción de secuenciación de rARN, Bakin yOfengand (1992) obtuvieron la mejor resolución empleando 10 vecesmenos ARN, es decir, solamente 0.13 pmol.

A pesar de que se generan fragmentos de ADN, el métodoenzimático es un método directo porque el templado es una moléculade ARN. La marca se puede incorporar a los fragmentos de ADN demaneras alternativas a la usada por Brownlee y Cartwright en 1977.El uso de ddNTPs marcados tiene la ventaja de que los fragmentosque sufren una terminación prematura no se detectan ni interfierencon la interpretación de la secuencia. La terminación prematura sueleser un problema más común en la secuenciación de ARN por laformación de estructuras secundarias que interfieren con la actividadde la transcriptasa reversa. Además, la síntesis de fragmentos deADN a 37 ºC carece de las ventajas de las altas temperaturas que sepueden usar con otras enzimas (polimerasa Taq).

Page 35: Secuenciación de Ácidos Nucleicos

34

b) Método químico-- En 1977 se presentó un método de ruptura químicadel ARN similar al de Maxam y Gilbert (Donis-Keller et al., 1977). Lamolécula de ARN (en este caso ARN ribosomal) se marca con unamolécula de 32P en un extremo. Después se utilizaron nucleasas parahacer digestiones de la molécula de ARN marcado en distintoslugares. La RNAsa T1 corta las guaninas, la RNAsa U2 corta lasadeninas y una hidrólisis alcalina rompe todos los enlacesfosfodiéster (Donis-Keller et al., 1977). Se utiliza un gel de acrilamidapara separar los fragmentos de estos tres tipos de ruptura, lo quepermite determinar el orden de las guaninas, adeninas y pirimidinasde una molécula de ARN ribosomal.

A diferencia del método enzimático, en el que se puede usar uniniciador marcado para generar los fragmentos que seránsecuenciados, el método químico requiere que la molécula de ARNsea marcada directamente. Esto se puede hacer introduciendo unamarca de 32P en el extremo 5’ de la molécula con una cinasa T4, o enel extremo 3’ con una ligasa T4 (Blackburn and Gait, 1996).

4.3 Resumen de enzimas usadas en la secuenciación de ácidosnucleicos.

En la tabla 2 se resumen algunas de las enzimas mas comunes utilizadasen la secuenciación de ácidos nucleicos. Estas enzimas eran entre lasprimeras herramientas en la biología molecular y se aprovecharon susactividades naturales en la secuenciación de los ácidos nucleicos.

Page 36: Secuenciación de Ácidos Nucleicos

35

Tabla 2- Algunas de las enzimas que han tenido un papel importante en eldesarrollo de los métodos de secuenciación

Enzima Función ReferenciaFragmentoKlenow

Una polimerasa de ADN que utilizo Sanger en su reacciónde secuenciación. No es termoestable.

Sanger etal., 1977

T7 Una polimerasa de ADN no termoestable que se utilizabafrecuentemente en las reacciones de secuenciación con elMétodo Sanger. Se utilizaba frecuentemente paraincorporar terminadores (ddNTPs) etiquetadas con unfluoroforo.

(Ansorge etal., 1990)

Taqpolimerasa

Una polimerasa termoestable aislada de T. aquaticus(termofilo). Fue una gran herramienta en el desarrollo dela técnica de PCR.

Innis et al.,1988

Enzimas derestricción

El primero fue aislado de E. coli en 1968 por MatthewMeselson y Robert Yuan. Son nucleasas que reconocen ycortan secuencias específicas de ADN (doble cadena). Seutilizan en el método de degradación química para aislarlos fragmentos (32P) que serán secuenciados.

Maxam yGilbert,1977

Transcriptasareversa

Una polimerasa de ADN que sintetiza una cadena de ADNutilizando una molécula de ARN como templado

Brownlee yCartwright,1977

RNAsa T1 La RNAsa T1 corta las moléculas de ARN (cadena sencilla)en las guaninas.

Donis-Kelleret al., 1977

RNAsa U2 RNAsa U2 corta las moléculas de ARN (cadena sencilla)en las adeninas.

Donis-Kelleret al., 1977

RNA ligasa Se utiliza para unir una marca radioactiva ( 32P) en elextremo 5’ de la molécula de ARN (cadena sencilla).

Blackburn yGait, 1996

Cinasa T4 Se utiliza para unir una marca radioactiva (32P) en elextremo 3’ de la molécula de ARN (cadena sencilla).

Blackburn yGait, 1996

5.0 ESTRATEGIAS Y APLICACIONES DE LA SECUENCIACIÓN DEÁCIDOS NUCLEICOS

5.1 Proyecto de secuenciación del genoma humano

Uno de los factores principales que motivó el desarrollo de la tecnologíade las secuenciadoras automáticas fue el proyecto de secuenciación delgenoma humano. Tal vez ningún proyecto de secuenciación genómica harecibido tanta atención como éste, concebido en Estados Unidos en 1988(Olson, 1993). En ese tiempo, la tecnología de secuenciación automatizadaestaba en sus primeras etapas de desarrollo, y era muy ambicioso intentarsecuenciar un genoma de miles de millones de pb. Sin embargo, el comienzo

Page 37: Secuenciación de Ácidos Nucleicos

36

de este proyecto se anunció oficialmente en 1990 por los departamentos deSalud y Energía con un presupuesto de 3 mil millones de dólares y la meta decompletar la secuencia en 15 años (Venter et al., 2001).

¿De qué nos sirve la información de la secuencia de un genoma? De unaforma muy general, los objetivos principales del proyecto de secuenciación delgenoma humano eran los siguientes (Olson, 1993):

a) Mejorar la infraestructura de la investigación genética - La secuenciadel genoma humano permitiría la ampliación del conocimientogenético de nuestro organismo. Se pueden utilizar técnicas como elPCR para analizar detalladamente ciertos segmentos del genoma.Conociendo su secuencia, se pueden diseñar oligonucleótidos quereconocen y se unen a secuencias complementarias en el ADN.

b) Comparar el papel de una secuencia de ADN en los humanos y enlos organismos modelo – Se pueden comparar las secuencias de losgenes identificados en el genoma humano con los genes de otrosorganismos y conocer el grado de similitud o diferencia que existeentre dos especies. También se puede inferir la función de ciertosgenes con base en los conocimientos de otro gen similar, identificadoen otro organismo.

c) Mejorar la bioquímica analítica del ADN - Este era el reto más grandecuando se anunció el inicio del proyecto de secuenciación delgenoma humano, ya que se refería a mejorar las herramientas parael análisis de ADN. Éste era un reto técnico, ya que para obtener lasecuencia completa del genoma humano en el tiempo propuesto eranecesario desarrollar la estrategia y las máquinas de secuenciacióncon capacidad de secuenciar dos Mpb por año.

La secuencia del genoma humano se reportó en el 2001, cuatro años antes dela fecha prevista (Venter et al., 2001). Esto se debe en parte a los esfuerzos demás de 20 grupos internacionales que colaboraron para completar lasecuencia, y a los avances en la tecnología de las secuenciadoras automaticas(la mayor parte de la secuencia se obtuvo con máquinas ABI PRISM 3700;figura 9). Pero la razón principal por la que se logró completar la secuencia fueun cambio en la estrategia de secuenciación (Internacional Human GenomeSequencing Consortium, 2001). La necesidad de tener una buena estrategiapara secuenciar fragmentos grandes de ADN (e.g, un cromosoma), fueevidente en el proyecto de secuenciación del genoma humano.

Page 38: Secuenciación de Ácidos Nucleicos

37

5.2 Estrategias para la secuenciación de fragmentos grandes de ADN.

5.2.1 “Chromosome Walking”

Hay dos estrategias generales para secuenciar fragmentos grandes deADN. La primera se llama caminata cromosomal “chromosome walking”(Brown, 1999; figura 10) y consiste en lo siguiente: (1) la fragmentación parcialdel ADN para su inserción en un vector de clonación; (2) la obtención de unbanco de clonas de fragmentos que contienen segmentos que se traslapan y;(3) la secuenciación de una clona y la identificación de una segunda que poseala continuación del segmento que se está secuenciando. Este proceso serepite hasta que se completa la secuencia de la molécula original de ADN (e.g.,un cromosoma).

Esta estrategia se utilizó originalmente en el proyecto de secuenciacióndel genoma humano. Tiene la ventaja de que se asegura la obtención de lasecuencia completa de la molécula original de ADN. En teoría, no se requierehacer secuenciación redundante; sin embargo, tiene varias desventajas queafectan el tiempo y el costo de un proyecto de secuenciación. Primero, cadaclona se tiene que analizar individualmente y en serie. No se puede secuenciarla siguiente clona hasta no conocer la primer secuencia. Segundo, se requierela síntesis de un enorme número de iniciadores para continuar lasecuenciación. Suponiendo que cada iniciador empleado es único y sirve parasecuenciar sólo una parte de una clona particular, se requiere sintetizar de 5 a10% de la secuencia total (Cantor y Smith, 1999). Tomando esto en cuenta, noes sorprendente que hasta 1998 sólo se había secuenciado el 5% del genomahumano (Venter et al., 2001). Era necesario un cambio de estrategia paracompletar la secuencia del genoma humano en el tiempo previsto.

Page 39: Secuenciación de Ácidos Nucleicos

38

Figura 10. La estrategia “chromosome walking” permite determinar la secuencia deun fragmento enorme de ADN ensamblando muchas secuencias pequeñas dedistintas clonas (www.bio.miami.edu/dana/250/25003_10.htm).

5.2.2 “Shotgun Sequencing”

La segunda estrategia general para la secuenciación de fragmentos grandesde ADN, se llama secuenciación tipo “shotgun” (figura 11). La gran diferenciaentre esta estrategia y la anterior es que en el “shotgun” la secuenciación sehace a partir de fragmentos al azar. Después, se utiliza un programa decómputo para encontrar las regiones que se traslapan entre las secuenciasindividuales. Así se va ensamblando la secuencia del fragmento original(Brown, 1999). Esta estrategia de secuenciación tiene la ventaja de que esrápida, requiere la síntesis de pocos iniciadores, y tiene una eficienciacomprobada (Cantor y Smith, 1999). Una de las desventajas de esta estrategiaes que requiere la redundancia de las secuencias para asegurar la obtenciónde una muestra completa del ADN original. Otra desventaja es que se requieremucha tecnología computacional para ensamblar la secuencia original y que aveces quedan “gaps” (regiones del fragmento original que no se secuenciaron).Utilizando esta estrategia de secuenciación, es necesario secuenciar al menos5 veces el ADN original para poder lograr un muestreo completo (Venter et al.,

Page 40: Secuenciación de Ácidos Nucleicos

39

2001). Tal vez, esta razón es suficiente para explicar la resistencia durantetanto tiempo para la realización del proyecto del genoma humano,considerando que es un genoma al menos 25 veces más grande que cualquierotro genoma ya secuenciado (Internacional Human Genome SequencingConsortium, 2001). Aun cuando Weber y Myers (1997) presentaron un planpara terminar la secuenciación del genoma humano con esta estrategia,demostrando que sería más rápido y menos costoso, su propuesta no fue bienrecibida.

Figura 11. En la estrategia “shotgun” se secuencian fragmentos al azar y luegousando un programa computacional se encuentran las regiones que se traslapanpara determinar la secuencia del fragmento original(http://www.bioteach.ubc.ca/Bioinformatics/GenomeProjects/shotgun%201.gif).

En 1998 se fundó la compañía de biotecnología Celera Genomics, con elpropósito de completar el proyecto de secuenciación del genoma humanoutilizando la estrategia “shotgun” (Myers, 1999). La validez de esta estrategiafue establecida en el 2001 cuando Venter et al. (investigadores de CeleraGenomics) reportaron que habían completado la secuenciación del genomahumano en menos de un año.

Page 41: Secuenciación de Ácidos Nucleicos

40

Al conocerse la secuencia del genoma humano se hicieron varios hallazgosimportantes (Venter et al., 2001; Internacional Human Genome SequencingConsortium, 2001):

a) El genoma está compuesto por 1% de exones, 24% de intrones y 75% deregiones intergénicas.

b) Hay entre 30,000 y 40,000 genes que codifican para proteínas.

c) Se han identificado más de 2.1 millones de polimorfismos de un solonucleótido (SNPs) en el genoma. Éstos ocurren más o menos uno de cada1300 bases.

Si se secuencia una región del genoma de dos individuos, se encontrará queson 99.3% idénticos. En gran parte, las diferencias son cambios de una solabase conocidos como SNPs; se encontraran las dos alternativas en más de 1%de la población (Chiche et al., 2002). Dado que muchas enfermedadesgenéticas están asociadas a variaciones pequeñas como los SNPs, hay interésen utilizar la información del proyecto del genoma humano para identificar losSNPs responsables de ciertas enfermedades (Tang et al., 2004).

5.3 Otras aplicaciones

El avance en la secuenciación de los ácidos nucleicos ha sido una herramientaque ha generado muchos conocimientos en el campo de la genómica. Hasta el2001 se habían reportado los genomas completos de 599 virus, 185 organelos,31 eubacterias, 7 arqueobacterias, un hongo, dos animales y una planta(Internacional Human Genome Sequencing Consortium, 2001). Lasramificaciones de tener esta información son innumerables, y su valorincalculable. Entre otras cosas, nos ha permitido entender cómo se asocian lasenfermedades con la variabilidad genética, la función de genes caracterizadosen otros organismos, el patrón de expresión de genes nuevos, el aislamientode genes específicos por PCR, la similitud o variación genética entre especiesdiferentes, la organización de la información genética, el origen de algunosgenes, etc. Hay cientos de ejemplos de cada una de estas categorías. Tal vez,lo que sea más importante recordar es que no parece haber límite en lasaplicaciones de la información que se obtiene de la secuenciación de losácidos nucleicos. Gracias a esta información, se han logrado avances en lainvestigación de áreas como la medicina, la química, la biología molecular, lasistemática, la proteómica, y mucho más.

Page 42: Secuenciación de Ácidos Nucleicos

41

6.0 El FUTURO DE LA SECUENCIACION

6.1 Secuenciación por hibridización

Entre otras cosas el conocimiento de la secuencia de los genomas o losgenes de los organismos también ha permitido desarrollar nuevos métodos desecuenciación. Como reportan Isaksson y Landegren (1999) uno de estos esla secuenciación por hibridización. Una forma en la cual puede funcionar estemétodo es utilizando “microarrays”. Estos son soportes pequeños en loscuales se imobilian pequeños fragmentos de ADN en un orden conocido. Después se pasa la muestra de ADN (con secuencia desconocida) y secuantifica el grado de hibridización, y por consecuencia el grado de identidadcon las secuencias fijas en el soporte (Cantor y Smith, 1999). Esto parecefuncionar especialmente bien en la identificación de SNPs. Wang et al. (1998)reportaron que es posible identificar el genotipo de un individuo analizando 500SNPs a la vez en un experimento de hibridización con un “microarray” deoligonucleotidos. Una posibilidad para la secuenciación de acidos nucleicos afuturo, que discuten los autores Cantor y Smith (1999) es el hacer hibridizacióncontra oligonucleotidos que formen palabras de tal forma que se pueda irdeterminando la secuencia sobrelapando los fragmentos (de 6-8 nucleótidos)con los cuales híbrida el fragmento secuenciado (Figura 12).

Figura 12. La forma en la cual se puede utilizar hibridización para secuenciar. Lamolécula de ADN se hibridiza contra pequeños oligonucleotidos que son como“palabras”. Después, se determina la secuencia.

6.2 Secuenciación a futuro sin fragmentación de ADN

Los autores Cantor y Smith (1999) presentan algunas posibilidades de cómopuedan evolucionar los métodos en la secuenciación de acidos nucleicos. Lasposibilidades se discuten en función de que poder secuenciar moléculasindividuales de ADN sin fragmentarlos en segmentos. Por ejemplo, usarmoléculas de ADN fijas a un soporte que se van degradando con unaexonucleasa y algún detector que determine cuales son los nucleótidos que sevan liberando (Cantor y Smith, 1999). Una segunda posibilidad es utilizarmicroscopia electronica para determinar la secuencia de acidos nucleicos en

Page 43: Secuenciación de Ácidos Nucleicos

42

una molécula de ADN. Esto se podría hacer tal vez marcando las basesindividuales con algún metal pesado.

Ninguno de estos dos métodos se ha implementado por dificultades enlos detalles (Cantor y Smith, 1999). En el primer caso hay dos complicaciones:como marcar cada base con alguna etiqueta como un fluoroforo, y tener undetector suficientemente sensible que sea capaz de detectar un solo nucleótidomarcado. En el segundo caso (microscopia electronica), no se pudo marcarcada base con algún metal sin tener reacciones laterales no deseadas (conotras bases la molécula de ADN). Sin embargo, tal vez a futuro, se logrenresolver estas dificultades, o se descubran otras alternativas eficientes parahacer la secuenciación de moléculas individuales de ADN.

Page 44: Secuenciación de Ácidos Nucleicos

43

7.0 REFERENCIAS

Ansorge, W., B. Sproat, J. Stegemann, C. Schwager and M. Zenke (1987)AutomatedDNA sequencing: ultrasensitive detection of fluorescent bandsduring electrophoresis. Nucleic Acids Res 15(11): 4593-4602

Ansorge, W. A. Rosenthal, B. Sproat, C. schwager, J. Stegemann and H. Voss(1988) Non-radioactive automated sequencing of oligonucleotides bychemical degradation. Nucleic Acids Res 16(5): 2203-2206

Ansorge, W., J. Zimmerman, C. Schwager, J. Stegemann, H. Erfle, and H. Voss(1990) One label, one tube, Sanger DNA sequencing in one and twolanes on a gel. Nucleic Acids Res 18(11): 3419-3420

Bakin, A. and J. Ofengand (1992) A high sensitivity method for sequencingRNA: application to ribosomal RNA. BioTechniques 13(5):682-683

Behr, S., M. Matzig, A. Levin, H. Eickhoff, C. Heller, (1999) A fully automatedmulticapillary electrophoresis device for DNA analysis. Electrophoresis20: 1492-1507

Bennet, P. (2003) DNA sequencing and the human genome Project. MolecularBiology In Cellular Pathology. John Wiley & Sons, Ltd pp. 308-328

Blackburn, G. M. and M. Gait (1996), Nucleic Acids in Chemistry and Biology,2nd Ed., Oxford, U. Pr., NY, EUA.

Brown, T.A. (1999) Genomes. Bios Scientific Publishers, Ltd. John Wiley &Sons, Inc, New York, USA. pp. 59-82

Brownlee, G. and E. Carterwright (1977) Rapid gel sequencing of RNA byprimed synthesis with reverse transcriptase. J Mol Biol 114: 93-117

Cantor, C. and C. Smith (1999) Genomics: The science and technology behindthe human genome project. John Wiley & Sons, Inc.

Carballeira, N., M. Nazabal, J. Brito, O. Garcia (1990)Purification of athermostable DNA polimerase from Thermus thermophilus HB8, useful inthe polymerase Chain reaction. BioTechniques 9(3): 276-281

Carpenter, C. and A. Simon (1990) Simplified RNA sequencing using dideoxychain termination. BioTechniques 8(1): 26-27

Page 45: Secuenciación de Ácidos Nucleicos

44

Chiche, J., A. Cariou, J. Mira (2002) Bench-to-bedside review: Fulfillingpromises of the human genome project. Critical Care 6(3): 212-215

Church, G. G. Gryan, N. Lakey, S. Kieffer-Higgins, L. Mintz, M. Temple, M.Rubenfield, L. Jaehn, H. Ghazizadeh, K. Robison, and P. Richterich(1994) Automated multiplex sequencing. Chapt 2. Automated DNAsequencing and analysis. Edit. Adams, M. C. Fields, J. Venter. AcademicPress, Inc. SD, USA. Pp. 11-16

Donis-Keller, H. A. Maxam, and W. Gilbert (1977) Mapping adenines, guanines,and pyrimidines in RNA. Nucleic Acids Res 4(8): 2527-2538

Evans, T. (2000) Engineering in genomics. Developing and commercializing aDNA sequencer. IEE EMB 19(4): 117-120

Huang, X. and R. Mathies (1994) Application of capillary array electrophoresisto DNA sequencing. Chapt 3. Automated DNA sequencing andanalysis. Edit. Adams, M. C. Fields, J. Venter. Academic Press, Inc.SD, USA. Pp. 17-28

Hunkapiller, T., R. Kaiser, B. Koop, and L. Hood (1991) Large-scale andautomated DNA sequence determination. Science 25: 59-67

Igloi, G. (1998) Strategies for introducing non-radioactive labels during theautomated Sequence analysis of nucleic acids. Elec J Biotech 1(1): 2330

Innis, M., D. Myambo, D. Gelfand, and M. Brow (1988) DNA sequencing withThermus aquaticus DNA polymerase and direct sequencing ofpolymerase Chain reaction-amplified DNA. Proc Natl Acad Sci, 85:94369440

International Human Genome Sequencing Consortium (2001) Initial sequencingand analysis of the human genome. Nature 409: 860-921

Isaksson, A. and U. Landegren (1999) Accessing genomic information:alternatives to PCR. Curr Opin Biotechnology 10: 11-15

Kelley, J. (1994) Automated Dye-terminator DNA sequencing. Chapt 26.Automated DNA sequencing and analysis. Edit. Adams, M. C. Fields, J.Venter. Academic Press, Inc. SD, USA. Pp. 175-181

Page 46: Secuenciación de Ácidos Nucleicos

45

Kempe, T., W. Sundquist, F. Chow, and L. Hu (1985) Chemical and enzymaticbiotin-labeling of oligodeoxyribonucleotides. Nucleic Acids Res 13:45-57

Levine, J., Suzuki, D. El secreto de la vida. Dirección General de Divulgaciónde la ciencia, UNAM, México (2000).

Lewin, B. (1997) Genes. Oxford University Press, Inc. New York. Pp. 472-477

Lipshutz, R. and S. Fodor (1994) Advanced DNA sequencing technologies.Curr Opin Struct Biol 4:376-380

Maxam, A. and W. Gilbert (1977) A new method for sequencing DNA. Proc NatlAcad Sci 74(2): 560-564

Meldrum, D. (2000) Automation for genomics, part two: sequencers,microarrays, and future trends. Genome Res 10: 1288-1303

Mullis, K (1990) The unusual origin of the polymerase chain reaction. Sci Am262(4):56-65

Myers, G. (1999) Whole-genome DNA sequencing. Computing in Science &Engineering. IEEE pp. 33-43

Olson, M. (1993) The human genome project. Proc Natl Acad Sci, USA. 90:4338-4344

Prober, J. et al., (1987) A system for rapid DNA sequencing with fluorescentchain-terminating dideoxynucleotides. Science. 238: 336-341

Rosenblum, B., L. Lee, S. Spurgeon, S. Khan, S. Menchen, C Heiner, and S.Chen (1997) New dye-labeled terminators for improved DNA sequencingpatterns. Nucleic Acids Res 25(22):4500-4504

Sanger, F., S. Nicklen, and A.R. Coulson (1977) DNA sequencing with chainterminating inhibitors. Proc Natl Acad Sci 74(12): 5463-5467

Sanger, F. and A.R. Coulson (1978) The use of thin acrylamide gels for DNAsequencing. FEBS Lett 87(1): 107-110

Sanger, F. (1988) Early nucleic acid chemistry. Trends Biochem Sci 13: 67-69

Page 47: Secuenciación de Ácidos Nucleicos

46

Schlenk, F., (1988).Early nucleic acid chemistry, Trends Biochem. Sci., 13:67-69

Smith, L., S. Fung, M. Hunkapiller, T. Hunkapiller, and L Hood (1985) Thesynthesis of oligonucleotides containing an aliphatic amino group at the5’ terminus: synthesis of fluorescent DNA primers for use in DNAsequence analysis. Nucleic Acids Res. 13(7): 2399-2412

Smith, L. J. Sandlers, R. Kaiser, P. Hughes, C. Dodd, C. Connell, C. Heiner, S.Kent, and L. Hood (1986) Fluorescence detection in automated DNAsequence analysis. Nature 321: 64-69

Stewart, P. R. and D. Letham (1977), The ribonucleic acids, 2nd Ed., SpringerVerlag, NY, EUA, pp. 374.

Tabor, S. and C. Richardson (1995) A single residue in DNA polymerases ofthe Escherichia coli DNA polymerase I family is critical for distinguishingbetween deoxy and dideoxyribonucleotides. Proc Natl Acad Sci, USA 92:6339-6343

Tahara, T., J. Kraus, and L. Rosenberg (1990) Direct DNA sequencing of PCRAmplified genomic DNA by the Maxam-Gilbert method. BioTechniques8(4): 366-367

Tang, K., P. Oeth, S. Kammerer, M. Denissenko, J. Ekblom, C. Jurinke, D. vanden Boom, A. Braun, and C. Cantor. (2004) Minin Diseasesusceptibility genes through SNP analyses and expression profilingusing MALDI-TOF máss spectrometry. J. Proteome Res 3(2): 218-227

Venter, C. et al. (2001) The sequence of the human genome. Science 291:1304-1351

Voet, D. and J. Voet, (1995) Biochemistry, 2nd Ed. John Wiley and Sons, Inc.NY, EUA

Wang, D. et al. (1998) Large-scale identification, mapping, and genotyping ofsingle nucleotide polymorphisms in the human genome. Science 280:1077-1082

Watson, J. and F. Crick.(1953) Molecular structure of nucleic acids: structure fordeoxyribose nucleic acids. Nature, 171: 737-738

Page 48: Secuenciación de Ácidos Nucleicos

47

Weber, J. and E. Myers (1997) Human Whole-genome shotgun sequencing.Genome Res 7: 401-409

Yager, T., L. Baron, R. Batra, A. Bouevitch, D. Chan, K. Chan, S. Darasch, R.Gilchrist, A. Izmailov, J. Lacroix, K. Marchellata, J. Renfrew, D. Rushlow,E. Stinbach, C. Ton, P. Waterhouse, H. Zaleski, J. Dunn, and J. Stevens(1999) High performance DNA sequencing, and the detection ofmutations and polymorphisms on the Clipper sequencer. Electophoresis20: 1280-1300

Zimmermann, J., S. Wirmann, H. Voss, C. Schwager, and W. Ansorge (1994)Improved fluorescent cycle sequencing protocol allows reading nearly1000 bases. BioTechniques 17(2): 302-305