introducción a la secuenciación masiva y a la bioinformática · 24 de abril de 2014 1 •el dna...

30
Introducción a la Secuenciación Masiva y a la Bioinformática Dietmar Fernández Orth, PhD 24 de Abril de 2014 1

Upload: dangkien

Post on 16-Jul-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Introducción a la Secuenciación Masiva y a la Bioinformática

Dietmar Fernández Orth, PhD

24 de Abril de 2014

1

•El DNA (Ácido desoxirribonucleico) contiene la información genética usada en el desarrollo y funcionamiento de los organismos vivos. Se presenta en forma de una cadena doble de nucleótidos unidos por puentes de hidrógeno.

•Tiene la información codificada en forma de GENES. Es como si fuese un libro escrito en un idioma de 4 letras (los nucleótidos A, C, G, T) y cada capítulo (gen) diese la información para una función.

• En el genoma humano tiene unos 20,000-25,000 genes y su genoma tiene aproximadamente 3000 Mb.

2

3

El RNA es un filamento de una sola cadena,

no forma doble hélice que resulta de la

transcripción del DNA.

El RNA mensajero, es el portador de la

información genética que será transcrita a

partir del DNA del núcleo a los ribosomas

que serán los que darán lugar a la

producción de proteínas.

4

Los nucleótidos de DNA y RNA tienen estructuras similares

El RNA es estructuralmente similar al DNA.

5

Las variantes comunes no han sido capaces de explicar por si solas las enfermedades genéticas complejas variantes raras pueden estar afectando

Entre estas pueden destacarse variantes de un solo nucleótido (SNV), estructurales, inserciones o deleciones.

7

Al principio se pensaba que la secuenciación de a que la secuenciación de los ácidos nucleicos era mucho más difícil que la de las proteínas por lo que hasta 1960 fue de escaso objeto de estudio. ‡ En cualquier caso, el hecho de existir solo 4 tipos de nucleótidos llevo a pensar que el análisis sería más sencillo. ‡ Actualmente la secuenciación de ácidos nucleicos es más rápida y sencilla que la secuenciación de proteínas.

La secuenciación es un conjunto de métodos y técnicas bioquímicas que nos van a permitir determinar el orden de los nucleótidos en un fragmento de ácido nucléico.

Secuenciación de Maxam and Gilbert (1977) Secuenciación de Sanger Secuenciación automática Secuenciación Masiva Illumina Applied Roche

8

9

10

Problemas Elevada complejidad técnica Uso extensivo de productos químicos peligrosos. Los reactivos no se pueden adaptar para utilizarse en un kit biológico

11

Fragmentos de 80 bases aproximadamente

12

La fluorescencia permite la automatización. La detección de fluorescencia se realiza al mismo tiempo que la electroforesis. Lo que permite eliminar los fragmentos ya secuenciados.

13

Ventajas secuenciador automático Al no utilizar radioactividad la contaminación es menor. Comodidad. No hace falta leer una autorradiografía. Más secuencia. 700-800 nucleótidos frente a 300 nucleótidos en cada

una. Rapidez. Los secuenciadores capilares pueden llegar a analizar 96

carreras en menos de dos horas. Es más barato. Fuerte inversión inicial.

14

Los procedimientos explicados hasta ahora actuales solo pueden

secuenciar directamente fragmentos relativamente cortos (de entre 300-

1000 nucleótidos de longitud) en una sola reacción.

El principal obstáculo para secuenciar fragmentos de DNA de una

longitud superior a este límite es la capacidad insuficiente de separación

para resolver grandes fragmentos de DNA cuyo tamaño difiere en un sólo

nucleótido.

15

16

17

18

Ficheros fastq

El DNA se parte en fragmentos de 300-800 pb y se dejan extremos “polished” eliminando bases no pareadas en los extremos.

Adición de los adaptadores en extremos.

DNA se pasa a hebra sencilla.

Un adaptador contiene biotina que se unirá a las esferas de estreptavidina. Un solo DNA por esfera.

Se añade aceite y se forma la emulsión. Se hace la PCR para cada esfera tener 106 copias.

Se elimina a continuación el aceite y las esferas se introducen una por pocillo en placas

Las enzimas de pirosecuenciación están adheridas a otras esferas más pequeñas y se añaden a los pocillos

La placa se va lavando en una serie de ciclos con los 4 dNTPs.

La placa tiene acoplada una camara que va captando la luminiscencia emitida en cada pocillo.

21

Secuenciación de novo Consiste en la secuenciación de un genoma sin tener ningún tipo de referencia sobre la que construir los contigs. Requiere una mayor cobertura para poder garantizar la calidad de cada una de las bases determinadas.

Resecuenciación Consiste en la secuenciación de un genoma sobre una referencia. Existen diversas posibilidades:

22

Aplicaciones en Secuenciación

Genomas completos

Resecuenciación dirigida Consiste en el aislamiento, enriquecimiento y secuenciación de regiones específicas del genoma. Permite la detección sistemática tanto de variantes comunes como variantes raras o poco frecuentes.

Exoma Permite la captura, el enriquecimiento y la secuenciación de regiones genómicas codificantes en eucariotas.

Customizada Permite el estudio de regiones específicas del genoma mediante el diseño de sondas customizadas

23

Resecuenciación

RNA - Seq - Transcriptoma completo Información global sobre el contenido de RNA de una muestra, incluyendo mRNAs, rRNAs, tRNAs etc.

Análisis cualitativo = diversidad de transcritos Análisis cuantitativo =abundancia de transcritos

Permite medir niveles de expresión génica, identificar eventos de splicing alternativo, identificar eventos de fusión génica e identificar SNVs.

Transcriptómica

24

SmallRNAs RNAs no codificantes de pequeño tamaño

que incluyen un gran número de moléculas con funciones y estructuras muy diversas (miRNAs, snoRNAs, piRNAs, etc).

Transcriptómica

25

Chip-Seq Combina el método de inmunoprecipitación

de la cromatina con la secuenciación masiva permitiendo la identificación de las zonas de interacción entre la proteína y el DNA (cistroma).

Metilación Estudia los patrones de metilación del DNA implicados por ejemplo en procesos de diferenciación celular

Según el estado de degradación de la muestra secuenciación del DNA mitocondrial

Genomas nucleares de especies extinttas: mamut, Neanderthal

26

Problemas: contaminación…

Nos permite caracterizar la biodiversidad del planeta

El aumento de los genomas secuenciados permite la interpretación parcial del ambiente a partir del muestreo de nichos específicos.

Ejemplo: océano, minas acidas, suelos, arrecifes de coral, microbioma que pueda variar en función de la salud del individuo.

27

28

Control de calidad Tratar de eliminar aquellas posiciones con una baja calidad de secuenciación. Alineamiento Si se parte de un organismo conocido, alineamiento de las secuencias en base a la secuencia de referencia. Si es desconocido, se realiza el ensamblado de las secuencias en contigs. Detección de variantes y anotación.

29

Control de calidad Tratar de eliminar aquellas posiciones con una baja calidad de secuenciación. Alineamiento Si se parte de un organismo conocido, alineamiento de las secuencias en base a la secuencia de referencia. Si es desconocido, se realiza el ensamblado de las secuencias en contigs. Detección de variantes y anotación.

Gracias por vuestra atención

30