cursos de formaciónde la ucts (2011) - vhir.org · -ensamblaje de genomas eucariotas y procariotas...

141
Cursos de Formación de la UCTS (2011) Plataforma de Genómica / Plataforma de Diagnóstico Molecular “Tecnologías de alto rendimiento en genómica” 2ª Parte: Tecnologías de ultrasecuenciación y de enriquecimiento de secuencia.

Upload: duongdieu

Post on 18-Oct-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Cursos de Formación de la UCTS (2011)

Plataforma de Genómica / Plataforma de Diagnóstico Molecular

“Tecnologías de alto rendimiento en genómica”

2ª Parte: Tecnologías de ultrasecuenciación y de enriquecimientode secuencia.

Programa del curso

� De Sanger hacia NGS

� 454 de Roche� Desarrollo de la tecnología� Cómo funciona� Aplicaciones

� Comparación con otros Sistemas NGS

� Sistema Nimblegen� Cómo funciona� Formatos� Aplicaciones

� Análisis de datos de alta densidad (UEB)

Cualquier DNA puede ser secuenciado

Genomas Secuenciados

Nature Reviews Genetics 9, 303-313, 2008

2.“Chain-terminator method”by Sanger et al.Método usado durante los proximos 30 años

phi X 174Primer genoma de DNA completo secuenciado

11 genes en 5386 bases (cadena sencilla)

1977454 Life Science comercializa el 1er ultrasecuenciador GS20 (20Mpb)

SOLID de Applied Biosystem

Serie de reactivos Titanium de Roche (500Mbp).

Genoma Watson mediante 454/ROCHENature452, 872-876 (17 April 2008).

1000 Genomes Project

2005

2007

2008

1ªG

EN

ER

AC

IÓN

NG

S:2

ªG

EN

ER

AC

IÓN

Cronología de la Secuenciación

Método secuenciación“plus and minus”, Sanger y Coulson

1.“ DNA sequencing by chemical degradation ”by Maxam y Gilbert.

Francis Crick and James Watson describen el modelode la doble hélice del DNA.

Applied Biosystems comercializa el primer secuenciador automático,El modelo ABI 370.

1987

2010

Pal Nyrén & Mostafa Ronagh ipublican métodode la pirosecuenciación en el Royal Institute of Technology (Stockholm).

1996

El Instituto Naiconal de Salud (NIH) empieza secuenciación a gran escala de diversos microorganismos, ej. E.coli

1990

2001 Se publica la primera versión del genoma humano.Science291(5507): 1304–51; Nature409(6822): 860–921

NGS:3ª

GENERACIÓN

2003

Genoma de Venter mediante sec. Sangerautomática (4 años)

Lanzamiento de GS FLX de Roche (100Mbp)

Proyecto Genoma Humano (13 años). U.S. Department of Energy and the NIH

Método de secuenciaciaciónSingleMolecularRealTime

1ªG

EN

ER

AC

IÓN

1975

1953

2006 Lanzamiento de SOLEXA (Illumina)

1973 Método secuenciación“Wandering spot”, Maxam y Gilbert

Sanger sequencing:- Long reads (500-1000 bp)- Low throughput (192 reactions/run)

1ª Generación Secuenciación

Fragmentación de DNA

Clonaje en Vectores; Transformación Bacterias;crecimiento y aislamiento vector DNA

Ciclo Secuenciación

3´…GACTAGATACGACGAGCGTGA…5 ´5´…CTGAT

Secuencia:Primer:

PolimerasadNTPsddNTPs marcados

Método Sanger

CTATGCTCGElectroforesis( 1 Secuencia/Capilar)

2ª Generación Secuenciación

Los Instrumentos de secuenciación de 2ª generación pueden generar tantos datos en un día como los

generados por varios cientos de secuenciadores con capilares tipo Sanger, obtenidos por una sola persona.

Sanger vs 2ª Generación Secuenciación

Fragmentación de DNA Fragmentación de DNA

Clonaje en Vectores; Transformación Bacterias;crecimiento y aislamiento vector DNA

Ligación de adaptadores in vitro y amplificación clonal

Ciclo Secuenciación

CTATGCTCG

Secuencia:Primer:

PolimerasadNTPsddNTPs marcados

Electroforesis( 1 Secuencia/Capilar)

Secuenciación masiva en paralelo

Procesamiento imagen

2ª Generación Secuenciación

illumina

Life Technology

ROCHE

GS FLX 454 GS Junior 454

Solexa

SOLiD™ 4 System 5500 System 5500xl SystemSOLiD™ 3System Ion Torrent System

GS FLX+ 454

Servicio Ultrasecuenciación UCTS

GS FLX GS Junior

GS 454 de ROCHE

PicoTiterPlate_FLX70x70mm

96p-Plates

1ª Generación3100 ABI

2ª Generación GS ROCHE

¿Cúantas muestras se pueden secuenciar por run?

384p-PlatesPicoTiterPlate_Junior

Metal coated PTP reduces crosstalk29 µm well diameter (20/bead)3,400,000 wells per PTP

GS FLX/Junior 454 Troughput

-Tamaño de lo que quiero secuenciar

-Coverage

-Multiplexar (MIDS)

PTP

Donde: N= num de muestras que puedo secuenciar en un runG= tamaño de lo que quiero secuenciarC=Coverage (C= N * L / G)

N= (GxC)/Mbp por región PTP

Gaskets

35

2. Construcción Librería

3. Amplificación mediante emPCR

4. Secuenciación

GS FLX/Junior 454 Workflow

1.Calidad & CantidadMaterial de partida

gDNA, Amplicones, cDNA

Datos Obtenidos

1. Calidad & Cantidad Material de partida

gDNA, RNA

1.1 Calidad mediante Chips Bioanalyzer; gel agarosa

1.2 Cuantificación mediante Picogreen (gDNA) o Ribogreen (RNA)

y = 34,577x - 61,596R2 = 0,9994

0

5000

10000

15000

20000

0 200 400 600Lam bda DNA (ng/m L)

Flu

ores

cenc

e

.

Fluorímetro FLx800

2. Construcción Librería

3. Amplificación mediante emPCR

4. Secuenciación

GS FLX/Junior 454 Workflow

1.Calidad & CantidadMaterial de partida

gDNA, Amplicones, RNA

Datos Obtenidos

2. Construcción Librería

gDNA, RNAPCR con Fusion Primers

FragmentaciónSelección Tamaño Ligación Adaptadores

Librería ShotgunLibrería Pair-EndLibrería cDNA

Librería Amplicones

Adaptador A (44 bases): Adaptador B (44 bases) Fusion Primers

Primer Amplificación Primer

Secuenciación4 nucleótidos

“Key”

Primer Amplificación Primer

Secuenciación4 nucleótidos

“Key”Biotina

Adaptador A Target

Adaptador B Target

Fuerzas de rotura hidrodinámicas

Orificio

gDNA

gDNAfragmentado

Librerías Shotgun

NEBULIZACIÓN

2.1 bar (30psi)

2. Construcción Librería: Fragmentación gDNA

Librerías Pair-End

HYDROSHEAR

DNA genómico Fragmentos de DNAde doble cadena

Rotura utilizando nitrógeno a alta presión

2. Construcción Librería: Fragmentación RNA

Librerías cDNA

RNA

Fragmentos de cDNAde doble cadena

Solución de Fragmentación de RNA

First StrandSynthesisRandom

Primers

Second StrandSynthesis

2. Construcción Librería: Selección fragmentos

DNA 7500 Lab Chip

50pb-1000pb

gDNA Nebulizado:

gDNA fragmentado con Hydroshear:

300pb-1000pb

DNA 7500 LabChip

Tamaño medio de 500-600 nt (dep. del contenido en GC)Menos del 10% ≤ 300 nt, no adaptor dimers

Conc >0.2 ng/µl (Ribogreen ®)

RNA Pico 6000 LabChip

500pb-600 nt

AMPure beadsSPRI (Solid Phase Reversible Immobilization)

Electroelución

Inmobilización Fragmentos y aislamiento de la Librería:

2. Construcción Librería

AB

AB

BB

AA

Melt Solution

� 4 tipos de productos resultan de la ligación

� Los productos con Biotina (AB, BA, BB) se unen a bolas magnéticas que llevan estreptavidina. Los products AA son lavados y eliminados.

� Mediante Melt Solution (NaOH0.1N) las cadenas no biotiniladas de cada fragmento de dsDNA son aisladas. Ambas cadenas de los fragmentos BB quedarán unidas a las bolas.

�Sólo se aislan cadenas de DNA sencilla AB constituyendo la librería.

- Num de Avogadro es 6.022x1023 (moléculas/mole)

-328.3x109 (gramos/mole) es peso molecular medio de nts.

-Perfil típico de una librería ssDNA (Agilent 2100 RNA Pico 6000 LabChip): Tamaño medio de 500-800 bp

-Cuantificación mediante Ribogreen

-Dilución de trabajo para emPCR

Molecules/µl =

2. Construcción Librería: Q&Q Librería

2. Construcción Librería

3. Amplificación mediante emPCR

4. Secuenciación

GS FLX/Junior 454 Workflow

1.Calidad & CantidadMaterial de partida

gDNA, Amplicones, cDNA

Datos Obtenidos

3. Amplificación mediante emPCR

-1 starting effective fragment per microreactor- ~106 microreactors per ml- All processed in parallel

(Amplificación clonal)

high-speedshaker

Antes de la emPCR:

Enrequecimiento de beads con DNA:

% Enrequecimiento=

3. Amplificación mediante emPCR

DNA-beads/ml

Input beadsx100

% Recuperación=DNA-beads/ml

Input beadsx100

Después de la PCR:

Rotura y Recuperación Contaje

Melt

dsDNAUnión de Primer marcado con Biotina a bolas de captura con ssDNA

Adición de bolas magnéticas con estreptavidina

Melt

5-20% óptimo

65%, 85% óptimo

Antes de la emPCR:

emPCR Titulación sólo para GS FLX

¿Cuántas copias de librería por Beads de captura son óptimas?

Tubo Moléculas de Librería por Bead de Captura (cpb)

Vol Librería Diluida

1 2 1.2 µl

2 4 2.4 µl

3 8 4.8 µl

4 16 9.6 µl

1. Procesar 4 tubos emulsiones

2. Recuperación y enrequecimiento de cada tubo

3. Contaje de las beads enriquecidas

4. Escoger el ratio copia/bead con aproximadamente un 8% de enrequecimiento

2. Construcción Librería

3. Amplificación mediante emPCR

4. Secuenciación

GS FLX/Junior 454 Workflow

1.Calidad & CantidadMaterial de partida

gDNA, Amplicones, cDNA

Datos Obtenidos

4. Secuenciación

Metal coated PTP reduces crosstalk29 µm well diameter (20/bead)3,400,000 wells per PTP

Gaskets

Secuenciación mediante síntesisQuímica basada en la pirosecuenciación

� Polimerasa añade nucleótidos (dATP)

� Se libera pirofosfato (PPi)

� Sulfurilasa crea ATP a partir del PPi

�Luciferasa hidroliza ATP y usa luciferina para producir luz.

Light + oxyluciferin

Luciferina

Sulfurylase

Luciferase

4. Secuenciación

� Nucleotides are flowed sequentially across the PTPone at a time (200 cycles à4 bases)

� Pyrophosphate signal generation upon complimentary nucleotide incorporation —dark otherwise

� The CCDcamera is generating a image after every flow

� The signal strength is proportional to the number of nucleotides incorporated

Flujo de Reactivos

4. Secuenciación

4. Secuenciación

Flowgama y Base calling:

4. Secuenciación:Ejemplo

MIDS:

-Los MIDs son secuencias cortas que se añaden a los fragmentos a secuenciardurante la generación de librería y permiten identificar cada muestra de manera individual.

-Permite aumentar el número de muestras por PTP:-separación física: “gaskets”→ pérdida física de espacio en la placa-separación por “código de barras”

-Utilizando las dos posibilidades anteriores, aumenta el número de muestras a secuenciar por placa:

-Kit comercial de 12 MIDs (diseñados por Roche) → 12 muestras/reg.-División de la PTP en 16 reg. con “gaskets”

TOTAL: 12 MIDs/reg. * 16 reg. = 192 muestras por PTP (máx) (INCLUSO MÁS)

MULTIPLEXACIÓN DE MUESTRAS

Primer Amplificación Primer

Secuenciación4 nucleótidos

“Key”Biotina

Primer Amplificación Primer

Secuenciación4 nucleótidos

“Key”

MIDS MIDS

Adaptador B Target

MIDS

Adaptador A Target

MIDS

MID1-Amplicón 1

MID2-Amplicón 2

MID3-Amplicón 3MID4-Amplicón 4

MID5-Amplicón 5

MID6-Amplicón 6

Amplicón 11

Amplicón 12

Multiplexado de amplicones

Amplicón 7Amplicón 8

Amplicón 9Amplicón 10

Multiplexado de Muestras

SISTEMA GS FLX 454-APLICACIONES

-Secuenciación de DNA a partir de muestras de especies extinguidas (shot-gun, paired-end)

-Estudios de epigenética: amplicones-ChIP y secuenciación de los fragmentos de DNA presentes en los IPs-Metilación: conversión con bisulfito, amplificación de las regiones conteniendo islas CpG y secuenciación.

-Ensamblaje de genomas eucariotas y procariotas completos, tanto de novo como resecuenciación (shot-gun +paired-end)

-SAGE (Serial Analysis of Gene Expression Ditags): análisis cuantitativo y cualitativo del transcriptoma (shot-gun)

-Caracterización y cuantificación de poblaciones virales a través de la secuenciación de genes diana (ej: transcriptasa reversa en VIH). Detección de quasiespecies(amplicones).

-Metagenómica: estudio del contenido genómico en una mezcla compleja de microorganismos (microbiota, muestras medioambientales). Determinación tanto cuantitativa como cualitativa (shot-gun, retrotranscripción de RNA total o de mRNA, amplicones de 16S rRNA)

-Secuenciación de genomas de pequeño tamaño (virales, mitocondriales) o de plásmidos (shot-gun)

-Secuenciación de RNAs de pequeño tamaño (microRNAs, siRNAs): generación del cDNA de doble cadena como material de partida (shot-gun)

-Detección de SNPs, InDels, CNV (shot-gun)

-Análisis del transcriptoma (partiendo de RNA total o mRNA), cuantitativo o cualitativo (comparación de niveles de expresión) (retrotranscripción y shot-gun)

-Enriquecimiento de regiones del genoma/captura del exoma utilizando arrays de captura de Nimblegen. Secuenciación de las regiones capturadas (shot-gun).

En función de la aplicación, puede ser necesario completar los datos de 454 utilizandootras tecnologías, p.ej. Resolución de homopolímeros utilizando Sanger o lecturascortas de Illumina.

En general, se recomienda validar siempre los resultados utilizando otro tipo de aproximaciones: arrays, secuenciación Sanger, PCR a tiempo real, otras tecnologías de ultrasecuenciación.....

SISTEMA GS FLX 454-APLICACIONES

Especificaciones Sistemas GS FLX & GS Junior

El futuro de la secuenciación 454

Programa del curso

� De Sanger hacia NGS

� 454 de Roche� Desarrollo de la tecnología� Cómo funciona� Aplicaciones

� Comparación con otros Sistemas NGS

� Sistema Nimblegen� Cómo funciona� Formatos� Aplicaciones

� Análisis de datos de alta densidad (UEB)ç

� Chemistry based onpirosequencing

� Sample amplified byemulsion PCR

� Read length 250-500 bp

� >1 million reads per run

� 400-600 Mb of sequence

� ~10 hours run

GS FLX 454

� Chemistry based onreversible terminators

� Sample amplified by solidphase amplification

� Read length 2x100 bp

� 3 billions reads per run

� 600 Gb of sequence

� 2-11 days run

HiSeq 2000-Illumina ABI SOLID 5500xl

� Chemistry based onsequencing by ligation

� Sample amplified byemulsion PCR

� Read length 50-100 bp

� 100-500 million reads per run

� 50-100 Gb of sequence

� 4-8 days run

Comparación Plataformas secuenciación

Comparación Plataformas secuenciación

Comparación Plataformas secuenciación

Comparación Plataformas secuenciación

Ejemplos de Genomas humanos secuenciados

Nature Reviews Genetics 11, 31-46 (January 2010)

Comparación Plataformas secuenciación

1ª Generación 2ª Generación

SCIENCE Vol 323 2 JANUARY 2009

JohnJohnEidEid,,** AdrianAdrian FehrFehr,,** JeremyJeremyGray,Gray,** KhaiKhai LuongLuong,,** JohnJohnLyleLyle,,** GeoffGeoff OttoOtto,,** PaulPaulPelusoPeluso,,** David David RankRank,,** PrimoPrimoBaybayanBaybayan, , BradBradBettmanBettman, , ArkadiuszArkadiuszBibilloBibillo , , KeithKeithBjornsonBjornson, , BidhanBidhanChaudhuriChaudhuri, , FrederickFrederickChristiansChristians, , RonaldRonaldCiceroCicero, , SonyaSonyaClarkClark, , RavindraRavindraDalalDalal, Alex , Alex deWinterdeWinter, , JohnJohnDixonDixon, , MathieuMathieuFoquet, Alfred Foquet, Alfred GaertnerGaertner, , PaulPaulHardenbolHardenbol, , CherylCherylHeinerHeiner, , KevinKevin HesterHester, David , David HoldenHolden, , GregoryGregoryKearnsKearns, , XiangxuXiangxuKongKong, , RonaldRonaldKuseKuse, , YvesYvesLacroixLacroix, , StevenStevenLinLin, , PaulPaulLundquistLundquist, , CongcongCongcongMa, Ma, PatrickPatrickMarksMarks, Mark , Mark MaxhamMaxham, Devon , Devon MurphyMurphy, , InsilInsil ParkPark, , ThangThangPhamPham, Michael , Michael PhillipsPhillips, , JoyJoyRoyRoy, Robert , Robert SebraSebra, , GeneGeneShenShen, , JonJonSorensonSorenson, , AustinAustin TomaneyTomaney, , KevinKevinTraversTravers, Mark , Mark TrulsonTrulson, , JohnJohnVieceliVieceli, , JeffreyJeffreyWegenerWegener, , DawnDawnWuWu, Alicia , Alicia YangYang, , DenisDenisZaccarinZaccarin, Peter , Peter ZhaoZhao, , FrankFrankZhongZhong, , JonasJonasKorlachKorlach, , StephenStephenTurnerTurner..

Real-Time DNA Sequencing from Single Polymerase Molecules

MENLO PARK , Calif., Feb 23, 2010 Pacific Biosciences, a private company developing a disruptive technology platform for real-time detection of biological events at single molecule resolution, today announced the 10 institutions that have purchased its Single Molecule Real Time (SMRT(TM)) DNA sequencing system as part of the company's early access program in North America.

Eleven Leading Companies Support Launch of Third-generation DNA Sequencing

Press Release

Pacific Biosciences Announces Early Access Customers for Its Single Molecule Real Time System

http://www.pacificbiosciences.com

3ª Generación Secuenciación

Programa del curso

� De Sanger hacia NGS

� 454 de Roche� Desarrollo de la tecnología� Cómo funciona� Aplicaciones

� Comparación con otros Sistemas NGS

� Sistema Nimblegen� Cómo funciona� Formatos� Aplicaciones

� Análisis de datos de alta densidad (UEB)

Los arrays de captura de secuencia de Nimblegen permiten capturar y enriquecer regiones génicasde interés, contiguas o no, con una elevada sensibilidad y especificidad, que luego puedenamplificarse y secuenciarse mediante tecnologías de alto rendimiento (454/Illumina).

-Este sistema permite secuenciar regiones de interés en vez de genomas completos, con lo cual el coste de la secuenciación se reduce considerablemente. Técnicamente, el proceso también es menoscostoso.

-Sistema flexible: las regiones de interés pueden ser contiguas o no en el genoma.

-Nimblegen diseña los arrays a la carta, solamente es necesario facilitarles las coordenadas de los genes diana.

NIMBLEGEN: Arrays de Captura

1) Formato sólido-Arrays “ a la carta”, con dos posibles tamaños de captura: 5 Mb ó 30 Mb por array.-Arrays de captura del exoma: prediseñados, contienen 180.000 exones humanoscodificantes y 551 exones para miRNA (34 Mb), utilizando 2,1 millones de sondas. El listado de genes que contienen estos arrays puede consultarse en la web de Nimblegen(www.nimblegen.com).

-2) Formato en solución-Arrays de captura del exoma: prediseñados, contienen 180.000 exones humanoscodificantes y 551 exones para miRNA (34 Mb). Existe una versión LR (long-read) optimizada para secuenciación con 454. Disponible en dos formatos, para 4 reacciones y para 48 reacciones.

Próximamente existirá este formato para arrays de 5 Mb.

NIMBLEGEN: Arrays de Captura

PROTOCOLO DE ARRAYS DE CAPTURA EN SÓLIDO

3. Pre-capture amplification

4. Hybridization

a) Ensamblaje del array b) Carga del array

c) Hibridación: 42º C, 64-72 h

Pre-capture amplification

3. Hybridization

47 ºC, 64-72 horas

Primers biotinilados

PROTOCOLO DE ARRAYS DE CAPTURA EN SOLUCIÓN

Streptavidin beads

Los locus control NSC permiten determinar el enrique cimiento de un pequeño set de locus control estandarizados que se en cuentrandentro de un rango de eficiencias de captura conocidas . Estos ensayos permiten hacer una estimación aproximada del enriquecimiento de poblaciones mayores de genes diana s in necesidad de secuenciarlos. Si la qPCR de estos locus control indica una captura correcta, es muy problable que los locus experimentalesde interés también hayan sido capturados satisfactoriame nte.

La eficiencia teórica de una qPCR es del 100% y signif ica que las secuencias diana se doblan en cada ciclo, es decir, q ue E=2. Sin embargo, la eficiencia real nunca es del 100% y por eso el valo r de E debe calcularseempíricamente para cada sonda.

CONTROL DE CALIDAD DE LA CAPTURA MEDIANTE qPCR

TECNOLOGÍA DE NIMBLEGEN

-Arrays de enriquecimiento de secuencia

-CGH arrays

-ChIP-chip arrays

-Arrays de metilación

-Arrays de expresión génica

CGX / CNV / Whole genome / Whole genome-exon focused / Custom

Whole genome / Promoter / Custom

Whole genome / Promoter / Custom

Whole genome / Promoter / Custom

www.nimblegen.com

OTRAS TECNOLOGÍAS DE ENRIQUECIMIENTO DE SECUENCIA

-Sistema SureSelect (Agilent): arrays de captura en solución. Optimizadapara la secuenciación con Illumina, SOLiD y 454. Existen versionesprediseñadas para capturar el exoma y el noma humanos, o bien puedendiseñarse ensayos “a la carta” (captura de 3.3 ó 6.6 Mb). Las muestraspueden “indexarse” después de la captura para optimizar el rendimiento de la ultrasecuenciación (=MIDs de Roche). Existe también un formato sólidoque permite capturar hasta 1 Mb.

http://www.genomics.agilent.com

-Sistema Febit (ABI). Para ver una descripción de cómo funciona el sistema:

http://www.nature.com/nmeth/journal/v6/n9/full/nmeth.f.266.html

PAUTAS PARA EL DISEÑO EXPERIMENTAL DE UN ESTUDIO DE ULTRASECUENCIACIÓN

EXPERIMENTAL DESIGN QUALITY SAMPLES COLLECTION

SAMPLE PROCESSING

DATA ANALYSIS

RESULTS CHECKING

SEQUENCING

EXPERIMENTS

Statistics and Bioinformatics (UEB)

UCTS

Researcher

UCTS WORKFLOW

UEB UCTS

Others

Programa del curso

� De Sanger hacia NGS

� 454 de Roche� Desarrollo de la tecnología� Cómo funciona� Aplicaciones

� Comparación con otros Sistemas NGS

� Sistema Nimblegen� Cómo funciona� Formatos� Aplicaciones

� Análisis de datos de alta densidad (UEB)

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Introduction to NGS(Now Generation Sequencing)

Data Analysis

Picture 5 ...

Statistics and Bioinformatics Research GroupStatistics department, Universitat de Barelona

Statistics and Bioinformatics UnitVall d’Hebron Institut de Recerca

Alex Sánchez

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Introduction to NGS(Now Generation Sequencing)

Data Analysis

Statistics and Bioinformatics Research GroupStatistics department, Universitat de Barelona

Statistics and Bioinformatics UnitVall d’Hebron Institut de Recerca

Alex Sánchez

Outline

• Introduction• Bioinformatics Challenges• NGS data analysis: Some examples and workflows

• Metagenomics, De novo sequencing, Variant detection, RNA-seq

• Software• Galaxy, Genome viewers

• Data formats and quality control

NGS Data analysis http://ueb.ir.vhebron.net/NGS

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Introduction

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Why is NGS revolutionary?

• NGS has brought high speed not only to genome sequencing and personal medicine,

• it has also changed the way we do genome research

Got a question on genome organization?

SEQUENCE IT !!!

Ana Conesa, bioinformatics researcher at Principe Felipe Research Center

NGS Data analysis http://ueb.ir.vhebron.net/NGS

NGS means high sequencing capacity

GS FLX 454(ROCHE)

HiSeq 2000(ILLUMINA)

5500xl SOLiD(ABI)

Ion TORRENT

GS Junior

NGS Data analysis http://ueb.ir.vhebron.net/NGS

454 GS Junior35MB

NGS Platforms Performance

NGS Data analysis http://ueb.ir.vhebron.net/NGS

454 Sequencing

NGS Data analysis http://ueb.ir.vhebron.net/NGS

ABI SOLID Sequencing

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Solexa sequencing

Applications of Next-Generation Sequencing

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Comparison of 2nd NGS

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Some numbers

Platform 454/FLX Solexa (Illumina) AB SOLIDRead length ~350-400bp 36, 75, or 106 bp 50bpSingle read Yes Yes YesPaired-end Reads Yes Yes YesLong-insert (several Kbp) mate-paired reads Yes Yes NoNumber of reads por instrument run 5.00K >100 M 400MMax Data output 0.5Gbp 20.5 Gbp 20GbpRun time to 1Gb 6 Days > 1 Day >1 DayEase of use (workflow) Difficult Least difficult DifficultBase Calling Flow Space Nucleotide space Color sapce

DNA ApplicationsWhole genome sequencing and resequencing Yes Yes Yes

de novo sequencing Yes Yes YesTargeted resequencing Yes Yes Yes

Discovery of genetic variants ( SNPs, InDels, CNV, ...) Yes Yes YesChromatin Immunopecipitation (ChIP) Yes Yes YesMethylation Analysis Yes Yes YesMetagenomics Yes No No

RNA Applications Yes Yes YesWhole Transcriptome Yes Yes YesSmall RNA Yes Yes Yes

Expression Tags Yes Yes Yes

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Bioinformatics challenges of NGS

NGS Data analysis http://ueb.ir.vhebron.net/NGS

I have my sequences/images. Now what?

NGS Data analysis http://ueb.ir.vhebron.net/NGS

NGS pushes (bio)informatics needs up

• Need for computer power• VERY large text files (~10 million lines long)

– Can’t do ‘business as usual’ with familiar tools such as Perl/Python.– Impossible memory usage and execution time • Impossible to browse for problems

• Need sequence Quality filtering• Need for large amount of CPU power

• Informatics groups must manage compute clusters• Challenges in parallelizing existing software or redesign of algorithms to work in a

parallel environment

• Need for Bioinformatics power!!!• The challenges turns from data generation into data analysis!• How should bioinformatics be structured

• Bigger centralized bioinformatics services? (or research groups providing service?)• Distributed model: bioinformaticians must be part of the temas. Interoperability?

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Data management issues

• Raw data are large. How long should be kept?• Processed data are manageable for most people

– 20 million reads (50bp) ~1Gb

• More of an issue for a facility: HiSeq recommends 32 CPU cores, each with 4GB RAM

• Certain studies much more data intensive than other– Whole genome sequencing

• A 30X coverage genome pair (tumor/normal) ~500 GB• 50 genome pairs ~ 25 TB

NGS Data analysis http://ueb.ir.vhebron.net/NGS

So what?

• In NGS we have to process really big amounts of data, which is not trivial in computing terms.

• Big NGS projects require supercomputing infrastructures

• Or put another way: it's not the case that anyone can do everything.– Small facilities must carefully choose their projects to be scaled

with their computing capabilities.

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Computational infrastructure for NGS

• There is great variety but a good point to start with:

– Computing cluster• Multiple nodes (servers) with multiple cores• High performance storage (TB, PB level)• Fast networks (10Gb ethernet, infiniband)

– Enough space and conditions for the equipment ("servers room")

– Skilled people (sysadmin, developers)• CNAG, in Barcelona: 36 people, more than 50% of them

informaticians

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Alternatives (1): Cloud Computing

• Pros– Flexibility.– You pay what you use.– Don t need to maintain a data center.

• Cons– Transfer big datasets over internet is

slow.– You pay for consumed bandwidth.

That is a problem with big datasets.– Lower performance, specially in disk

read/write.– Privacy/security concerns.– More expensive for big and long

term projects.

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Alternatives (2): Grid Computing

• Pros– Cheaper.

– More resources available.

• Cons– Heterogeneous

environment.– Slow connectivity (specially

in Spain).– Much time required to find

good resources in the grid.

NGS Data analysis http://ueb.ir.vhebron.net/NGS

In summary?

•“NGS” arrived 2007/8 •No-one predicted NGS in 2001 (ten years ago) •Therefore we cannot predict what we will come

up against •TGS represents specific challenges –Large Data Storage –Technology-aware software –Enables new assays and new science •We would have said the same about NGS…. •These are not new problems, but will require

new solutions •There is a lag between technology and

software….

Bioinformatics and bioinformaticians

• The term bioinformatician means many things • Some may require a wide range of skills • Others require a depth of specific skills • The best thing we can teach is the ability to learn and

adapt • The spirit of adventure • There is a definite skills shortage • There always has been

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Increasing importance of data analysis needs

NGS Data analysis http://ueb.ir.vhebron.net/NGS

NGS Data analysis http://ueb.ir.vhebron.net/NGS

NGS data analysis

NGS Data analysis http://ueb.ir.vhebron.net/NGS

NGS data analysis stages

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Quality control and preprocessing of NGS data

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Data types

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Why QC and preprocessing

• Sequencer output:– Reads + quality

• Natural questions– Is the quality of my sequenced

data OK?– If something is wrong can I fix it?

• Problem : HUGE files... How do they look?

• Files are flat files and big... tens of Gbs (even hard to browse them)

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Preprocessing sequences improves results

NGS Data analysis http://ueb.ir.vhebron.net/NGS

How is quality measured?

• Sequencing systems use to assign quality scores to each peak• Phred scores provide log(10)-transformed error probability values:

If p is probability that the base call is wrong the Phred score isQ = .10·log10p

– score = 20 corresponds to a 1% error rate– score = 30 corresponds to a 0.1% error rate– score = 40 corresponds to a 0.01% error rate

• The base calling (A, T, G or C) is performed based on Phred scores.• Ambiguous positions with Phred scores <= 20 are labeled with N.

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Data formats

• FastA format (everybody knows about it)– Header line starts with “>” followed by a sequence ID– Sequence (string of nt).

• FastQ format (http://maq.sourceforge.net/fastq.shtml)– First is the sequence (like Fasta but starting with “@”)– Then “+” and sequence ID (optional) and in the following line are

QVs encoded as single byte ASCII codes• Different quality encode variants

• Nearly all downstream analysis take FastQ as input sequence

NGS Data analysis http://ueb.ir.vhebron.net/NGS

The fastq format

• A FASTQ file normally uses four lines per sequence. – Line 1 begins with a '@' character and is followed by a sequence

identifier and an optional description (like a FASTA title line). – Line 2 is the raw sequence letters. – Line 3 begins with a '+' character and isoptionally followed by the same

sequence identifier (and any description) again. – Line 4 encodes the quality values for the sequence in Line 2, and must

contain the same number of symbols as letters in the sequence.• Different encodings are in use• Sanger format can encode a Phred quality score from 0 to 93 using ASCII 33 to 126

@Seq description

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

+

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>> CCCCCCC65

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Some tools to deal with QC

• Use FastQC to see your starting state.

• Use Fastx-toolkit to optimize different datasets and then visualize the result with FastQC to prove your success!

• Hints: – Trimming, clipping and filtering may improve quality– But beware of removing too many sequences…

Go to the tutorial and try the exercises...

Applications

• [1] Metagenomics• [2] De novo sequencing• [3] Amplicon analysis• [4] Variant discovery• [5] Transcriptome analysis• …and more …

NGS Data analysis http://ueb.ir.vhebron.net/NGS

NGS Data analysis http://ueb.ir.vhebron.net/NGS

[1] Metagenomics &other community-based “omics”

Zoetendal E G et al. Gut 2008;57:1605-1615

[1] Metagenomic Approaches

SMALL-SCALE: 16S rRNA gene profilingThe basic approach is to identify microbes in a complex community by exploiting universal and conserved targets, such as rRNA genesPetrosini.

LARGE-SCALE: Whole Genome Shotgun (WGS)Whole-genome approaches enable to identify and annotate microbial genes and its functions in the community.

Environmental Shotgun Sequencing (ESS).A primer on metagenomics.

PLoS Comput Biol. 2010 Feb 26;6(2):e1000667.

Challenges and limitations: Chimeric sequences caused by PCR amplification and sequencing errors.

Challenges and limitations:relatively large amounts of starting material requiredpotential contamination of metagenomic samples with host

genetic materialhigh numbers of genes of unknown function.

[1] A metagenomics workflow

Gene prediction

Binning

AAGACGTGGACA

CATGCGTGCATG

AGTCGTCAGTCATGGG

GTCCGTCACAACTGA

Short reads (40-150 bps)

AAGACGTGGACAGATCTGCTCAGGCTAGCATGAAC

Contigs

GATAGGTGGACCGATATGCATTAGACTTGCAGGGC

1 3000 6000

ORFs

Proteins, families, functions

1 3000 6000

Functional profiles

1 2000

Sequences into species

Assembly

Homology searching

Functional classificationOntologies

[1] Comparative Metagenomics

Other software based on phylogeneticdata are UniFrac .

MEGAN can also be used to compare the OTU composition of two or more frequency-normalized samples.MG-RAST provides acomparative functional and sequence-based analysis for uploaded samples

.

Comparing two or more metagenomes is necessary to understand how genomic differences affect, and are affected by the abiotic environment.

[1] Some Metagenomics projects

"whole-genome shotgun sequencing" 78 million base pairs of unique DNA sequence were analyzed

"whole-genome shotgun sequencing" was applied to microbial populationsA total of 1.045 billion base pairs of nonredundant sequence were analyzed

To date, 242 metagenomic projects are on going and 103 are completed (www.genomesonline.org).

NGS Data analysis http://ueb.ir.vhebron.net/NGS

[2] De novo sequencing

[3] Amplicon analysis

Each amplicon (PCR product) is sequenced individually, allowing for the identification of rare variants and the assignment of haplotype information over the full sequence length

Some applications:� Detection of low-frequency (<1%) variants in complex

mixtures → rare somatic mutations, viral quasispecies... Ultra-deep amplicon sequencing

� Identification of rare alleles associated with hereditary diseases, heterozygote SNP calling... Ultra-broad amplicon sequencing

� Metabolic profiling of environmental habitats, bacterial taxonomy and phlylogeny 16S rRNA amplicon sequencing

[3] Example of raw data generation with GS-FLX

...

[3] Data Workflow

...

Dat

a P

roce

ssin

g

[3] Final output examples

...

Bar plots output example (with circular legend for the AA)

NT substitution (error) matrices

AA frequency tables

[4] Variant discovery

Your aligner decides the type/amount of variants you can identify

Naive SNP callingReads counting

Statistic support SNP callingMaximum likelihood, Bayesian

Quality score recalibrationRecalibrate quality score from whole alignment

Local realignment around indelsRealign reads

Known variants (limited species)dbSNP

[4] Example: Exome Variant Analysis

[4] Genotype calling tools

[4] GATK pipeline

NGS Data analysis http://ueb.ir.vhebron.net/NGS

[4]

[4] Many ongoing sequencing projects

NGS Data analysis http://ueb.ir.vhebron.net/NGS

[5] Transcriptome Analysis using NGS

� RNA-Seq, or "Whole Transcriptome Shotgun Sequencing" ("WTSS") refers to use of HTS technologies to sequence cDNA in order to get information about a sample's RNA content.

� Reads produced by sequencing

� Aligned to a reference genome to build transcriptome mappings.

CEMCAT-Neuroimmunology

[5] Applications (1) � Whole transcriptome analysis

Reads cover the full length of a transcript

AAAAmRNA

Fragmentation

RT

cDNA library

sequencing

� Detects expression of known and novel mRNAs

� Identification of alternative splicing events � Detects expressed SNPs or mutations

� Identifies allele specific expression patterns

[5] Applications (2) Differential expression

1.Reads are mapped to the reference genome or transcriptome

2.Mapped reads are assembled into expression summaries (tables of counts, showing how may reads are in coding region, exon, gene or junction);

3.The data are normalized;

4.Statistical testing of differential expression (DE) is performed, producing a list of genes with P-values and fold changes.

10 years or plus of high throughput data analysis

[5] RNA Seq data analysis - Mapping

•Main Issues:–Number of allowed mismatches–Number of multihits–Mates expected distance–Considering exon junctions

End up with a list of # of reads per transcript

These will be our (discrete) response variable

10 years or plus of high throughput data analysis

• Two main sources of bias– Influence of length : Counts are proportional to the transcript length

times the mRNA expression level.– Influence of sequencing depth : The higher sequencing depth, the

higher counts.

• How to deal with this– Normalize (correct) gene counts to minimize biases.– Use statistical models that take into account

length and sequencing depth

[5] RNA Seq data analysis -Normalization

10 years or plus of high throughput data analysis

[5] RNA Seq - Differential expression methods

• Fisher's exact test or similar approaches.

• Use Generalized Linear Models and model counts using – Poisson distribution.– Negative binomial distribution.

• Transform count data to use existing approaches for microarray data.

• …

[5] Advantages of RNA-seq� Unlike hybridization approaches does not require existing genomic

sequence� Expected to replace microarrays for transcriptomic studies

� Very low background noise� Reads can be unabmiguously mapped

� Resolution up to 1 bp� High-throughput quantitative measurement of transcript abundance

� Better than Sanger sequencing of cDNA or EST libraries

� Cost decreasing all the time� Lower than traditional sequencing

� Can reveal sequence variations (SNPs)� Automated pipelines available

Software for NGS preprocessing and analysis

NGS Data analysis http://ueb.ir.vhebron.net/NGS

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Which software for NGS (data) analysis?

• Answer is not straightforward.• Many possible classifications

– Biological domains• SNP discovery, Genomics, ChIP-Seq, De-novo assembly, …

– Bioinformatics methods• Mapping, Assembly, Alignment, Seq-QC,…

– Technology• Illumina, 454, ABI SOLID, Helicos, …

– Operating system• Linux, Mac OS X, Windows, …

– License type• GPLv3, GPL, Commercial, Free for academic use,…

– Language• C++, Perl, Java, C, Phyton

– Interface• Web Based, Integrated solutions, command line tools, pipelines,…

http://seqanswers.com/wiki/Software/list

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Which software for NGS (data) analysis?

• Answer is not straightforward.• Many possible classifications

– Biological domains• SNP discovery, Genomics, ChIP-Seq, De-novo assembly, …

– Bioinformatics methods• Mapping, Assembly, Alignment, Seq-QC,…

– Technology• Illumina, 454, ABI SOLID, Helicos, …

– Operating system• Linux, Mac OS X, Windows, …

– License type• GPLv3, GPL, Commercial, Free for academic use,…

– Language• C++, Perl, Java, C, Phyton

– Interface• Web Based, Integrated solutions, command line tools, pipelines,…

http://seqanswers.com/wiki/Software/list

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Some popular tools and places

Galaxy Site

119

http://galaxy.psu.edu/

120

Obtain data from many data sources including the UCSC Table Browser,BioMart, WormBase, or your own data.

Prepare data for further analysis by rearrangingor cutting data columns,filtering data and many

other actions.

Analyze data by findingoverlapping regions, determining statistics, phylogenetic analysis

and much more

121

contains links to

the downloading,

pre-procession and

analysis tools

displays

menus and

data inputs

Shows the history of analysis steps, data and resultviewing

RegisterUser

122

Click Get Data

123

Get Data

from Database

124

Upload File File Format

Upload or paste file

125

FASTQ file manipulation:

format conversation,

summary statistics,

trimming reads,

filtering reads

by quality score…

Input: sanger FASTQ

Output: SAM format

Downstream analysis:

SAM -> BAM

Copyright OpenHelix. No use or reproduction without express written consent129

List saved histories andshared histories.

Work on a current history, create new, share workflow

Creates a workflow, allowsuser to repeat analysis

using different datasets.

DATA VISUALIZATION

NGS Data analysis http://ueb.ir.vhebron.net/NGS

History of Genome Visualization

1800s 1900s 2000stime

Why is visualization important?

make large amounts of data more interpretable

glean patterns from the data

sanity check / visual debugging

more…

What is a “Genome Browser”

linear representation of a genome

position-based annotations, each called a track

continuous annotations: e.g. conservation

interval annotations: e.g. gene, read alignment

point annotations: e.g. SNPs

user specifies a subsection of genome to look at

Server-side model(e.g. UCSC, Ensembl, Gbrowse)

• central data store• renders images• sends to client

server

client• requests images• displays images

Client-side model(e.g. Savant, IGV)

• stores dataserver

client• local HTS store• renders images• displays images

HTS machine

Rough comparison of Genome Browsers

UCSC Ensembl

GBrowse

Savant IGVModel Server Server Server Client ClientInteractiveHTS supportDatabase of tracksPlugins

No support Some support Good support

Limitations of most genome browsers

do not support multiple genomes simultaneously

do not capture 3-dimensional conformation

do not capture spatial or temporal information

do not integrate well with analytics

cannot be customized

The SAVANT

GENOME BROWSER

has been created

to overcome these

limitations

Integrative Genomics Viewer (IGV)

he Integrative Genomics Viewer (IGV) is a high-performance visualization tool for interactive exploration of large, integrated datasets. It supports a wide variety of data types including sequence alignments, microarrays, and genomic annotations.

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Acknowledgements� Grupo de investigación en Estadística y Bioinformática del

departamento de Estadística de la Universidad de Barcelona.

� All the members at the Unitat d’Estadística i Bioinformàtica del VHIR (Vall d’Hebron Institut de Recerca)

� Unitat de Serveis Científico Tècnics (UCTS) del VHIR (Vall d’Hebron Institut de Recerca)

� People whose materials have been borrowed or who have contributed with their work� Manel Comabella, Rosa Prieto, Paqui Gallego, Javier

Santoyo, Ana Conesa, Thomas Girke and Silvia Cardona.…

NGS Data analysis http://ueb.ir.vhebron.net/NGS

Gracias por la atención y la paciencia