introduccion a la bioinformatica

128
descifrando el código de la vida computación de altas prestaciones en biología Alberto Labarga 17 de Diciembre de 2008, Univ. De Granada

Upload: alberto-labarga

Post on 11-Aug-2015

1.020 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Introduccion a la Bioinformatica

descifrando el código de la vida

computación de altas prestaciones en biología

Alberto Labarga17 de Diciembre de 2008, Univ. De

Granada

Page 2: Introduccion a la Bioinformatica

alberto

leyre

Julia

Informati

on architect

Page 3: Introduccion a la Bioinformatica
Page 4: Introduccion a la Bioinformatica

La vida puede verse como un proceso de almacenamiento y transmisión de información biológica. La vida puede verse como un proceso de almacenamiento y transmisión de información biológica.

El ADN es la molécula portadora de esta información. El ADN es la molécula portadora de esta información.

Para entender la vida debemos identificar estas moléculas y descifrar el códigoPara entender la vida debemos identificar estas moléculas y descifrar el código

Page 5: Introduccion a la Bioinformatica
Page 6: Introduccion a la Bioinformatica
Page 7: Introduccion a la Bioinformatica
Page 8: Introduccion a la Bioinformatica
Page 9: Introduccion a la Bioinformatica

“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”

“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”

“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”

“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”

Page 10: Introduccion a la Bioinformatica
Page 11: Introduccion a la Bioinformatica

En 1955 Ochoa publica en Journal of the American Chemical Society el descubrimiento de la polinucleótido-fosforilasa

En 1955 Ochoa publica en Journal of the American Chemical Society el descubrimiento de la polinucleótido-fosforilasa

En 1959 recibe el premio Nobel junto a su discípulo Arthur Kornberg.En 1959 recibe el premio Nobel junto a su discípulo Arthur Kornberg.

Page 12: Introduccion a la Bioinformatica

Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.

Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.

Este resultado le valió su primer Premio Nobel de química en 1958Este resultado le valió su primer Premio Nobel de química en 1958

Page 13: Introduccion a la Bioinformatica

Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.

Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.

El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre.

El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre.

Page 14: Introduccion a la Bioinformatica

La hemoglobina tiene 11.000

átomos.

Page 15: Introduccion a la Bioinformatica

190x

Page 16: Introduccion a la Bioinformatica
Page 17: Introduccion a la Bioinformatica
Page 18: Introduccion a la Bioinformatica

Tardó 23 años.

Page 19: Introduccion a la Bioinformatica

Wilkins, Perutz, Crick, Steinbeck, Watson, Kendrew

Page 20: Introduccion a la Bioinformatica

El primer Atlas of Protein Sequence and Structure, contenía información de 65 proteinasEl primer Atlas of Protein Sequence and Structure, contenía información de 65 proteinas

Page 21: Introduccion a la Bioinformatica

En 1966 se presenta el código genético. Este código asocia a cada triplete de bases del ADN, llamado codón, un aminoácido concreto.

En 1966 se presenta el código genético. Este código asocia a cada triplete de bases del ADN, llamado codón, un aminoácido concreto.

Page 22: Introduccion a la Bioinformatica

El DOGMA CENTRAL de la biologíaEl DOGMA CENTRAL de la biología

Page 23: Introduccion a la Bioinformatica

En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras

En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras

myoglobin hemoglobin

papain ribonuclease

lactate dehydrogenasecarboxypeptidase A

Page 24: Introduccion a la Bioinformatica

Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".

Page 25: Introduccion a la Bioinformatica

El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977

Page 26: Introduccion a la Bioinformatica

5,386 bases

Page 27: Introduccion a la Bioinformatica

11 genes

Page 28: Introduccion a la Bioinformatica

en

Andre Marion y Sam Eletr de Hewlett Packard crean Applied Biosystems en 1982Andre Marion y Sam Eletr de Hewlett Packard crean Applied Biosystems en 1982

En 1987 comercializan la primera máquina de secuenciación automatizada, el modelo ABI 370.En 1987 comercializan la primera máquina de secuenciación automatizada, el modelo ABI 370.

Page 29: Introduccion a la Bioinformatica

En 1984 el DoE invita a 20 investigadores a Alta, Utah, para discutir los efectos de la radiación en el ADN.En 1984 el DoE invita a 20 investigadores a Alta, Utah, para discutir los efectos de la radiación en el ADN.

Por la noche, entre cerveza y cerveza, alguien comenta, “¿por que no dedican el dinero a algo util, como secuenciar el genoma humano? “

Por la noche, entre cerveza y cerveza, alguien comenta, “¿por que no dedican el dinero a algo util, como secuenciar el genoma humano? “

Page 30: Introduccion a la Bioinformatica

Ejercicio 1: Imagine varias copias de un libro, cortadas en 10 millones de trocitos cada una, de manera que los trocitos se solapan. Supongamos que 1 millón de trocitos se han perdido, y que los otros 9 millones están manchados de tinta.

Recupere el texto original.

Page 31: Introduccion a la Bioinformatica
Page 32: Introduccion a la Bioinformatica

1995.- El primer genoma completo de un organismo vivo, Hemophilus influenzae1995.- El primer genoma completo de un organismo vivo, Hemophilus influenzae

Page 33: Introduccion a la Bioinformatica

1,830,137 bases

Page 34: Introduccion a la Bioinformatica

3,000 genes

Page 35: Introduccion a la Bioinformatica

340x

Page 36: Introduccion a la Bioinformatica

1996.- El genoma de la levadura (eukaryota). 12.000.000 de bases y 6000 genes1996.- El genoma de la levadura (eukaryota). 12.000.000 de bases y 6000 genes

Page 37: Introduccion a la Bioinformatica

1997.- El genoma de la bacteria E. Coli. 4.500.000 de bases y 4600 genes1997.- El genoma de la bacteria E. Coli. 4.500.000 de bases y 4600 genes

Page 38: Introduccion a la Bioinformatica

1998.- El genoma del gusano C. Elegans. 100.000.000 de bases y 18.000 genes1998.- El genoma del gusano C. Elegans. 100.000.000 de bases y 18.000 genes

Page 39: Introduccion a la Bioinformatica

1999.- Se consigue la secuencia completa del cromosoma 22.49,000,000 bp. (sólo 300 genes) (en realidad, 673)

1999.- Se consigue la secuencia completa del cromosoma 22.49,000,000 bp. (sólo 300 genes) (en realidad, 673)

Page 40: Introduccion a la Bioinformatica

2000.- La mosca de la fruta; 170 millones de nucleotidos y 13,000 genes 2000.- La mosca de la fruta; 170 millones de nucleotidos y 13,000 genes

Page 41: Introduccion a la Bioinformatica

2000.- Arabidopsis thaliana. Tiene 100 millones de nucleótidos, y unos 20,000 genes2000.- Arabidopsis thaliana. Tiene 100 millones de nucleótidos, y unos 20,000 genes

Page 42: Introduccion a la Bioinformatica

15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano

Page 43: Introduccion a la Bioinformatica

3,000,830,137 bases

Page 44: Introduccion a la Bioinformatica

600.000x

Page 45: Introduccion a la Bioinformatica

25,000 genes

Page 46: Introduccion a la Bioinformatica

11 años

Page 47: Introduccion a la Bioinformatica

3,000,000,000 $

Page 48: Introduccion a la Bioinformatica
Page 49: Introduccion a la Bioinformatica
Page 50: Introduccion a la Bioinformatica

“What makes you think you can do a better job with life and genetics than God?”

Page 51: Introduccion a la Bioinformatica

We have computers!

Page 52: Introduccion a la Bioinformatica

1953: IBM presenta su primera computadora electrónica comercial, la IBM 701 con una memoria total de una memoria total de 2048 palabras de 36 bits

1953: IBM presenta su primera computadora electrónica comercial, la IBM 701 con una memoria total de una memoria total de 2048 palabras de 36 bits

Page 53: Introduccion a la Bioinformatica

1977: “ No hay necesidad de tener un ordenador en cada casa", Ken Olsen, fundador de Digital Equipment1977: “ No hay necesidad de tener un ordenador en cada casa", Ken Olsen, fundador de Digital Equipment

Page 54: Introduccion a la Bioinformatica

1981: IBM PC A Intel 8088 processor running at 4.77 MHz. Basic in ROM. 16K RAM. MS-DOS 1.01981: IBM PC A Intel 8088 processor running at 4.77 MHz. Basic in ROM. 16K RAM. MS-DOS 1.0

Page 55: Introduccion a la Bioinformatica

"Nadie va a necesitar más de 640 Kb de memoria en su ordenador personal""Nadie va a necesitar más de 640 Kb de memoria en su ordenador personal"

Page 56: Introduccion a la Bioinformatica

En 1981 se crea EMBL Nucleotide Sequence Data Library. Version 2 contenia 811 secuencias, cerca de un millón de bases que fueron introducidas a mano.

En 1981 se crea EMBL Nucleotide Sequence Data Library. Version 2 contenia 811 secuencias, cerca de un millón de bases que fueron introducidas a mano.

Page 57: Introduccion a la Bioinformatica

En 1986 se crea Swissprot , una base de datos de proteinas curada a mano.En 1986 se crea Swissprot , una base de datos de proteinas curada a mano.

Page 58: Introduccion a la Bioinformatica

En 1990, Tim y su grupo desarrollaron el lenguaje HTML (HyperText Markup Language), el protocolo HTTP (HyperText Transfer Protocol); y el URL (Universal Resource Locator).

En 1990, Tim y su grupo desarrollaron el lenguaje HTML (HyperText Markup Language), el protocolo HTTP (HyperText Transfer Protocol); y el URL (Universal Resource Locator).

Page 59: Introduccion a la Bioinformatica

Hello everybody out there using minix -

I'm doing a (free) operating system (just a hobby, won't be big and professional like gnu) for 386(486) AT clones. This has been brewing since april, and is starting to get ready. I'd like any feedback on things people like/dislike in minix, as my OS resembles it somewhat (same physical layout of the file-system (due to practical reasons) among other things).

I've currently ported bash(1.08) and gcc(1.40), and things seem to work. This implies that I'll get something practical within a few months, and I'd like to know what features most people would want. Any suggestions are welcome, but I won't promise I'll implement them :-)

Linus ([email protected])

PS. Yes – it's free of any minix code, and it has a multi-threaded fs. It is NOT portable (uses 386 task switching etc), and it probably never will support anything other than AT-harddisks, as that's all I have :-(.

El 25 de agosto de 1991, apareció este mensaje en el grupo de noticias comp.os.minix de UsenetEl 25 de agosto de 1991, apareció este mensaje en el grupo de noticias comp.os.minix de Usenet

Page 60: Introduccion a la Bioinformatica

En 1992 se crea el Sanger CenterEn 1992 se crea el Sanger Center

Page 61: Introduccion a la Bioinformatica

En 1995 se crea el Instituto Europeo de BioinformáticaEn 1995 se crea el Instituto Europeo de Bioinformática

Page 62: Introduccion a la Bioinformatica

Gestiona y pone a disposición de los investigadores más de 200 bases de datos biológicosGestiona y pone a disposición de los investigadores más de 200 bases de datos biológicos

Page 63: Introduccion a la Bioinformatica
Page 64: Introduccion a la Bioinformatica

La capacidad de almacenamiento se duplica cada 2 añosLa capacidad de almacenamiento se duplica cada 2 años

Ley de Moore: el número de transistores en un chip se duplica cada 18 mesesLey de Moore: el número de transistores en un chip se duplica cada 18 meses

El ancho de banda se duplica cada 18 mesesEl ancho de banda se duplica cada 18 meses

Page 65: Introduccion a la Bioinformatica
Page 66: Introduccion a la Bioinformatica

2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk

2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk

Page 67: Introduccion a la Bioinformatica

62.63 teraflops

Page 69: Introduccion a la Bioinformatica

un gran poder viene acompañado de una gran responsabilidad

disponibili

dad

accesibilidad

estabilidad responsabilidad

Page 70: Introduccion a la Bioinformatica

Contingency clusterbackup engines

+storage8 X ES40 +2 x DS20

SAN attachedTape silos

SANBackup/mirrors

Ensembl cluster8 X ES40, 6 X ES40

Large scaleassembly, sequencing &

trace data19 X ES40, 4 X DS20

Front-endCompute Servers

Desk topdevices

Pathogen15 x ES40

360 ds10 alpha

OracleCluster6xDS202xES40

InformaticsDevelopment

5xES40

PFAM

SAN attachedTape libraries

GS320 32-way128GB mem.

Extranet Web

Cluster2X ES40

0.5Tb disk

InternalRouter

FIREWALL DMZ

The ‘Internet’

Mail-hub, local ftp, secure login, Aceserver, Dial-in hubs

Ensembl web Blast services12 ES40 +6TB storage

CancerProjectX-linkeddisease

4 X ES404Tb disk

High throughput

Farm

768 RLX nodes

GS320 32-way128GB mem.

Humgen8 X ES45 User X at

Institute Y

Page 71: Introduccion a la Bioinformatica
Page 72: Introduccion a la Bioinformatica

Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008) Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008)

Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)

Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)

Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)

Page 73: Introduccion a la Bioinformatica

S.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citationsS.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citations

Page 74: Introduccion a la Bioinformatica

J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680

J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680

Page 75: Introduccion a la Bioinformatica
Page 76: Introduccion a la Bioinformatica

Golub et. al. Science 286:531-537. (1999)

Page 77: Introduccion a la Bioinformatica
Page 78: Introduccion a la Bioinformatica
Page 79: Introduccion a la Bioinformatica
Page 80: Introduccion a la Bioinformatica

Relational data miningRelational

data mining

Text miningText mining

Spectrum data miningSpectrum

data mining

Chemical sequence

data model

Chemical sequence

data model

Visualizingrelational

data clusters

Visualizingrelational

data clusters

Visualizingmultidimensional

data

Visualizingmultidimensional

data

Visualizingsequence data

Visualizingsequence dataVisualizing

pathway dataVisualizing

pathway dataText mining visualizationText mining visualization

Visualizing cluster statistics

Visualizing cluster statistics

Visualizing serial/spectrum

data

Visualizing serial/spectrum

data

Decision tree model of

metabonomic profile

Decision tree model of

metabonomic profile

Chemical structure

visualization

Chemical structure

visualization

Page 81: Introduccion a la Bioinformatica

Data Integration via caIntegrator

Page 82: Introduccion a la Bioinformatica

dataflow workflow

ws ws ws ws ws

curation

submission

Advanced Search

Retrieve data

Submit data

Page 83: Introduccion a la Bioinformatica
Page 84: Introduccion a la Bioinformatica
Page 85: Introduccion a la Bioinformatica

esto no ha hecho más que empezar!!

Page 86: Introduccion a la Bioinformatica

2002: mus musculus2002: mus musculus

Page 87: Introduccion a la Bioinformatica

2003: mus musculus2003: mus musculus

Page 88: Introduccion a la Bioinformatica

2005: mus musculus2005: mus musculus

Page 89: Introduccion a la Bioinformatica

2006: opposum2006: opposum

Page 90: Introduccion a la Bioinformatica

2007: platypus2007: platypus

Page 91: Introduccion a la Bioinformatica

2008: mammoth2008: mammoth

Page 92: Introduccion a la Bioinformatica

2008: homo neardenthalensis2008: homo neardenthalensis

Page 93: Introduccion a la Bioinformatica

2008: Watson personal genome2008: Watson personal genome

Page 94: Introduccion a la Bioinformatica

2 meses

Page 95: Introduccion a la Bioinformatica

2,000,000 $

Page 96: Introduccion a la Bioinformatica

100x1500x

Page 97: Introduccion a la Bioinformatica
Page 98: Introduccion a la Bioinformatica

<2%

Page 99: Introduccion a la Bioinformatica
Page 100: Introduccion a la Bioinformatica

98% ADN basura

Page 101: Introduccion a la Bioinformatica

¿basura?

Page 102: Introduccion a la Bioinformatica

ENCyclopedia Of DNA Elements

Page 103: Introduccion a la Bioinformatica
Page 104: Introduccion a la Bioinformatica

99,9% idénticos

Page 105: Introduccion a la Bioinformatica

VARIACIÓN EN LA SECUENCIA HUMANA DE DNA

Tasa de mutación = 10-8 /sitio/generación

Nº generaciones ancestro común-humano actual: 104-105

Page 106: Introduccion a la Bioinformatica

10.000.000 SNPs

Page 107: Introduccion a la Bioinformatica
Page 108: Introduccion a la Bioinformatica
Page 109: Introduccion a la Bioinformatica

$10-million award for the first privately funded team

that can sequence 100 human genomes in 10 days

for less than 10.000$

Page 110: Introduccion a la Bioinformatica
Page 111: Introduccion a la Bioinformatica

Applied Biosystems ABI 3730XL1 Mb / day

Illumina / Solexa Genetic Analyzer2000 Mb / run

Applied BiosystemsSOLiD3000 Mb / run

Roche / 454 Genome Sequencer FLX100 Mb / run

Page 112: Introduccion a la Bioinformatica

3000x

Page 113: Introduccion a la Bioinformatica
Page 114: Introduccion a la Bioinformatica

10X dual core Linux cluster con 15 terabytes de disco

Page 115: Introduccion a la Bioinformatica

60.000$

Page 116: Introduccion a la Bioinformatica

50.000x

Page 117: Introduccion a la Bioinformatica

2 semanas

Page 118: Introduccion a la Bioinformatica

800x

Page 119: Introduccion a la Bioinformatica

1/10000 bits image/bits secuence

Page 120: Introduccion a la Bioinformatica

10.000x

Page 121: Introduccion a la Bioinformatica

At $150,000, the Polonator is the cheapest instrument on the market, says Harvard University's George Church, whose lab developed the technology in conjunction with Dover Systems, Plus, the tool uses five-fold less reagents than other platforms, and is the smallest instrument available.

http://www.polonator.org/

Page 122: Introduccion a la Bioinformatica
Page 123: Introduccion a la Bioinformatica

La información científica disponible en 2010 se duplicará cada 72 horas

Page 124: Introduccion a la Bioinformatica

hay que empezar ya

es decir,

vamos

con

retraso

Page 125: Introduccion a la Bioinformatica

what is the impossible thing we are going to

do today?

Page 126: Introduccion a la Bioinformatica

El mayor peligro no es que nuestro objetivo sea demasiado ambicioso y no lo consigamos, sino que sea demasiado humilde y lo alcancemos.

Michelangelo

Page 127: Introduccion a la Bioinformatica

muchas gracias

Page 128: Introduccion a la Bioinformatica

scientifik.info