introduccion a la bioinformatica

descifrando el código de la vida

computación de altas prestaciones en biología

Alberto Labarga17 de Diciembre de 2008, Univ. De

Granada

alberto

leyre

Julia

Informati

on architect

La vida puede verse como un proceso de almacenamiento y transmisión de información biológica. La vida puede verse como un proceso de almacenamiento y transmisión de información biológica.

El ADN es la molécula portadora de esta información. El ADN es la molécula portadora de esta información.

Para entender la vida debemos identificar estas moléculas y descifrar el códigoPara entender la vida debemos identificar estas moléculas y descifrar el código

“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”

“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”

“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”

“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”

En 1955 Ochoa publica en Journal of the American Chemical Society el descubrimiento de la polinucleótido-fosforilasa

En 1955 Ochoa publica en Journal of the American Chemical Society el descubrimiento de la polinucleótido-fosforilasa

En 1959 recibe el premio Nobel junto a su discípulo Arthur Kornberg.En 1959 recibe el premio Nobel junto a su discípulo Arthur Kornberg.

Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.

Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.

Este resultado le valió su primer Premio Nobel de química en 1958Este resultado le valió su primer Premio Nobel de química en 1958

Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.

Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.

El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre.

El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre.

La hemoglobina tiene 11.000

átomos.

Tardó 23 años.

Wilkins, Perutz, Crick, Steinbeck, Watson, Kendrew

El primer Atlas of Protein Sequence and Structure, contenía información de 65 proteinasEl primer Atlas of Protein Sequence and Structure, contenía información de 65 proteinas

En 1966 se presenta el código genético. Este código asocia a cada triplete de bases del ADN, llamado codón, un aminoácido concreto.

En 1966 se presenta el código genético. Este código asocia a cada triplete de bases del ADN, llamado codón, un aminoácido concreto.

El DOGMA CENTRAL de la biologíaEl DOGMA CENTRAL de la biología

En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras

En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras

myoglobin hemoglobin

papain ribonuclease

lactate dehydrogenasecarboxypeptidase A

Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".

El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977

5,386 bases

11 genes

en

Andre Marion y Sam Eletr de Hewlett Packard crean Applied Biosystems en 1982Andre Marion y Sam Eletr de Hewlett Packard crean Applied Biosystems en 1982

En 1987 comercializan la primera máquina de secuenciación automatizada, el modelo ABI 370.En 1987 comercializan la primera máquina de secuenciación automatizada, el modelo ABI 370.

En 1984 el DoE invita a 20 investigadores a Alta, Utah, para discutir los efectos de la radiación en el ADN.En 1984 el DoE invita a 20 investigadores a Alta, Utah, para discutir los efectos de la radiación en el ADN.

Por la noche, entre cerveza y cerveza, alguien comenta, “¿por que no dedican el dinero a algo util, como secuenciar el genoma humano? “

Por la noche, entre cerveza y cerveza, alguien comenta, “¿por que no dedican el dinero a algo util, como secuenciar el genoma humano? “

Ejercicio 1: Imagine varias copias de un libro, cortadas en 10 millones de trocitos cada una, de manera que los trocitos se solapan. Supongamos que 1 millón de trocitos se han perdido, y que los otros 9 millones están manchados de tinta.

Recupere el texto original.

1995.- El primer genoma completo de un organismo vivo, Hemophilus influenzae1995.- El primer genoma completo de un organismo vivo, Hemophilus influenzae

1,830,137 bases

3,000 genes

1996.- El genoma de la levadura (eukaryota). 12.000.000 de bases y 6000 genes1996.- El genoma de la levadura (eukaryota). 12.000.000 de bases y 6000 genes

1997.- El genoma de la bacteria E. Coli. 4.500.000 de bases y 4600 genes1997.- El genoma de la bacteria E. Coli. 4.500.000 de bases y 4600 genes

1998.- El genoma del gusano C. Elegans. 100.000.000 de bases y 18.000 genes1998.- El genoma del gusano C. Elegans. 100.000.000 de bases y 18.000 genes

1999.- Se consigue la secuencia completa del cromosoma 22.49,000,000 bp. (sólo 300 genes) (en realidad, 673)

1999.- Se consigue la secuencia completa del cromosoma 22.49,000,000 bp. (sólo 300 genes) (en realidad, 673)

2000.- La mosca de la fruta; 170 millones de nucleotidos y 13,000 genes 2000.- La mosca de la fruta; 170 millones de nucleotidos y 13,000 genes

2000.- Arabidopsis thaliana. Tiene 100 millones de nucleótidos, y unos 20,000 genes2000.- Arabidopsis thaliana. Tiene 100 millones de nucleótidos, y unos 20,000 genes

15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano

3,000,830,137 bases

600.000x

25,000 genes

11 años

3,000,000,000 $

“What makes you think you can do a better job with life and genetics than God?”

We have computers!

1953: IBM presenta su primera computadora electrónica comercial, la IBM 701 con una memoria total de una memoria total de 2048 palabras de 36 bits

1953: IBM presenta su primera computadora electrónica comercial, la IBM 701 con una memoria total de una memoria total de 2048 palabras de 36 bits

1977: “ No hay necesidad de tener un ordenador en cada casa", Ken Olsen, fundador de Digital Equipment1977: “ No hay necesidad de tener un ordenador en cada casa", Ken Olsen, fundador de Digital Equipment

1981: IBM PC A Intel 8088 processor running at 4.77 MHz. Basic in ROM. 16K RAM. MS-DOS 1.01981: IBM PC A Intel 8088 processor running at 4.77 MHz. Basic in ROM. 16K RAM. MS-DOS 1.0

"Nadie va a necesitar más de 640 Kb de memoria en su ordenador personal""Nadie va a necesitar más de 640 Kb de memoria en su ordenador personal"

En 1981 se crea EMBL Nucleotide Sequence Data Library. Version 2 contenia 811 secuencias, cerca de un millón de bases que fueron introducidas a mano.

En 1981 se crea EMBL Nucleotide Sequence Data Library. Version 2 contenia 811 secuencias, cerca de un millón de bases que fueron introducidas a mano.

En 1986 se crea Swissprot , una base de datos de proteinas curada a mano.En 1986 se crea Swissprot , una base de datos de proteinas curada a mano.

En 1990, Tim y su grupo desarrollaron el lenguaje HTML (HyperText Markup Language), el protocolo HTTP (HyperText Transfer Protocol); y el URL (Universal Resource Locator).

En 1990, Tim y su grupo desarrollaron el lenguaje HTML (HyperText Markup Language), el protocolo HTTP (HyperText Transfer Protocol); y el URL (Universal Resource Locator).

Hello everybody out there using minix -

I'm doing a (free) operating system (just a hobby, won't be big and professional like gnu) for 386(486) AT clones. This has been brewing since april, and is starting to get ready. I'd like any feedback on things people like/dislike in minix, as my OS resembles it somewhat (same physical layout of the file-system (due to practical reasons) among other things).

I've currently ported bash(1.08) and gcc(1.40), and things seem to work. This implies that I'll get something practical within a few months, and I'd like to know what features most people would want. Any suggestions are welcome, but I won't promise I'll implement them :-)

Linus ([email protected])

PS. Yes – it's free of any minix code, and it has a multi-threaded fs. It is NOT portable (uses 386 task switching etc), and it probably never will support anything other than AT-harddisks, as that's all I have :-(.

El 25 de agosto de 1991, apareció este mensaje en el grupo de noticias comp.os.minix de UsenetEl 25 de agosto de 1991, apareció este mensaje en el grupo de noticias comp.os.minix de Usenet

http://en.wikipedia.org/wiki/Bash

http://en.wikipedia.org/wiki/GNU_Compiler_Collection

mailto:[email protected]

En 1992 se crea el Sanger CenterEn 1992 se crea el Sanger Center

En 1995 se crea el Instituto Europeo de BioinformáticaEn 1995 se crea el Instituto Europeo de Bioinformática

Gestiona y pone a disposición de los investigadores más de 200 bases de datos biológicosGestiona y pone a disposición de los investigadores más de 200 bases de datos biológicos

La capacidad de almacenamiento se duplica cada 2 añosLa capacidad de almacenamiento se duplica cada 2 años

Ley de Moore: el número de transistores en un chip se duplica cada 18 mesesLey de Moore: el número de transistores en un chip se duplica cada 18 meses

El ancho de banda se duplica cada 18 mesesEl ancho de banda se duplica cada 18 meses

2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk

2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk

62.63 teraflops

http://www.nbirn.net/

un gran poder viene acompañado de una gran responsabilidad

disponibili

dad

accesibilidad

estabilidad responsabilidad

Contingency clusterbackup engines

+storage8 X ES40 +2 x DS20

SAN attachedTape silos

SANBackup/mirrors

Ensembl cluster8 X ES40, 6 X ES40

Large scaleassembly, sequencing &

trace data19 X ES40, 4 X DS20

Front-endCompute Servers

Desk topdevices

Pathogen15 x ES40

360 ds10 alpha

OracleCluster6xDS202xES40

InformaticsDevelopment

5xES40

PFAM

SAN attachedTape libraries

GS320 32-way128GB mem.

Extranet Web

Cluster2X ES40

0.5Tb disk

InternalRouter

FIREWALL DMZ

The ‘Internet’

Mail-hub, local ftp, secure login, Aceserver, Dial-in hubs

Ensembl web Blast services12 ES40 +6TB storage

CancerProjectX-linkeddisease

4 X ES404Tb disk

High throughput

Farm

768 RLX nodes

GS320 32-way128GB mem.

Humgen8 X ES45 User X at

Institute Y

Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008) Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008)

Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)

Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)

Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)

S.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citationsS.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citations

J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680

J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680

Golub et. al. Science 286:531-537. (1999)

Relational data miningRelational

data mining

Text miningText mining

Spectrum data miningSpectrum

data mining

Chemical sequence

data model

Chemical sequence

data model

Visualizingrelational

data clusters

Visualizingrelational

data clusters

Visualizingmultidimensional

data

Visualizingmultidimensional

data

Visualizingsequence data

Visualizingsequence dataVisualizing

pathway dataVisualizing

pathway dataText mining visualizationText mining visualization

Visualizing cluster statistics

Visualizing cluster statistics

Visualizing serial/spectrum

data

Visualizing serial/spectrum

data

Decision tree model of

metabonomic profile

Decision tree model of

metabonomic profile

Chemical structure

visualization

Chemical structure

visualization

Data Integration via caIntegrator

dataflow workflow

ws ws ws ws ws

curation

submission

Advanced Search

Retrieve data

Submit data

http://www.ebi.ac.uk/fasta/lgicp.html

http://www.ebi.ac.uk/blast2/asd.html

http://www.ebi.ac.uk/clustalw/

esto no ha hecho más que empezar!!

2002: mus musculus2002: mus musculus

2006: opposum2006: opposum

2007: platypus2007: platypus

2008: mammoth2008: mammoth

2008: homo neardenthalensis2008: homo neardenthalensis

2008: Watson personal genome2008: Watson personal genome

2 meses

2,000,000 $

100x1500x

98% ADN basura

¿basura?

ENCyclopedia Of DNA Elements

99,9% idénticos

VARIACIÓN EN LA SECUENCIA HUMANA DE DNA

Tasa de mutación = 10-8 /sitio/generación

Nº generaciones ancestro común-humano actual: 104-105

10.000.000 SNPs

$10-million award for the first privately funded team

that can sequence 100 human genomes in 10 days

for less than 10.000$

Applied Biosystems ABI 3730XL1 Mb / day

Illumina / Solexa Genetic Analyzer2000 Mb / run

Applied BiosystemsSOLiD3000 Mb / run

Roche / 454 Genome Sequencer FLX100 Mb / run

10X dual core Linux cluster con 15 terabytes de disco

60.000$

50.000x

2 semanas

1/10000 bits image/bits secuence

10.000x

At $150,000, the Polonator is the cheapest instrument on the market, says Harvard University's George Church, whose lab developed the technology in conjunction with Dover Systems, Plus, the tool uses five-fold less reagents than other platforms, and is the smallest instrument available.

http://www.polonator.org/

La información científica disponible en 2010 se duplicará cada 72 horas

hay que empezar ya

es decir,

vamos

con

retraso

what is the impossible thing we are going to

do today?

El mayor peligro no es que nuestro objetivo sea demasiado ambicioso y no lo consigamos, sino que sea demasiado humilde y lo alcancemos.

Michelangelo

muchas gracias

scientifik.info

introduccion a la bioinformatica

Technology