Download - Introduccion a la Bioinformatica
descifrando el código de la vida
computación de altas prestaciones en biología
Alberto Labarga17 de Diciembre de 2008, Univ. De
Granada
alberto
leyre
Julia
Informati
on architect
La vida puede verse como un proceso de almacenamiento y transmisión de información biológica. La vida puede verse como un proceso de almacenamiento y transmisión de información biológica.
El ADN es la molécula portadora de esta información. El ADN es la molécula portadora de esta información.
Para entender la vida debemos identificar estas moléculas y descifrar el códigoPara entender la vida debemos identificar estas moléculas y descifrar el código
“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”
“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”
“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”
“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”
En 1955 Ochoa publica en Journal of the American Chemical Society el descubrimiento de la polinucleótido-fosforilasa
En 1955 Ochoa publica en Journal of the American Chemical Society el descubrimiento de la polinucleótido-fosforilasa
En 1959 recibe el premio Nobel junto a su discípulo Arthur Kornberg.En 1959 recibe el premio Nobel junto a su discípulo Arthur Kornberg.
Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.
Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.
Este resultado le valió su primer Premio Nobel de química en 1958Este resultado le valió su primer Premio Nobel de química en 1958
Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.
Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.
El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre.
El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre.
La hemoglobina tiene 11.000
átomos.
190x
Tardó 23 años.
Wilkins, Perutz, Crick, Steinbeck, Watson, Kendrew
El primer Atlas of Protein Sequence and Structure, contenía información de 65 proteinasEl primer Atlas of Protein Sequence and Structure, contenía información de 65 proteinas
En 1966 se presenta el código genético. Este código asocia a cada triplete de bases del ADN, llamado codón, un aminoácido concreto.
En 1966 se presenta el código genético. Este código asocia a cada triplete de bases del ADN, llamado codón, un aminoácido concreto.
El DOGMA CENTRAL de la biologíaEl DOGMA CENTRAL de la biología
En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras
En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras
myoglobin hemoglobin
papain ribonuclease
lactate dehydrogenasecarboxypeptidase A
Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".
El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977
5,386 bases
11 genes
en
Andre Marion y Sam Eletr de Hewlett Packard crean Applied Biosystems en 1982Andre Marion y Sam Eletr de Hewlett Packard crean Applied Biosystems en 1982
En 1987 comercializan la primera máquina de secuenciación automatizada, el modelo ABI 370.En 1987 comercializan la primera máquina de secuenciación automatizada, el modelo ABI 370.
En 1984 el DoE invita a 20 investigadores a Alta, Utah, para discutir los efectos de la radiación en el ADN.En 1984 el DoE invita a 20 investigadores a Alta, Utah, para discutir los efectos de la radiación en el ADN.
Por la noche, entre cerveza y cerveza, alguien comenta, “¿por que no dedican el dinero a algo util, como secuenciar el genoma humano? “
Por la noche, entre cerveza y cerveza, alguien comenta, “¿por que no dedican el dinero a algo util, como secuenciar el genoma humano? “
Ejercicio 1: Imagine varias copias de un libro, cortadas en 10 millones de trocitos cada una, de manera que los trocitos se solapan. Supongamos que 1 millón de trocitos se han perdido, y que los otros 9 millones están manchados de tinta.
Recupere el texto original.
1995.- El primer genoma completo de un organismo vivo, Hemophilus influenzae1995.- El primer genoma completo de un organismo vivo, Hemophilus influenzae
1,830,137 bases
3,000 genes
340x
1996.- El genoma de la levadura (eukaryota). 12.000.000 de bases y 6000 genes1996.- El genoma de la levadura (eukaryota). 12.000.000 de bases y 6000 genes
1997.- El genoma de la bacteria E. Coli. 4.500.000 de bases y 4600 genes1997.- El genoma de la bacteria E. Coli. 4.500.000 de bases y 4600 genes
1998.- El genoma del gusano C. Elegans. 100.000.000 de bases y 18.000 genes1998.- El genoma del gusano C. Elegans. 100.000.000 de bases y 18.000 genes
1999.- Se consigue la secuencia completa del cromosoma 22.49,000,000 bp. (sólo 300 genes) (en realidad, 673)
1999.- Se consigue la secuencia completa del cromosoma 22.49,000,000 bp. (sólo 300 genes) (en realidad, 673)
2000.- La mosca de la fruta; 170 millones de nucleotidos y 13,000 genes 2000.- La mosca de la fruta; 170 millones de nucleotidos y 13,000 genes
2000.- Arabidopsis thaliana. Tiene 100 millones de nucleótidos, y unos 20,000 genes2000.- Arabidopsis thaliana. Tiene 100 millones de nucleótidos, y unos 20,000 genes
15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano
3,000,830,137 bases
600.000x
25,000 genes
11 años
3,000,000,000 $
“What makes you think you can do a better job with life and genetics than God?”
We have computers!
1953: IBM presenta su primera computadora electrónica comercial, la IBM 701 con una memoria total de una memoria total de 2048 palabras de 36 bits
1953: IBM presenta su primera computadora electrónica comercial, la IBM 701 con una memoria total de una memoria total de 2048 palabras de 36 bits
1977: “ No hay necesidad de tener un ordenador en cada casa", Ken Olsen, fundador de Digital Equipment1977: “ No hay necesidad de tener un ordenador en cada casa", Ken Olsen, fundador de Digital Equipment
1981: IBM PC A Intel 8088 processor running at 4.77 MHz. Basic in ROM. 16K RAM. MS-DOS 1.01981: IBM PC A Intel 8088 processor running at 4.77 MHz. Basic in ROM. 16K RAM. MS-DOS 1.0
"Nadie va a necesitar más de 640 Kb de memoria en su ordenador personal""Nadie va a necesitar más de 640 Kb de memoria en su ordenador personal"
En 1981 se crea EMBL Nucleotide Sequence Data Library. Version 2 contenia 811 secuencias, cerca de un millón de bases que fueron introducidas a mano.
En 1981 se crea EMBL Nucleotide Sequence Data Library. Version 2 contenia 811 secuencias, cerca de un millón de bases que fueron introducidas a mano.
En 1986 se crea Swissprot , una base de datos de proteinas curada a mano.En 1986 se crea Swissprot , una base de datos de proteinas curada a mano.
En 1990, Tim y su grupo desarrollaron el lenguaje HTML (HyperText Markup Language), el protocolo HTTP (HyperText Transfer Protocol); y el URL (Universal Resource Locator).
En 1990, Tim y su grupo desarrollaron el lenguaje HTML (HyperText Markup Language), el protocolo HTTP (HyperText Transfer Protocol); y el URL (Universal Resource Locator).
Hello everybody out there using minix -
I'm doing a (free) operating system (just a hobby, won't be big and professional like gnu) for 386(486) AT clones. This has been brewing since april, and is starting to get ready. I'd like any feedback on things people like/dislike in minix, as my OS resembles it somewhat (same physical layout of the file-system (due to practical reasons) among other things).
I've currently ported bash(1.08) and gcc(1.40), and things seem to work. This implies that I'll get something practical within a few months, and I'd like to know what features most people would want. Any suggestions are welcome, but I won't promise I'll implement them :-)
Linus ([email protected])
PS. Yes – it's free of any minix code, and it has a multi-threaded fs. It is NOT portable (uses 386 task switching etc), and it probably never will support anything other than AT-harddisks, as that's all I have :-(.
El 25 de agosto de 1991, apareció este mensaje en el grupo de noticias comp.os.minix de UsenetEl 25 de agosto de 1991, apareció este mensaje en el grupo de noticias comp.os.minix de Usenet
En 1992 se crea el Sanger CenterEn 1992 se crea el Sanger Center
En 1995 se crea el Instituto Europeo de BioinformáticaEn 1995 se crea el Instituto Europeo de Bioinformática
Gestiona y pone a disposición de los investigadores más de 200 bases de datos biológicosGestiona y pone a disposición de los investigadores más de 200 bases de datos biológicos
La capacidad de almacenamiento se duplica cada 2 añosLa capacidad de almacenamiento se duplica cada 2 años
Ley de Moore: el número de transistores en un chip se duplica cada 18 mesesLey de Moore: el número de transistores en un chip se duplica cada 18 meses
El ancho de banda se duplica cada 18 mesesEl ancho de banda se duplica cada 18 meses
2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk
2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk
62.63 teraflops
un gran poder viene acompañado de una gran responsabilidad
disponibili
dad
accesibilidad
estabilidad responsabilidad
Contingency clusterbackup engines
+storage8 X ES40 +2 x DS20
SAN attachedTape silos
SANBackup/mirrors
Ensembl cluster8 X ES40, 6 X ES40
Large scaleassembly, sequencing &
trace data19 X ES40, 4 X DS20
Front-endCompute Servers
Desk topdevices
Pathogen15 x ES40
360 ds10 alpha
OracleCluster6xDS202xES40
InformaticsDevelopment
5xES40
PFAM
SAN attachedTape libraries
GS320 32-way128GB mem.
Extranet Web
Cluster2X ES40
0.5Tb disk
InternalRouter
FIREWALL DMZ
The ‘Internet’
Mail-hub, local ftp, secure login, Aceserver, Dial-in hubs
Ensembl web Blast services12 ES40 +6TB storage
CancerProjectX-linkeddisease
4 X ES404Tb disk
High throughput
Farm
768 RLX nodes
GS320 32-way128GB mem.
Humgen8 X ES45 User X at
Institute Y
Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008) Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008)
Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)
Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)
Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)
S.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citationsS.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citations
J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680
J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680
Golub et. al. Science 286:531-537. (1999)
Relational data miningRelational
data mining
Text miningText mining
Spectrum data miningSpectrum
data mining
Chemical sequence
data model
Chemical sequence
data model
Visualizingrelational
data clusters
Visualizingrelational
data clusters
Visualizingmultidimensional
data
Visualizingmultidimensional
data
Visualizingsequence data
Visualizingsequence dataVisualizing
pathway dataVisualizing
pathway dataText mining visualizationText mining visualization
Visualizing cluster statistics
Visualizing cluster statistics
Visualizing serial/spectrum
data
Visualizing serial/spectrum
data
Decision tree model of
metabonomic profile
Decision tree model of
metabonomic profile
Chemical structure
visualization
Chemical structure
visualization
Data Integration via caIntegrator
dataflow workflow
ws ws ws ws ws
curation
submission
Advanced Search
Retrieve data
Submit data
esto no ha hecho más que empezar!!
2002: mus musculus2002: mus musculus
2003: mus musculus2003: mus musculus
2005: mus musculus2005: mus musculus
2006: opposum2006: opposum
2007: platypus2007: platypus
2008: mammoth2008: mammoth
2008: homo neardenthalensis2008: homo neardenthalensis
2008: Watson personal genome2008: Watson personal genome
2 meses
2,000,000 $
100x1500x
<2%
98% ADN basura
¿basura?
ENCyclopedia Of DNA Elements
99,9% idénticos
VARIACIÓN EN LA SECUENCIA HUMANA DE DNA
Tasa de mutación = 10-8 /sitio/generación
Nº generaciones ancestro común-humano actual: 104-105
10.000.000 SNPs
$10-million award for the first privately funded team
that can sequence 100 human genomes in 10 days
for less than 10.000$
Applied Biosystems ABI 3730XL1 Mb / day
Illumina / Solexa Genetic Analyzer2000 Mb / run
Applied BiosystemsSOLiD3000 Mb / run
Roche / 454 Genome Sequencer FLX100 Mb / run
3000x
10X dual core Linux cluster con 15 terabytes de disco
60.000$
50.000x
2 semanas
800x
1/10000 bits image/bits secuence
10.000x
At $150,000, the Polonator is the cheapest instrument on the market, says Harvard University's George Church, whose lab developed the technology in conjunction with Dover Systems, Plus, the tool uses five-fold less reagents than other platforms, and is the smallest instrument available.
http://www.polonator.org/
La información científica disponible en 2010 se duplicará cada 72 horas
hay que empezar ya
es decir,
vamos
con
retraso
what is the impossible thing we are going to
do today?
El mayor peligro no es que nuestro objetivo sea demasiado ambicioso y no lo consigamos, sino que sea demasiado humilde y lo alcancemos.
Michelangelo
muchas gracias
scientifik.info