bases de datos biológicas - cinvestavertello/bioinfo/sesion04.pdfbases de datos biológicas...

50
Bases de datos biológicas Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 28 de mayo del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 1 / 50

Upload: others

Post on 01-Apr-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas

Dr. Eduardo A. RODRÍGUEZ TELLO

CINVESTAV-Tamaulipas

28 de mayo del 2013

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 1 / 50

Page 2: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 2 / 50

Page 3: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Introducción

1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 3 / 50

Page 4: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Introducción

Introducción

Recordemos que en computación una Base de Datos (BD) es unconjunto de datos pertenecientes a un mismo contexto yalmacenados sistemáticamente para su posterior utilización

El objetivo principal del desarrollo de una BD es organizar losdatos en un conjunto de registros estructurados que permitanrecuperar fácilmente la información

Cada registro está compuesto por un número determinado decampos que contienen datos específicos, por ejemplo: nombres,números de teléfono, etc.

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 4 / 50

Page 5: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Introducción

Introducción

Para recuperar un registro particular de la base de datos, unusuario puede especificar una pieza de información, llamadavalor, que será encontrada en un campo en especial. Lacomputadora entonces recuperará el registro completo

Este proceso es llamado consulta

Aun cuando la recuperación de información es el principal objetivode todas las BD, las BD biológicas a menudo tienen unrequerimiento de más alto nivel, conocido como descubrimientode conocimiento

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 5 / 50

Page 6: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Introducción

Introducción

Este se refiere a la identificación de conexiones entre piezas deinformación que no eran conocidas cuando la información fueintroducida por primera vez

Por ejemplo, en las BD que contienen información cruda (sinprocesar) de secuencias de ADN se pueden realizar tareas extraspara identificar homología de secuencias o motivos conservados

Con lo cual se prodría facilitar el descubrimiento de nuevosconocimientos biológicos a partir de datos crudos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 6 / 50

Page 7: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Tipos de bases de datos

1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 7 / 50

Page 8: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Tipos de bases de datos

Tipos de bases de datos

Originalmente, todas las bases de datos utilizaban un formato dearchivo plano, que es un largo archivo de texto que contienemuchas entradas separadas por un delimitador, un carácterespecial como por ejemplo una barra vertical (|)

Dentro de cada entrada hay una serie de campos separados portabuladores o comas

Además de los valores crudos en cada campo, el archivo de textono contiene instrucciones ocultas para las computadoras parabuscar información específica o para la creación de informesbasados en determinados campos de cada registro

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 8 / 50

Page 9: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Tipos de bases de datos

Tipos de bases de datos

BD en un archivo plano

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 9 / 50

Page 10: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Tipos de bases de datos

Tipos de bases de datos

El archivo de texto puede ser considerado como una tabla única

Por lo tanto, para buscar en un archivo plano una determinadapieza de información, la computadora tiene que leer todo elcontenido del archivo, obviamente, se trata de un procesodemasiado ineficiente

Esto es manejable para una pequeña BD, pero a medida queaumenta el tamaño de ésta o los tipos de datos se vuelven máscomplejos, este estilo de BD puede ser muy complicado para larecuperación de información

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 10 / 50

Page 11: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Tipos de bases de datos

Tipos de bases de datos

De hecho, las búsquedas a través de estos archivos suelencausar fallos de todo el sistema debido al uso intensivo dememoria que requiere la operación

Para facilitar el acceso y recuperación de datos, sofisticadosprogramas de software se han desarrollado

Estos programas reciben el nombre de sistemas de gestión debases de datos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 11 / 50

Page 12: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Tipos de bases de datos

Tipos de bases de datos

Estos sistemas no sólo contienen los registros de datos crudos,sino también instrucciones operacionales (estructuras de datos)para ayudar a identificar las conexiones ocultas entre los registrosde datos

El propósito de establecer una estructura de datos es para facilitarla ejecución de las consultas y para combinar diferentes registroscon el fin de formar informes de consultas

Dependiendo de los tipos de estructuras de datos, estos sistemasde gestión de bases de datos se pueden clasificar en diferentestipos: jerárquicos, de red, relacionales, orientados a objetos, etc...

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 12 / 50

Page 13: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Tipos de bases de datos

Tipos de bases de datos

BD jerárquica

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 13 / 50

Page 14: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Tipos de bases de datos

Tipos de bases de datos

BD de red

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 14 / 50

Page 15: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Tipos de bases de datos

Tipos de bases de datos

BD relacional

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 15 / 50

Page 16: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Tipos de bases de datos

Tipos de bases de datos

BD orientada a objetos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 16 / 50

Page 17: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 17 / 50

Page 18: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos biológicas

En la actualidad los tres principales tipos de sistemas de gestiónde bases de datos utilizados para almacenar datos biológicosson:

1 Archivos planos2 BD relacionales3 BD orientadas a objetos

A pesar de las evidentes desventajas de la utilización de archivosplanos en la gestión de los datos, muchas BD biológicas siguenutilizando este formato

La justificación de esto es que este sistema no requiere tenerconocimientos avanzados sobre diseño de BD, además de quelos resultados de una búsqueda pueden ser fácilmentecomprendidos por los biólogos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 18 / 50

Page 19: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos biológicas

Basado en su contenido, las BD biológicas pueden clasificarse entres categorías:

1 BD primarias2 BD secundarias3 BD especializadas

Las BD primarias contienen datos biológicos originales

Son repositorios de secuencias crudas o datos estructuralessometidos por la comunidad científica

Tanto GenBank como PDB (Protein Data Bank) son ejemplos deBD primarias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 19 / 50

Page 20: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos biológicas

Las BD secundarias contienen información procesadacomputacional o manualmente por un experto, a partir deinformación original de las bases de datos primarias

Las BD de secuencias traducidas de proteínas que contienenanotaciones funcionales pertenecen a esta categoría

Algunos ejemplos son: SWISS-Prot y PIR (Protein InformationResources) que es sucesor del Atlas of Protein Sequence andStructure

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 20 / 50

Page 21: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos biológicas

Las BD especializadas son aquellas dedicadas un interés deinvestigación particular

Por ejemplo, Flybase, HIV sequence database, y RibosomalDatabase Project son BD que se especializan en un determinadoorganismo o en un tipo particular de datos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 21 / 50

Page 22: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas

Page 23: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicas

Bases de datos primariasBases de datos secundariasBases de datos especializadasInterconexión entre bases de datos biológicas

Desventajas de las bases de datos biológicasRecuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 23 / 50

Page 24: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos primarias

Hay tres grandes BD públicas de secuencias que almacenandatos crudos de secuencias de ácido nucleico, producidos ysometidos por investigadores de todo el mundo: GenBank, EMBL(European Molecular Biology Laboratory) y DDBJ (DNA DataBank of Japan).

Todas son accesibles de manera gratuita a través de Internet

La mayoría de los datos en estas BD son aportados directamentepor los autores con un nivel mínimo de anotación

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 24 / 50

Page 25: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos primarias

Actualmente, el someter las secuencias, ya sea a GenBank,EMBL, o DDBJ es una precondición para su publicación en lamayoría de las revistas científicas

Esto es para garantizar que los datos moleculares fundamentalesestén disponibles gratuitamente

Estas tres bases de datos públicas colaboran estrechamente eintercambian los datos nuevos cada día

Juntas constituyen el INSDC (International Nucleotide SequenceDatabase Collaboration)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 25 / 50

Page 26: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos primarias

Esto significa que mediante la conexión a cualquiera de las tresBD, se pude tener acceso a los mismos datos de la secuencia denucleótidos

Aunque las tres BD contienen el mismo conjuntos de datosprimarios, cada una de ellas tiene tipo un formato ligeramentediferente para representar esos datos

Afortunadamente, para la estructura tridimensional demacromoléculas biológicas, sólo hay una BD centralizada, el PDB(Protein Data Bank)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 26 / 50

Page 27: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos primarias

Esta BD contiene coordenadas atómicas de macromoléculas(proteínas y ácidos nucleicos), determinadas por cristalografía derayos X y resonancia magnética nuclear (RMN)

Utiliza un formato de archivo plano para representar el nombre deproteína, los autores, detalles experimentales, la estructurasecundaria, cofactores, y las coordenadas atómicas

La interfaz Web de PDB también proporciona herramientas devisualización sencillas para la manipulación de la imagen

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 27 / 50

Page 28: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicas

Bases de datos primariasBases de datos secundariasBases de datos especializadasInterconexión entre bases de datos biológicas

Desventajas de las bases de datos biológicasRecuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 28 / 50

Page 29: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos secundarias

Las anotaciones adicionales a las secuencias en una BD primariason a menudo mínimas

Por su parte las BD secundarias, contienen información desecuencias procesadas computacionalmente derivada de las BDprimarias

Un ejemplo importante de una BD secundaria es SWISS-PROT,la cual provee anotaciones detalladas de las secuencias queincluyen: estructura, función y familia de proteínas a la quepertenecen

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 29 / 50

Page 30: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos secundarias

Los datos de secuencias son principalmente derivados deTrEMBL, una BD de secuencias traducidas de ácido nucleicoalmacenadas en la BD EMBL

Las anotaciones a cada entrada es cuidadosamente supervisadapor expertos y por lo tanto son de calidad

Las anotaciones en las proteínas incluyen: función, estructura dedominios, sitios catalíticos, cofactor vinculante, modificaciónposttraducción, información de vía metabólica, asociación conenfermedades, y similitud con otras secuencias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 30 / 50

Page 31: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos secundarias

La mayoría de esta información es obtenida de la literaturacientífica e introducida por expertos encargados de la BD

Las anotaciones proporcionan un valor agregado significativo acada registro de una secuencia original

El registro de datos también proporciona enlaces de referenciascruzadas a otros recursos en línea de interés

Otras características tales como la muy baja redundancia y el altonivel de integración con otras BD primarias y secundarias hacenque SWISS-PROT sea muy popular entre los biólogos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 31 / 50

Page 32: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos secundarias

Recientemente se ha hecho un esfuerzo por combinarSWISS-PROT, TrEMBL, y PIR para crear la BD UniProt, la cualtiene una mayor cobertura que cualquiera de las 3 BD

Al mismo tiempo mantiene las características originales deSWISS-PROT en cuanto a una baja redundancia, referenciascruzadas, y una alta calidad de las anotaciones

También existen BD secundarias que se relacionan con laclasificación de familias de proteínas de acuerdo a su función oestructura

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 32 / 50

Page 33: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos secundarias

Las BD Pfam y Blocks contienen información de alineamiento desecuencias de proteínas así como también de motivos derivadosy patrones, la cual puede ser usada para clasificar familias deproteínas e inferir sus funciones

DALI es una BD secundaria de estructuras de proteínas que esvital para la clasificación de estructuras de proteínas y análisis deéstas para identificar relaciones evolucionarías entre proteínas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 33 / 50

Page 34: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicas

Bases de datos primariasBases de datos secundariasBases de datos especializadasInterconexión entre bases de datos biológicas

Desventajas de las bases de datos biológicasRecuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 34 / 50

Page 35: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos especializadas

Las BD especializadas sirven normalmente a una comunidadcientífica específica o se enfocan a un organismo particular

Las secuencias en estas BD pueden traslaparse con una BDprimaria, pero puede también contener nuevos datos enviadospor los autores

Debido a que comúnmente están supervisadas por expertos en elcampo, pueden tener organizaciones únicas y anotacionesadicionales asociadas a las secuencias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 35 / 50

Page 36: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos especializadas

Muchas BD genómicas que son específicas a una taxonomíacaen en esta categoría

Flybase, WormBase, AceDB, y TAIR son ejemplos de este tipo deBD

Además, también hay BD especializadas que contienen datosoriginales derivados de análisis funcionales

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 36 / 50

Page 37: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Bases de datos especializadas

Por ejemplo, GenBank EST y MGED (Microarray GeneExpression Database) del Instituto Europeo de Bioinformática sonalgunas de las BD de expresión de genes disponibles

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 37 / 50

Page 38: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicas

Bases de datos primariasBases de datos secundariasBases de datos especializadasInterconexión entre bases de datos biológicas

Desventajas de las bases de datos biológicasRecuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 38 / 50

Page 39: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Interconexión entre bases de datos biológicas

Como mencionamos, las BD primarias son repositorios centralesy distribuidores de secuencias crudas e información estructural

Sin embargo, comúnmente los usuarios necesitan obtenerinformación tanto de BD primarias como secundarias pararealizar sus tareas porque la información contenida en una solaBD no es suficiente

En vez de dejar a los usuarios que visiten múltiples BD, esconveniente que las entradas en una BD sean referenciascruzadas y ligas a entradas relacionadas en otras BD

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 39 / 50

Page 40: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Interconexión entre bases de datos biológicas

Esto crea la necesidad de ligar diferentes BD

El principal obstaculo para ligar diferentes BD es la actualincompatibilidad de formatos, debido a que se utilizan estructurasheterogéneas (archivos planos, BD relacionales y orientadas aobjetos)

Una solución es utilizar el estándar conocido como CORBA(Common Object Request Broker Architecture)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 40 / 50

Page 41: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Bases de datos biológicas

Interconexión entre bases de datos biológicas

CORBA permite a las aplicaciones con BD en diferentesubicaciones comunicarse en una red a través de una plataformaque facilita la invocación de métodos remotos bajo un paradigmaorientado a objetos

Todo esto ocurre sin necesidad de que una BD conozca laestructura de otra

Otra alternativa es el uso de XML (eXtensible Markup Language)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 41 / 50

Page 42: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Desventajas de las bases de datos biológicas

1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 42 / 50

Page 43: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Desventajas de las bases de datos biológicas

Desventajas de las bases de datos biológicas

Uno de los problemas asociados a las BD biológicas es el excesode confianza en la información de secuencias y anotacionesrelacionadas, sin tomar en cuenta la fiabilidad de la información

A menudo se ignora el hecho de que hay demasiados errores enlas BD de secuencias

Por ejemplo la mayoría de los errores en las secuencias denucleótidos son causadas por errores en la secuenciación

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 43 / 50

Page 44: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Desventajas de las bases de datos biológicas

Desventajas de las bases de datos biológicas

Algunos de esos errores causan desplazamientos que hacen quetoda la identificación del gen se dificulte o que la traducción de laproteína sea imposible

Generalmente los errores de este tipo son más comunes ensecuencias producidas antes de los años 1990 (actualmente lacalidad ha mejorado)

El verdadero problema es que estos errores pueden propagarse aotras BD

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 44 / 50

Page 45: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Desventajas de las bases de datos biológicas

Desventajas de las bases de datos biológicas

Otro problema con las BD primarias son los altos niveles deredundancia

Las causas de estas redundancia incluyen envíos repetidos desecuencias idénticas o que se traslapan, una administracióndeficiente de las BD, etc.

Todo esto provoca que las BD primarias sean excesivamentegrandes lo que complica la recuperación de información

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 45 / 50

Page 46: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Recuperación de información de las BD biológicas

1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 46 / 50

Page 47: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Recuperación de información de las BD biológicas

Recuperación de información de las BD biológicas

Como mencionamos, el objetivo principal del desarrollo de BD esproveer acceso eficiente y amigable a los datos almacenados

Existen algunos sistemas especialmente diseñados pararecuperar información biológica

Los sistemas de recuperación de información más populares paraBD biológicas son Entrez y SRS (Sequence Retrieval Systems)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 47 / 50

Page 48: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Recuperación de información de las BD biológicas

Recuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 48 / 50

Page 49: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Recuperación de información de las BD biológicas

Recuperación de información de las BD biológicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 49 / 50

Page 50: Bases de datos biológicas - CINVESTAVertello/bioinfo/sesion04.pdfBases de datos biológicas Introducción Introducción Para recuperar un registro particular de la base de datos,

Bases de datos biológicas Recuperación de información de las BD biológicas

Recuperación de información de las BD biológicas

Estos proveen acceso a múltiples BD para recuperación integradade resultados de búsquedas

Este tipo de sistemas ofrece la posibilidad de efectuar consultascomplejas a través del uso de operadores Booleanos (AND, OR,NOT)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 50 / 50