aplicación del software libre en la secuenciación del adn

51
Aplicación del Software Libre en la Secuenciación del ADN Ing. Jacob Israel Cervantes Luevano Twitter: @jacobnix Web: http://www.langebio.cinvestav.mx/bioinformatica/jacob / ResearchG: https ://www.researchgate.net/profile/Jacob_Israel_Cervantes_ GitHub: https:// github.com/JacobIsrael Email: [email protected]

Upload: others

Post on 16-Jul-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aplicación del Software Libre en la Secuenciación del ADN

Aplicación del Software Libre en la Secuenciación del ADNIng. Jacob Israel Cervantes Luevano

Twitter: @jacobnixWeb: http://www.langebio.cinvestav.mx/bioinformatica/jacob/ResearchG: https://www.researchgate.net/profile/Jacob_Israel_Cervantes_LuevanoGitHub: https://github.com/JacobIsraelEmail: [email protected]

Page 2: Aplicación del Software Libre en la Secuenciación del ADN
Page 3: Aplicación del Software Libre en la Secuenciación del ADN
Page 4: Aplicación del Software Libre en la Secuenciación del ADN

Cinvestav Langebio

http://labsergen.langebio.cinvestav.mx/en/

Page 5: Aplicación del Software Libre en la Secuenciación del ADN

En las últimas décadas la ciencia pudo describir el

genoma de plantas, bacterias y animales, incluso,

del hombre.

El análisis de toda la información genómica de

estos seres vivos, ha sido posible gracias a los

avances en tecnologías de secuenciación del

adn y a la contribución de la informática en lo

que se conoce como Bioinformática.

Page 6: Aplicación del Software Libre en la Secuenciación del ADN

Secuenciación

●Obtención de secuencias

ABI 3730

SOLiD

GS 454

Secuencias (Datospara analizar)

>lectura 1ACTGACTGACTGCTGACTGCACTGACGTGTCAAACG

>lectura 2ACTGCGTAGCTATTACGACTAGCG.....

>lectura 1G34567892345

>lectura 2A235343434344

.....

>lectura 135 40 33 33 22

>lectura 223 11 23 34 32

calidadessecuencias(3G)

Page 7: Aplicación del Software Libre en la Secuenciación del ADN
Page 8: Aplicación del Software Libre en la Secuenciación del ADN
Page 9: Aplicación del Software Libre en la Secuenciación del ADN
Page 10: Aplicación del Software Libre en la Secuenciación del ADN

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 11: Aplicación del Software Libre en la Secuenciación del ADN

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 12: Aplicación del Software Libre en la Secuenciación del ADN

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 13: Aplicación del Software Libre en la Secuenciación del ADN

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 14: Aplicación del Software Libre en la Secuenciación del ADN

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 15: Aplicación del Software Libre en la Secuenciación del ADN

Secuenciación

http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972

Page 16: Aplicación del Software Libre en la Secuenciación del ADN

Secuenciación

Page 17: Aplicación del Software Libre en la Secuenciación del ADN
Page 18: Aplicación del Software Libre en la Secuenciación del ADN

Procesamiento de Datos

Page 19: Aplicación del Software Libre en la Secuenciación del ADN
Page 20: Aplicación del Software Libre en la Secuenciación del ADN

Secuenciación

●Proyecto de secuenciación o datos para analizar.

●Infraestructura de Supercomputo.

●Infraestructura de Almacenamiento de datos.

●Programas para análisis de los datos.

●Personal(Matemáticos,Estadísticos,Químicos,Biólogos,Bioquímicos,Informáticos).

●Fuentes de Financiamiento (Dinero)

Page 21: Aplicación del Software Libre en la Secuenciación del ADN

Proyecto de Secuenciación

●Instrumento de Secuenciación

ABI 3730

SOLiD

GS 454

Secuencias(Datos paraanalizar)

>lectura 1ACTGACTGACTGCTGACTGCACTGACGTGTCAAACG

>lectura 2ACTGCGTAGCTATTACGACTAGCG.....

>lectura 1G34567892345

>lectura 2A235343434344

.....

>lectura 135 40 33 33 22

>lectura 223 11 23 34 32

calidadessecuencias(3G)

●Cluster de Computo

Page 22: Aplicación del Software Libre en la Secuenciación del ADN

Resultados de Secuenciación

Codigo Genetico>1_15_1031_F3T223211000103001122003012220220313220021231101311212002131213>1_15_1123_F3T020133331212300011132111232201001203112110113232110022212103>1_15_1129_F3T220013030313200022123013111221311132200110232201311320021330

@+5BEFOREAAAAAACGTTGCAGGATTCCTT+IIIIIIIIIIIIIIIIIIIIII@+5AFTERACGTTGCAGGATTCCTTAAAAA+IIIIIIIIIIIIIIIIIIIIII@+5BEFOREANDAFTERAAAAAACGTTGCAGGATTCCTTAAAAA+IIIIIIIIIIIIIIIIIIIIIIIIIII

>DH10BAGCTTTTCATTCTGACTGCAACGGGCAATAATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCGTCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCCATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACTGTTATCGATCCGGTCGAAAAACTGCTGGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCGTATTGCGGCAAGCCGCATTCCGGCTGATCACATGGTGCTGATGGCAGGTTTCACC

Datos en

Terabytes !!!!

Page 23: Aplicación del Software Libre en la Secuenciación del ADN

Software Libre

La Aplicación del Software Libre es tan vasta que casien cualquier nicho puede ser aplicado de diversasmaneras.

Un nicho con un espectro de aplicación muy amplio ydiverso es la CIENCIA e INVESTIGACIÓN donde laBIOINFORMÁTICA para su avance se apoyafuertemente del Software Libre.

ACTGACTGA.....

Page 24: Aplicación del Software Libre en la Secuenciación del ADN

¿Porqué Bioinformática?

La investigación en biología y en otras ciencias producegrandes cantidades de información.

La única forma de analizar la información es medianteel uso de computadoras y programas.

Surge la Bioinformática.

ACTGACTGA.....

Page 25: Aplicación del Software Libre en la Secuenciación del ADN

¿Qué es Bioinformática?

●Aplicación de tecnología de computadores a la gestión y análisis de datos biológicos.

●Convergencia de campos de estudiosinterdisciplinarios:●informática.●matemática aplicada.●estadística.●inteligencia artificial.●química y bioquímica, biología.

●Solucionar problemas, analizar datos, o simularsistemas o mecanismos biológicos mediante equiposde alto rendimiento como un cluster de computo.

Page 26: Aplicación del Software Libre en la Secuenciación del ADN
Page 27: Aplicación del Software Libre en la Secuenciación del ADN

¿ Qué es un Cluster de Computo ?

●Grupo de múltiples computadoras.●Unidos mediante una red de alta velocidad.●El conjunto es visto como una única computadora.●Mas potente que una PC de escritorio.

© Jacob Israel Cervantes Luevano

Figura 1.Arquitectura de un Cluster de Computadoras

Page 28: Aplicación del Software Libre en la Secuenciación del ADN

Clasificación de los Clusters

●Clusters de Alto rendimiento.(HPC - High Performance)●Alta Disponibilidad.(HA – High Availability)●Alta Eficiencia.(HT – High Throughput)●Escalabilidad.

También se pueden clasificar como:●Clusters Comerciales(HA y HT)●Clusters Científicos(HPC)

© Jacob Israel Cervantes Luevano

Figura 2. Nasa Columbia

Page 29: Aplicación del Software Libre en la Secuenciación del ADN

Componentes de un Cluster

●HardwareServidor (frontend).Nodos de computo (backend).Red.

●SoftwareSistema Operativo.Programas para administración de recursos.Programas para programación en paralelo y distribuida.

© Jacob Israel Cervantes Luevano

Page 30: Aplicación del Software Libre en la Secuenciación del ADN

Componentes de un Cluster

© Jacob Israel Cervantes Luevano

Page 31: Aplicación del Software Libre en la Secuenciación del ADN

Componentes de un Cluster ( Front End )

●Normalmente es una gran máquina.●Gran capacidad de almacenamiento.●Conexión a red externa.●Repositorio de los principales servicios y componentes de software

© Jacob Israel Cervantes Luevano

Figura 3. Esquema de un cluster

INTERNET

Mac

PC

Mac

PC

Mac

GNULINUX

INTRANET

Page 32: Aplicación del Software Libre en la Secuenciación del ADN

Componentes de un Cluster (Nodos)

●Ejecutan las tareas en el cluster.●Almacenamiento temporal, permanente o diskless.●¿Mismos componentes de un PC convencional ?●Memoria usualmente muy alta.

© Jacob Israel Cervantes Luevano

Figura 3. Esquema de un cluster

INTERNET

Mac

PC

Mac

PC

Mac

GNULINUX

INTRANET

Page 33: Aplicación del Software Libre en la Secuenciación del ADN

Componentes de un Cluster(Almacenamiento)

●Interno en el servidor(IDE, SATA I, SATA II, SCSI...).●NAS(Network Attached Storage, 1TB,2TB,3TB,4TB).●NAS USB o Gigabit Ethernet.●NAS a través de protocolos NFS,FTP, CIFS/SMB,AFP.●Unidades de Cinta.

© Jacob Israel Cervantes Luevano

Figura 3. Esquema de un cluster

Mac

PC

Mac

PC

Mac

GNULINUX

INTRANET

Page 34: Aplicación del Software Libre en la Secuenciación del ADN

Componentes de un Cluster (Almacenamiento)

© Jacob Israel Cervantes Luevano

Figura 3. MD1000 – 15x1TB SATA (RAID-5 hotspare)

Page 35: Aplicación del Software Libre en la Secuenciación del ADN

Componentes de un Cluster(Red)

●Ethernet, Fast Ethernet, Gigabit Ethernet.

●Myrinet(Red Clase II, >1Gbps, Alto costo).

●Infiniband(Alto costo). 2.5Gb/s modo simple.

●La opción más utilizada es Gigabit Ethernet(1000Mbps)

© Jacob Israel Cervantes Luevano

Page 36: Aplicación del Software Libre en la Secuenciación del ADN

Componentes de un Cluster(Software)

Servicios en el Servidor

●Autenticación remota (secure shell).

●Montaje remoto de sistemas de archivos(NFS,autofs).

●Middleware:●Manejo de Recursos(RS).●¿Qué disponibilidad de recursos existen?●¿Cómo administro y distribuyo los recursos?

Torque/PBS (Administrador de Recursos)Maui (Planificador )

© Jacob Israel Cervantes Luevano

Page 37: Aplicación del Software Libre en la Secuenciación del ADN

Componentes de un Cluster(Software)

Servicios en el Servidor

Nodo con problema

Lista Nodos esclavos

Nodo estable

Gráficas del uso del cluster

Page 38: Aplicación del Software Libre en la Secuenciación del ADN

Rocks and Rolls

●Distribución de Linux : CentOS 5.x, 6.x, 7.x

●Clon a nivel binario de Red Hat Linux (CentOS).

●Utilizado para montaje HPC, pequeña y gran escala.

●Paquetes configurados “Rolls”.

●Mas todo lo demás que acabo de comentar.

© Jacob Israel Cervantes Luevano

http://www.rocksclusters.org

Page 39: Aplicación del Software Libre en la Secuenciación del ADN

Supercomputo - Sistema Operativo/Procesador

(top500.org)

Page 40: Aplicación del Software Libre en la Secuenciación del ADN

Supercomputo Genomica Cinvestav Langebio

"FLoating point Operations Per Second" u Operaciones de punto(o coma) flotante por segundo.

Los FLOPS son una medida de rendimiento de una computadora, especialmente en el campo científico, en donde se utiliza mucho las operaciones con datos de tipo flotante, para realizar simulaciones precisas y obtener resultados fidedignos.

Page 41: Aplicación del Software Libre en la Secuenciación del ADN

¿Principales Áreas de Investigación?

© Jacob Israel Cervantes Luevano

●Análisis de Expresión Génica.

●Análisis de mutaciones, polimorfismos.

●Ensamblado de Genomas.

●Muchas más ..

Page 42: Aplicación del Software Libre en la Secuenciación del ADN

Software Libre Bioinformática

© Jacob Israel Cervantes Luevano

●http://en.wikipedia.org/wiki/List_of_opensource_bioinformatics_software

Page 43: Aplicación del Software Libre en la Secuenciación del ADN

Software Libre que Desarrollamos

Page 44: Aplicación del Software Libre en la Secuenciación del ADN

User Login PageThe main start point is the login web page

Page 45: Aplicación del Software Libre en la Secuenciación del ADN

Search Web Page – Main HomeThis screenshot shows the main user interface search page

Search Methods:

●Contig Name●Keywords / Descriptions●Blast

●Existing Analisys

Page 46: Aplicación del Software Libre en la Secuenciación del ADN

Browser Page – Main HomeThis screenshot shows the main user interface search page

Hsp BitScoreColor Bar

Gene Model (fgenesh abinitio)

454 GS 20 reads

Live LinksBlast HSPs

ZMGI HitNR HitArabidopsis Hit

Blast HSPs (hit 1)

Blast2Gene

Page 47: Aplicación del Software Libre en la Secuenciación del ADN

Query Sequence Visualizer

Development Tools●Server●100% Full Linux Development●C# (C Sharp)●Mono Runtime●Web Services (asmx)●XSP 2 for ASP.NET testing●Apache Web Server

●Client●Jquery●DojoToolkit

●Database●MySQL (optional)●PostgreSQL

Mono. Project by Miguel De Icaza

Page 48: Aplicación del Software Libre en la Secuenciación del ADN

Desarrollo de Software

http://datos.langebio.cinvestav.mx/~jacob/projects/qsv/index.html

Page 49: Aplicación del Software Libre en la Secuenciación del ADN

México aporta el Genoma del Maíz al

conocimiento científico mundial.

Page 50: Aplicación del Software Libre en la Secuenciación del ADN

Articulo en Nature sobre el Genoma de

la Planta Carnivora

Page 51: Aplicación del Software Libre en la Secuenciación del ADN

Aplicación del Software Libre en la Secuenciación del ADNIng. Jacob Israel Cervantes Luevano

Twitter: @jacobnixWeb: http://www.langebio.cinvestav.mx/bioinformatica/jacob/ResearchG: https://www.researchgate.net/profile/Jacob_Israel_Cervantes_LuevanoGitHub: https://github.com/JacobIsraelEmail: [email protected]

MUCHAS GRACIAS