基因大数据分析入门 slideshare

Post on 13-Apr-2017

184 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

基因大数据分析入门 @5fei

周五 11 月 11

议程1 :基因数据分析行业的现状:为什么 hadoop 没有被基因行业采用A1: SGE VS 阿里批量计算 VS ADAMA2: 安诺基因大数据路线图2 : ADAM 项目介绍: ADAM 为基因行业的分析带来什么好处3 :实验项目的整个架构和代码演示4 :实验项目 VS 原有程序5 :生信人员的工具使用: ADAM-SHELL ADAM-SUBMIT

6 :开发环境简单介绍: IDEA,JAVA,SCALA,SBT,SPARK,ADAM

基因数据分析行业的现状1 :现在大多还是使用的 LSF/SGE

2 :科研机构多使用已经存在的服务器,而 AWS,GOOGLECLOUD 收费而且对其使用也不熟悉3 :处理 1 百万条的 VCF 用 24 个小时相对于测序是可以接受的 4 :科研人员倾向于优化算法,而对数据的处理技术放在次要考虑的位置5 : hadoop 对于基因处理的两个重要瓶颈:依赖网络传输数据和通过磁盘 IO 访问数据

SGE VS 阿里批量计算 VS ADAM

SGE

其本质是对生产环境物理服务器资源池化(开发环境也可以是虚机),它为任务的执行提供物理服务器保证缺点:提交的任务只能在一台服务器上执行,其并发能力的受限于服务器 cpu 数目(任务开发人员也可以自己做任务的拆分和汇总提高并发能力【重新发明轮子】,但开发难度大,代码复用率低,容易出错)

阿里批量计算缺点:1: 集群的节点用户不能独立管理,连 ssh 访问都没有提供(所谓的节点其实是个容器?)2 :只能在经典网络创建, VPC 不支持3 :没有分布式文件系统的产品支持( OSSFS 不成熟,社区开发和维护不活跃)

ADAM 基因数据分析平台其本质是分布式计算,以公有云和私有云作为运行环境,用户提交的任务会被基因数据分析平台自动切分并被投放到集群所有节点执行,并发能力只受限于集群的规模(执行时间和并发能力成反比),资源利用率迅速提高。优点:任务的开发代码里面只包含业务代码(即基因数据分析代码),而关于任务的切分,并发控制和同步由 ADAM 在后台完成,从而极大的降低了任务开发难度,而且和底层和系统调用松耦合,任务可以轻松的适配新的平台 , 产品从设计,开发到市场投放的周期大大的缩短,为公司在未来的竞争提供强大的技术支持缺点:1: 原有的代码需要做迁移改造

安诺基因大数据路线图

ADAM 项目介绍ADAM 是专门用于基因数据的处理和存储格式:主要好处

1 :并行2 :存储空间小

Broad Institute‘s GATK 从 V4 版本开始支持 adam

项目功能介绍$ samtools view sample.rmdup.bam | more

项目功能介绍$ cat win_100k.use_50mer | more

代码演示

实验项目的概览

实验项目 VS 原有程序实验项目目前使用的 scala 语言实现的 ( 也可用 java或 python或 R)

原有程序代码片段

实验项目代码片段

生信人员的工具使用: ADAM-SHELL

$adam-shell

开发环境简单介绍

参考● https://github.com/bigdatagenomics/adam

https://software.broadinstitute.org/gatk/

● https://www.biostars.org/

THANK YOU

top related