原核生物基因组岛的 建模与识别

24
原原原原原原原原原 原原原原原 The detection Of Genomic Islands in Prokaryotic Genomes 2010 原 7 原 原原原原原原原原原原原原 原原原原原原原原原原原原原原原原原原原 梁梁 梁梁 梁梁梁 Directed by 原原 原原原

Upload: selene

Post on 13-Jan-2016

189 views

Category:

Documents


0 download

DESCRIPTION

原核生物基因组岛的 建模与识别. The detection Of Genomic Islands in Prokaryotic Genomes. 2010 年 7 月 北京师范大学数学科学学院 北京师范大学生命科学学院生物信息实验室 梁潇 曹莎 姜洁怡 Directed by 林魁 毛永华. 2. 3. 1. 4. 背景介绍. 研究计划. 其它说明. 项目创新点. · 研究背景. 幽门螺杆菌 Helicobacter pylori 革兰氏阴性菌,幽门螺杆菌是人类至今唯一一种已知的胃部细菌 。 由于长期的溃疡,会导致癌症,是第一个可致癌的原核生物。. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 原核生物基因组岛的 建模与识别

原核生物基因组岛的

建模与识别The detection Of Genomic Islands in Prokaryotic Genomes

2010年 7月北京师范大学数学科学学院

北京师范大学生命科学学院生物信息实验室梁潇 曹莎 姜洁怡

Directed by 林魁 毛永华

Page 2: 原核生物基因组岛的 建模与识别

.

背景介绍

1

研究计划

2

项目创新点

3

其它说明

4

Page 3: 原核生物基因组岛的 建模与识别

·研究背景

微生物对人类最重要的影响之一是导致传染病的流行。在人类疾病中有 50%是由病毒引起。世界卫生组织公布资料显示:传染病的发病率和病死率在所有疾病中占据第一位。微生物导致人类疾病的历史,也就是人类与之不断斗争的历史。

微生物对人类最重要的影响之一是导致传染病的流行。在人类疾病中有 50%是由病毒引起。世界卫生组织公布资料显示:传染病的发病率和病死率在所有疾病中占据第一位。微生物导致人类疾病的历史,也就是人类与之不断斗争的历史。

•在疾病的预防和治疗方面,人类取得了长足的进展。•但是新现和再现的微生物感染还是不断发生,像大量的病毒性疾病一直缺乏有效的治疗药物。•一些疾病的致病机制并不清楚。•大量的广谱抗生素的滥用造成了强大的选择压力,使许多菌株发生变异,导致耐药性的产生。•人类健康受到新的威胁

•在疾病的预防和治疗方面,人类取得了长足的进展。•但是新现和再现的微生物感染还是不断发生,像大量的病毒性疾病一直缺乏有效的治疗药物。•一些疾病的致病机制并不清楚。•大量的广谱抗生素的滥用造成了强大的选择压力,使许多菌株发生变异,导致耐药性的产生。•人类健康受到新的威胁

•一些分节段的病毒之间可以通过重组或重配发生变异,最典型的例子就是流行性感冒病毒。•每次流感大流行流感病毒都与前次导致感染的株型发生了变异,这种快速的变异给疫苗的设计和治疗造成了很大的障碍。•而耐药性结核杆菌的出现使原本已近控制住的结核感染又在世界范围内猖獗起来。

•一些分节段的病毒之间可以通过重组或重配发生变异,最典型的例子就是流行性感冒病毒。•每次流感大流行流感病毒都与前次导致感染的株型发生了变异,这种快速的变异给疫苗的设计和治疗造成了很大的障碍。•而耐药性结核杆菌的出现使原本已近控制住的结核感染又在世界范围内猖獗起来。

幽门螺杆菌 Helicobacter pylori 革兰氏阴性菌,幽门螺杆菌是人类至今唯一一种已知的胃部细菌。由于长期的溃疡,会导致癌症,是第一个可致癌的原核生物。

铜绿假单胞菌 P.Aeruginosa原称绿脓杆菌 , 有复杂的耐药机制,影响肺部及泌尿道,造成烧伤、伤口及血液感染,如败血病;亦会造成肺炎。 10%在医院感染的病症都是由绿脓杆菌所引致的。它亦是引致皮肤炎的其中一种细菌。

鲍 曼 不 动 杆 菌 Acinetobacter Baum Annie20世纪 70年代 , 鲍曼不动杆菌几乎对所有抗生素都很敏感。由于它具有惊人的迅速获得抗药性的能力 , 目前已对多种抗菌药物表现耐药。

Page 4: 原核生物基因组岛的 建模与识别

•基因组岛的研究价值

微生物的致病作用

抗生素抗性

共生微生物的共生性

外源性化合物的降解

基因组岛的进化起源基因组岛的删除基因组岛的插入机制基因组岛在菌株间的转移机制

Page 5: 原核生物基因组岛的 建模与识别

•何为基因组岛 ?

一般是指原核生物基因组染色体上一段具有有别于该基因组背景典型特征的 DNA片段基因簇,具有移动元件的特征,如 G+C百分比和密码子使用情况与宿主菌不同,其通常具有移动元件的特征,常含移动基因,可以在同种甚至于不同种菌株间水平转移。

FEMS Microbiology Reviews Vol. 33, 2 Pages: 376-393

Page 6: 原核生物基因组岛的 建模与识别

.

背景介绍

1

研究计划

2

项目创新点

3

其它说明

4

Page 7: 原核生物基因组岛的 建模与识别

.

研究目标

研究内容

研究进度

实验路线

可行性分析

预实验结果

Page 8: 原核生物基因组岛的 建模与识别

项目的研究目标

通过整合统计学、机器学习、比较基因组学等方法,设计并实现一个有较好性能的原核生物基因组岛识别分析系统。

Page 9: 原核生物基因组岛的 建模与识别

项目的研究内容

1. 通过具有较高敏感性的方法寻找出待测基因组的基因组岛。

2. 用统计分析的方法研究基因组岛边缘序列的结构特征及其局部区域相关关系,建立起更准确的识别基因组岛的马尔可夫识别模型。整合我们自己研究的原核生物基因组进化方法进行备选基因组岛的比较基因组学鉴定。

3. 设计评价指标来评价所设计的系统 , 检验算法于模型的有效性及实用性。

4. 利用基于 Linux的MySQL数据库系统, PERL/C++编程以及 Apache服务器实现整个系统并提供给相关科学家使用。

拟解决的关键问题1.基于全基因组的基因组岛识别算法的优化模型建立

2.识别的性能 ( 准确性 ) 评价

Page 10: 原核生物基因组岛的 建模与识别

全基因组序列数据

Z-curve处理数据

比较基因组法

初步识别基因组岛

第一阶段

系统发育

进化关系

第二阶段

第三阶段

第四阶段

实验路线流程图

待分析序列

建立隐马氏模型( HMM)

提取特征参数

基因组岛区域

第一阶段

第二阶段

第三阶段

第四阶段

最终优化方案 MYSQL数据库

编程实现整个系统

第一阶段

第二阶段

第三阶段

第四阶段

基因组岛区域

准确性判断模型

是否达到预设阀值?返回修改模型参数

最终优化方案

第一阶段

第二阶段

第三阶段

第四阶段

Page 11: 原核生物基因组岛的 建模与识别

实验的可行性分析

1 全基因组测序计划的实行,使我们通过互联网即可拥有可靠的已测序的全基因组数据来源,如 GenBank 数据库检索系统:http://ncbi.nlm.nih.gov/genbank/query_form.html 。成熟的 WEB 程序及具体的数据、地址可在有关资料上找到,这给了我们开发相关程序很好的参考。

2 基因组岛识别研究的系统方法虽然还属于起步阶段,但基因识别从其初期的到现在已有多年,技术已相当成熟,与之相对应的软件系统开发也很全面、系统。利用统计学以及机器学习技术改进基因组岛识别的系统的可操作性很强,在我们的研究时段内可以顺利完成。

Page 12: 原核生物基因组岛的 建模与识别

成果提供形式及初步预实验结果

Page 13: 原核生物基因组岛的 建模与识别

•现有算法详细列表算法 论文

Islandpath/DIMOB(2005)

William W L Hsiao, Korine Ung, Dana Aeschliman, Jenny Bryan, B Brett Finlay, and Fiona S L Brinkman. Evidence of a large novel gene pool associated with prokaryotic genomic islands. PLoS Genet, 1(5):e62, Nov 2005.

原先是用来协助原核基因岛的识别。途径是通过可视化 GI 的几种共同的特点:例如序列组成偏向, tRNA ,整合酶和转座酶。这些特征可以用于决定 GI 的位置。

SIGI-HMM(2006)

Stephan Waack, Oliver K, Roman A, Thomas B, Carsten D, Wolfgang F.F, Katharina S, Peter M, and Rainer M. Score-based prediction of genomic islands in prokaryotic genomes using hidden markov models. BMC Bioinformatics, 7:142, 2006.

这个算法利用了各分类的密码子使用的显著差异来识别 pA基因和预测它们可能的起源。(用 HMM, Viterbi算法 ,有高度可靠性)

MobilomeFINDER(2007)

Mobilomefinder: web-based tools for Insilco and experimental discovery of bacterial genomic islands. Nucleic Acids Res, 35(Web Server issue):W97–W104, Jul 2007.

IslandPick(2008)

MorganGILangille,WilliamWLHsiao,andFionaSLBrinkman. Evaluation of genomic island predictors using a comparative genomics approach. B MC Bioinformatics, 9:329, 2008.

使用比较基因组预测方法来建立严格的 GI 和非 GI 数据集,这些阳性和阴性的数据集被用来评价一些基于序列组成的 GI 预测方法。该方法可以自动选择用于比较的基因组,用户也可以根据子的的见解来选则。

IslandViewer(2009)

Morgan G I Longville and Fiona S L Brinkman. Islandviewer: an integrated inter- face for computational identification and visualization of genomic islands. Bioinformatics, 25(5):664–5, Mar 2009.

整合了两种基于序列组成的的 GI 预测 方 法 : SIGI-HMM 和 IslandPath-DIMOB, 以及一个比较基因组预测方法 IslandPick.

Page 14: 原核生物基因组岛的 建模与识别

.

IslandPick

1

Z-Curve

2

SIGI-HMM

3

其它说明

4

Page 15: 原核生物基因组岛的 建模与识别

BLAST• BLAST(Basic Local Alignment Search

Tool") 是一个用来比对生物序列的一级结构(如不同蛋白质的氨基酸序列或不同基因的 DNA序列)的算法。

• 已知一个包含若干序列的数据库, BLAST 可以让研究者在其中寻找与其感兴趣的序列相同或类似的序列。 例如如果某种非人动物的一个以前未知的基因被发现,研究者一般会在人类基因组中做一个 BLAST 搜索来确认人类是否包含类似的基因(通过序列的相似性)。

Page 16: 原核生物基因组岛的 建模与识别

.

IslandPick

1

Z-Curve

2

SIGI-HMM

3

其它说明

4

Page 17: 原核生物基因组岛的 建模与识别

窗口化方法

使用 20kb 的窗口在 Bacillus cereus (蜡样芽孢杆菌)和

Bacillus anthracis (炭疽芽孢杆菌)的全基因组上滑动所得到的 GC 含

量的分布图。

Page 18: 原核生物基因组岛的 建模与识别

Z-curve• DNA 序列一一对应于一条 Z-curve

• Xn=(An+Gn)-(Cn+Tn)

• Yn=(An+Cn)-(Gn+Tn)

• Zn=(An+Tn)-(Gn+Cn)

• 特别地, Zn 分量体现了整个序列的 GC/AT 的分布

Page 19: 原核生物基因组岛的 建模与识别

• 对于一个 AT 丰富的基因组, Zn 是近似的关于 n的单调增的线性函数。反之,在 GC 含量比较丰富的区域, Zn 是近似的关于 n的单调减的函数。

• 曲线 Zn~n 可以用一条直线使用最小二乘法拟合。该曲线为 Z=kn ,易知,它对应的基因组的 GC 含量是稳定的。

• 令 Zn’=Zn-kn,GC 含量的改变被放大。(??)

• 这样, Zn 曲线和直线的偏差,即 Z’ 曲线就可以突出地刻画基因组内 GC 含量的偏差了。

Z-curve

Page 20: 原核生物基因组岛的 建模与识别

Z’ 曲线的几何意义• Z’ 曲线被称为累积GC 含量轮廓图• 对于序列上某一段特定的序列∆ n,它内部的

GC 含量的平均值有如下关系:

Page 21: 原核生物基因组岛的 建模与识别

Z’ 曲线的几何意义

• 从上式可以看出累积GC 含量图—— Z’ 曲线的特征:

• 1 )如果曲线的某一个区域接近于一条直线,则该区域的 GC 含量几乎保持不变;

• 2 )曲线上任何一个突然的最大(小)点预示着一个转折点—— GC 含量经历了一个很突然的从相对低(高)到相对高(低)的变化。

Page 22: 原核生物基因组岛的 建模与识别

累积 GC 含量轮廓图• 在基因组某一碱基处的 G+C 含量是关于 Z’ 曲

线在该点切线的斜率的一个很简单函数。• 在某一窗口中的平均G+C 含量则正比于此函

数在该窗口内的定积分。这样,我们就把生物学中G+C 含量的概念拓广了,使之在基因组处处都有定义。如果不从微积分的角度来看,很难理解基因组在某一碱基位置处的 G+C 含量是什么意思。

•精度高,不需要滑动窗口;极限情况下,就算只有一个碱基也能计算;

Page 23: 原核生物基因组岛的 建模与识别

累积 GC 含量轮廓图绿色:Bacillus cereus粉红区域:

GI蓝色:Bacillus

anthracis紫色:

Bacillus cereus去除掉 GI 区

域以后

Page 24: 原核生物基因组岛的 建模与识别

原核生物基因组岛的 建模与识别

-END-