生物信息学 -...

68
生物信息学 第三章 序列比对 Ⅱ

Upload: others

Post on 21-Oct-2019

29 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

生物信息学

第三章 序列比对 Ⅱ

Page 2: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

本章内容提要

第一节:双序列比对算法的介绍

Dot matrix

动态规划算法

(Needleman-Wunsch, Smith-Waterman算法)

FASTA和BLAST算法

第二节:打分矩阵及其含义

第三节:多序列比对

Page 3: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

第二节 打分矩阵及其含义

1,核酸序列比对的打分方法

2,蛋白序列比对的打分方法

Dayhoff: PAM系列矩阵

Henikoff: BLOSUM系列矩阵

Page 4: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

核苷酸替代:转换 & 颠换

转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代

颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代

Page 5: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

1,核酸序列比对的打分方法

等价/匹配计分:

相同的核酸记1分,否则记0分

BLAST中核酸比对计分:

相同的核酸记5分,否则记-4分

转换-颠换矩阵计分:

转换记 -1分,颠换记 -5分

A T C G

A 1 0 0 0

T 0 1 0 0

C 0 0 1 0

G 0 0 0 1

A T C G

A 5 -4 -4 -4

T -4 5 -4 -4

C -4 -4 5 -4

G -4 -4 -4 5

等价矩阵 BLAST矩阵

A T C G

A 1 -5 -5 -1

T -5 1 -1 -5

C -5 -1 1 -5

G -1 -5 -5 1

转换-颠换矩阵

Page 6: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

2,蛋白序列比对的打分方法

等价/匹配计分:

相同的氨基酸记1分,否则记0分

结构域性质计分:

SGM矩阵(Structure-Genetic Matrix)

主要根据氨基酸的结构和化学性质的相似程度来记分(如D和E,S和T,V和I有很高的相似性),同时还考虑密码子之间相互转换的难易程度。

可观测变换计分:

PAM矩阵 (Point Accepted Mutation)

BLOSUM矩阵 (BLOcks SUbstitution Matrix)

Page 7: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

PAM系列矩阵 Margaret Dayhoff, 1978;

通过对物种进化的研究,根据一种氨基酸被另一

种氨基酸替代的频度而提出的,最常用的是

PAM250;

假设,蛋白质序列各部位进化的速率是均等的;

氨基酸变化频率不随进化时间改变,短期进化历

史内观察到的置换可以推广到较长的历史。

Accepted point mutation (PAM): 可接受的点突

变,氨基酸的改变不显著影响蛋白质的功能;

Page 8: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

PAM矩阵

71个蛋白质家族的1572种变化;

序列相似性 > 85%;

功能同源的蛋白质 通过中性进化,引入可接受

的点突变;

进化模型:

A. 基本假设:中性进化,Kimura,1968;

B. 进化的对称性: A->B = B->A;

C. 扩展性:通过对较短时间内氨基酸替代关系的计算来计算较长时间的氨基酸替代关系;

Page 9: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

PAM1矩阵

两个蛋白质序列的~1%氨基酸发生变化;

定义进化时间以氨基酸的变异比例为准,而不是

时间;因为各个蛋白质家族进化的速度并不相等

PAM2 = PAM1*PAM1

PAM3 = (PAM1)3

PAM250= (PAM1)250

Page 10: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

PAMn矩阵的构建

选取多个家族的相似性>85%的保守序列;

根据匹配计分进行多重比对(不含空位);

以比对结果构建进化树,反映氨基酸替换关系;

计算每种氨基酸转换成其它氨基酸的次数;

计算每种氨基酸突变率;

计算每对氨基酸突变率,得到突变概率矩阵, 将此矩

阵自乘n次;

将突变概率矩阵转化为PAMn打分矩阵。

Page 11: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

示例:PAM矩阵的构建

已知3个蛋白质家族若干保守序列片段:

家族一:FKILK,FKIKK,FFILL,FFIKL

家族二:IIFFF, IIFIF , IKFFL , IKFIL

家族三: KIFKK,KIFLK,KLFKL,KLFLL

按Doyhoff方法构建PAM1与PAM2矩阵

Page 12: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

Step1:多重比对 位置对齐,多重比对(不考虑空位):

统计每种氨基酸出现的频率;

fi = 氨基酸i的数目/总氨基酸数目

fL = 12/60 = 0.2

..

家族一 家族二 家族三

F K I L K I I F F F K I F K K

F K I K K I I F I F K I F L K

F F I L L I K F F L K L F K L

F F I K L I K F I L K L F L L

Step2:构建进化树

Page 13: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

Step3:计算氨基酸间的转换次数

计算每种氨基酸转换成其它氨基酸的次数。

假设两种氨基酸间相互转换一样。

e.g. N(LK)= 3 + 0 + 3 = 6

K F I L

K 1 1 6

F 1 2 1

I 1 2 1

L 6 1 1

Step4:计算各氨基酸相对突变率

Page 14: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

Step5:氨基酸一步转移概率矩阵M1ij

原氨基酸

K F I L

替换氨基酸

K 0.9875 0.001563 0.001563 0.009375

F 0.001389 0.994444 0.002778 0.001389

I 0.001786 0.003571 0.992857 0.001786

L 0.0125 0.002083 0.002083 0.983333

Mij:氨基酸i j的标准概率,即在每100个氨基酸残基发生1次变化的进化距离中,氨基酸i变为j

的概率

)/(j

ijijjij ffmM

Page 15: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

Step6: PAM1计分矩阵结果

三个家族序列片段得到的PAM1计分矩阵:

K F I L

K 6

F -23 5

I -22 -19 6

L -13 -22 -20 7

由突变率mij计算计分矩阵中的分值rij:

)/lg(10 iijij PMr

Pi = Fi / F : 氨基酸i出现的概率

Page 16: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

PAM1矩阵,乘以10000

Page 17: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

PAM2矩阵

基本假设:每个氨基酸的突变的概率独立于前次突变。因此,PAM2=PAM1*PAM1

Page 18: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

PAM250矩阵

PAM250: 每100个氨基酸残基发生250次突变;

蛋白质序列仍然有15-30%左右的相似性;

Page 19: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

PAM250打分矩阵

Page 20: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

打分矩阵的使用

PAM250: ~15-30%的序列相似性;

PAM120: ~40%的序列相似性;

PAM80: ~50%

PAM60: ~60%

如何选择最合适的矩阵?

多种尝试…

Page 21: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

PAM矩阵的问题及改进

PAM系列矩阵存在的问题:

A. 氨基酸的打分矩阵,不关心核酸;

B. 进化模型的构建需要系统发育树的分析,因此,成为

一个循环论证的问题:序列比对矩阵构建打分进行

新的序列比对;

C. 数据集很小;

打分矩阵的改进

A. 选用大量的序列数据,构建PAM矩阵;

B. BLOSUM系列矩阵;

C. 核酸的打分矩阵;

Page 22: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

3, BLOSUM矩阵

最被广泛使用的氨基酸打分矩阵;

根据蛋白质模块数据库BLOCKS中蛋白质序列

的高度保守部分的比对而得到的,最常用的是

BLOSUM62;

BLOCK: 蛋白质家族保守的一段氨基酸,无

gap,一般几个至上百个氨基酸;

Prosite家族:至少有一个BLOCK存在于该家

族的所有蛋白质序列中;

Page 23: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

BLOSUM62矩阵构建步骤:

提取Prosite数据库中504个家族的2万多蛋白质序

列(含1961个Blocks),合并其中相似性≥62%

的序列;

统计各BLOCK的氨基酸对数量f;

计算氨基酸对的出现频率q;

计算每种氨基酸的期望频率p;

计算氨基酸对出现的期望频率e;

计算BLOSUM62矩阵分量rij

)/(lg2 2 eqrij

Page 25: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

BLOSUM & PAM

序列相似性与PAM及BLOSUM矩阵的大致对应关系:

序列相似性 % 99 90 80 70 60 50 40 30 20

PAM数值 1 11 23 38 56 80 112 159 246

BLOSUM数值 90 80 62-45

Page 26: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

第三节, 多序列比对

不同物种中,许多基因的功能保守,序列相似

性较高,通过多条序列的比较,发现保守与变异

的部分;

可构建HMM模型,搜索更多的同源序列;

构建进化树的必须步骤;

比较基因组学研究;

两类:全局或局部的多序列比对;

Page 27: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

全局性的多序列比对

Made by GENEDOC

Page 28: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

双序列比对

Gap V D S C Y

Gap 0 -11 -22 -33 -44 -55

V -11 4 -7 -18 -29 -40

E -22 -7 6 -5 -16 -27

S -33 -18 -5 10 -1 -12

L -44 -29 -16 -1 9 -3

C -55 -40 -27 -12 8 7

Y -66 -51 -38 -23 -3 15

4

2

时间复杂度:O(n2)

Page 29: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

多序列比对:最优算法

三条序列:时间复杂度:O(lmn) = O(n3)

四条序列:时间复杂度:O(n4),非多项式时间!

多项式时间复杂度要求:≤O(n3)

m条序列:时间复杂度:O(nm)!

Page 30: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

动态规划算法:全空间

Page 31: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

动态规划算法:Hyperlattice

Page 32: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

动态规划算法优化算法

Sequence A

Sequence B

搜索有限空间,类似于BLAST算法

Page 33: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

多序列比对的最优问题

最优的多序列比对,其两两序列之间的比对不一定最优。

最优的多序列比对 非最优的双序列比对

Page 34: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

MSA程序

MSA - Multiple Sequence Alignment

David Lipman等,1989年初始开发;

应用多维动态规划算法,得到最优的全局比对。

工具资源: http://www.ncbi.nlm.nih.gov/CBBresearch/Schaff

er/msa.html

http://www.psc.edu/index.php/resources-for-

users/software

Page 35: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

MSA: 打分方式

Page 36: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

多序列比对:方法改进

1. 渐进方法:progressive methods

代表:ClustalW/X, T-Coffee

2. 迭代方法:iterative methods

代表: PRRP, DIALIGN

3. 部分有向图算法:

Partial Order Algorithm (POA)

4. 全局多序列比对的隐马尔科夫模型

profile HMM

5. 整合算法: MUSCLE

Page 37: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

1. 渐进方法

ClustalW/X

T-Coffee

(1) ClustalW/X

Clustal: 1988年开发;

ClustalW: 1994年,Julie D. Thompson等人

改进、发展;

ClustalX: 1997年,图形化软件;

Page 38: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

ClustalW/X:计算过程

1. 将所有序列两两比对,计算距离矩阵;

2. 构建邻接进化树(neighbor-joining tree)/指导

树(guide tree);

3. 将距离最近的两条序列用动态规划的算法进行

比对;

4. “渐进”的加上其他的序列。

Page 39: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

两两比对,构建距离矩阵

指导树的构建

渐进比对

Page 40: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

ClustalW的打分原则

每条序列的权值

Score:BLOSUM62的分数

Page 41: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

ClustalX的使用

1. FASTA序列格式,多序列:

Page 42: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

ClustalX的使用 ——导入序列文件

Page 43: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

执行比对

Page 44: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

文件导出

Page 45: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

多序列比对:结果处理 BioEdit, GeneDoc等软件

GeneDoc软件,导入.aln文件

Page 46: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

选择文件格式

Page 47: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

成功导入文件

Page 48: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

选择需要拷贝的行

Page 49: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

(2) T-Coffee

采用Clustal程序计算两两序列之间的全局最

优比对结果;

采用LALIGN程序计算两两序列之间的局部最

优比对的结果;

设计加权系统,综合考虑以上两类结果的因素

,构建指导库;

最后,采用渐进式比对算法,得到最终的结果

Page 50: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

同时进行全局和局部的双序列比对

对以上打分的结果设计权重系统,找到序列中最保守的部分

渐进方法的比对,基于上述计算的primary library

Page 51: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

ClustalW/X:存在的问题

距离最近的,有两组序列AB和CD,哪组最先比对?两种方案:

1)分别、同时比对。但是,是以AB为准,加入CD,然后再加上其他序列,还是CD为准?结果可能出入很大

2)随机挑选一组作为基准

当序列差异较大时,上述问题更加明显。

Page 52: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

例如

三条序列:

若Seq1,2先比对,再加入Seq3:

Seq1,3先比对,再加入Seq2:

Seq2,3先比对,再加入Seq1:

Seq1: ARKCV Seq2: ARCV Seq3: AKCV

ARKCV AR-CV A-KCV

ARKCV A-RCV A-KCV

ARKCV AR-CV AK-CV

Page 53: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

2. 迭代方法

部分解决渐进算法存在的问题,主要是

ClustalW/X存在的问题;

(1)PRRP

(2)DIALIGN

Page 54: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

(1) PRRP

1. 先用“渐进”算法进行多序列比对;

2. 基于多序列比对的结果构建进化树;

3. 重新计算序列之间的距离,再用“渐进”算法进行多序列比对;

4. 重复上述步骤,直到结果不再发生改变为止。

Page 55: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

(2) DIALIGN

1. 对所有序列进行两两之间的局部最优化的比对;

2. 找到所有能够匹配的部分M1;将重叠的、前后连

续(consistency)的匹配部分连接起来(diagonals)

,为M2;

3. 将剩下的未比对的序列重新比对,再发现能够匹

配的部分,构成新M1,将consistency部分构成

M2;

4. 重复上述步骤,直到结果收敛。

Page 56: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

3. 部分有向图算法

Page 57: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义
Page 58: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

激酶的多序列比对

Page 59: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

4. 隐马尔科夫模型: ProbCons

主要改进:

1. 所有序列的两两比对,通过profile HMM的方

法进行双序列比对;

2. 将渐进算法与迭代算法整合;

3. 性能最优

Page 60: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

5. 整合算法MUSCLE

算法分为三个部分,每个部分相对独立;

优点:两条序列之间的距离不采用动态规划算法进行比对,节省时间。

1. Draft progressive:

(1) 对两条序列,计算距离采用k-mer的思想;

(2) 用UPGMA算法构建引导树;

(3) 使用渐进算法进行多序列比对;

Page 61: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

MUSCLE 2. Improved progressive:

(1)基于k-mer得到的树可能会产生次优结果,因此,采用

Kimura距离的方法对k-mer产生的树重新计算距离矩阵;

(2)重新用UPGMA构建进化树;

(3)使用渐进算法进行多序列比对;

3. Refinement:

(1)随机从进化树上挑出一条边,删除;

(2)得到两组树,对每组树,计算profile;

(3)将两组profile进行比对;

(4)如果最终得分提高,保留结果,否则丢弃。

Page 62: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

MUSCLE的算法流程

Page 64: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

MUSCLE的使用

Page 65: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

多序列比对:性能检验

BAliBASE:人工修正的多序列比对数据库,为

评估和比较多序列比对程序设计。基于蛋白质结

构,将同一家族的蛋白质序列进行多序列比较。

检验多序列比对工具的性能:是否能够很好的重

复BAliBASE中已明确的比对结果。

Page 66: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

AMP结合酶的结构/序列比较

Page 67: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

性能比较

Probcons, T-Coffee, Probalign and MAFFT精确

度最高;POA, CLUSTALW, DIALIGN-TX, and

MUSCLE更快内存需求更小

T-Coffee:序列相似性高时最准确;

DIALIGN: 序列相似性低时最准确;

POA:性能接近T-Coffee和DIALIGN,速度最快;

ClustalW/X: 最经典、被广泛接受的工具;

MUSCLE: 最流行的多序列比对工具;

Page 68: 生物信息学 - staff.ustc.edu.cnstaff.ustc.edu.cn/~zhaowei/bioinformatics2015/3-2,%d0%f2%c1%d0%b1%c8%b... · 第三章 序列比对 Ⅱ ... FASTA和BLAST算法 第二节:打分矩阵及其含义

运算时间比较