第三章（ 1 ）序列分析

东南大学吴健雄实验室东南大学吴健雄实验室

第三章序列比较序列比较的根本任务是：

• 发现序列之间的相似性• 辨别序列之间的差异

目的：相似序列相似的结构，相似的功能判别序列之间的同源性推测序列之间的进化关系

第一节序列的相似性• 同源（ homology ） - 具有共同的祖先

直向同源（ Orthologous ）共生同源（ paralogous ）

• 相似（ similarity ）— 同源序列一般是相似的— 相似序列不一定是同源的— 进化趋同（同功能）

直向同源（ a1 in species I, a1 in species II)

共生同源（ a1 and a2 in species I ）

进化趋同水平转移

基因复制

序列的相似性描述

• 定性的描述

• 定量的数值相似度距离

序列比较的基本操作是比对（ Alignment ）

• 两个序列的比对是指这两个序列中各个字符的一种一一对应关系，或字符的对比排列。

设有两个序列：GACGGATTAG ， GATCGGAATAG

Alignment2:

GA CGGATTAGGATCGGAATAG

Alignment1:

GACGGATTAG GATCGGAATAG

1 、字母表和序列字母表

• 4 字符 DNA 字母表： {A, C, G, T}

• 扩展的遗传学字母表或 IUPAC 编码

• 单字母氨基酸编码

符号含义说明G G Guanine

A A Adenine

T T Thymine

C C Cytosine

R G or A Purine

Y T or C Pyrimidine

M A or C Amino

K G or T Keto

S G or C Strong interaction (3 H bonds)

W A or T Weak interaction (2 H bonds)

H A or C or T Not-G

B G or T or C not-A

V G or C or A not-T(not-U)

D G or A or T not-C

N G or A or T or C Any

扩展的遗传学字母表或 IUPAC 编码

1 、字母表和序列特定的符号

— 代表字母表 A* — 代表由字母表 A 中字符所形成的一系列有

限长度序列或字符串或序列的集合

a 、 b 、 c— 代表单独的字符 s 、 t 、 u 、 v— 代表 A* 中的序列 |s|— 代表序列 s 的长度

为了说明序列 s 子序列和 s 中单个字符，在 s中各字符之间用数字标明分割边界

例如，设 s=ACCACGTA ，则 s 可表示为 0A1C2C3A4C5G6T7A8

i:s:j 指明第 i 位或第 j 位之间的子序列 ,

当然， 0 i j |s| 。

• 子序列 0:s: i 称为前缀，即 prefix(s,i)

• 子序列 i:s:|s| 称为后缀，即 suffix(s, |s|-i+1)

•

i:s: i — 为空序列

•j-1:s:j — 表示 s 中的第 j 个字符，简记为 sj

子序列与子串

子序列：选取 s 中的某些字符（或删除 s 中的某些字符）而形成 s 的子序列

例如： TTT 是 ATATAT 的子序列。

s 的子串：是由 s 中相继的字符所组成。

例如：TAC 是 AGTACA 的子串，但不是 TTGAC 的子串（是子序列）。

• 子串是子序列• 子序列不一定是子串

字符串操作字符串连接操作：

两个序列 s 和 t 的连接： s + + t例如：

ACC++CTA = ACCCTA

字符串 k 操作— 删除字符串两端的字符其定义如下：• prefix(s,l) = sk|s|-l

• suffix(s,l) = k|s|-ls• i:s:j = ki-1sk|s|-j

序列比较可以分为四种基本情况：

（ 1 ）两条长度相近的序列相似找出序列的差别

（ 2 ）判断一条序列的前缀与另一条序列的后缀相似

（ 3 ）判断一条序列是否是另一条序列的子序列

（ 4 ）判断两条序列中是否有非常相似的子序列

2 、编辑距离（ Edit Distance)

GCATGACGAATCAG TATGACAAACAGC

GCATGACGAATCAG TATGAC-AAACAGC

说明两条序列的相似程度 ——〉定量计算

两条序列的相似程度的定量计算• 相似度，它是两个序列的函数，其值越大，表示

两个序列越相似 • 两个序列之间的距离。距离越大，则两个序列的

相似度就越小

字符编辑操作（ Edit Operation ）

字符编辑操作可将一个序列转化为一个新序列 • Match （ a ， a ）• Delete （ a ， - ） • Replace （ a ， b ）• Insert （ - ， b ）

直接距离计算的不足

扩展的编辑操作

ACCGACAATATGCATA

ATAGGTATAACAGTCA

ACCGACAATATGCATA ACTGACAATATGGATA

第二条序列头尾颠倒

CTAGTCGAGGCAATCTGAACAGCTTCGTTAGT ？

反向互补序列

RNA 发夹式二级结构

3 、通过点矩阵进行序列比较“矩阵作图法” 或 “对角线作图”

→ 序列 1 →

→

序列2 →

实例

→ 序列 1 →

→

序列1 →

自我比较

滑动窗口技术两条序列中有很多匹配的字符对，因而在点矩阵中会形成很多点标记。

滑动窗口技术• 使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。• 假设窗口大小为 10 ，相似度阈值为 8 ，则每次比较取 10 个连续的字符，如相同的字符超过 8 个，则标记• 基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声，并且明确无误的指示出了两条序列间具有显著相似性的区域。

（ a ）对人类（ Homo sapiens ）与黑猩猩（ Pongo pygmaeus ）的 β 球蛋白基因序列进行比较的完整点阵图。（ b ）利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图，其中窗口大小为 10 个核苷酸，相似度阈值为 8 。

(a) (b)

具有连续相似区域的两条 DNA 序列的简单点阵图

4 、序列的两两比对

序列的两两比对（ Pairwise Sequence Alignment ）

按字符位置重组两个序列，使得两个序列达到一样的长度

s: AGCACACA AGCACACA t: ACACACTA ACACACTA ——————————————————————————

Match(A, A) Match(A, A)Delete(G, - ) Replace(G, C)Match(C, C) Insert( -, A)Match(A, A) Match(C, C)Match(C, C) Match(A, A)Match(A, A) Match(C, C)Match(C, C) Replace(A, T)Insert( -, T) Delete(C, -)Match(A, A) Match(A, A)

图 3.6 序列 AGCACACA 和 ACACACTA 的两种比对结果

Alignment -1 Alignment -2

不同编辑操作的代价不同为编辑操作定义函数 w ，它表示“代价

（ cost ）”或“权重（ weight ）”。

对字母表中的任意字符 a 、 b ，定义 w (a, a) = 0

w (a, b) = 1 a b

w (a, -) = w ( -, b) = 1

也可以使用得分（ score ）函数来评价编辑操作

p (a, a) = 1

p (a, b) = 0 a b

p (a, -) = w ( -, b) = -1

概念：两条序列 s 和 t 的比对的得分（或代

价）等于将 s 转化为 t 所用的所有编辑操作的得分（或代价）总和；

s 和 t 的最优比对是所有可能的比对中得分最高（或代价最小）的一个比对；

s 和 t 的真实距离应该是在得分函数 p值（或代价函数 w 值）最优时的距离。

例如：s: AGCACACAt: ACACACTA

cost=2

s: AGCACACA t: ACACACTA score (s ， t ） = 5

序列比对的目的是寻找一个得分最大（或代价最小）的比对。

5 、打分矩阵（ Weight Matrices ）（ 1 ）核酸打分矩阵设 DNA 序列所用的字母表为 = { A ， C ， G ， T }

a. 等价矩阵 b. BLAST 矩阵 c. 转移矩阵（ transition ， transversion ）（嘌呤：腺嘌呤 A ，鸟嘌呤 G ；嘧啶：胞嘧啶 C ，胸腺嘧啶 T ）

A T C G

A 1 0 0 0

T 0 1 0 0

C 0 0 1 0

G 0 0 0 1

A T C G

A 5 -4 -4 -4

T -4 5 -4 -4

C -4 -4 5 -4

G -4 -4 -4 5

A T C G

A 1 -5 -5 -1

T -5 1 -1 -5

C -5 -1 1 -5

G -1 -5 -5 1

表 3.1 等价矩阵表表 3.3 转移矩阵表 3.2 BLAST 矩阵

（ 2 ）蛋白质打分矩阵（ i ）等价矩阵

（ ii ）氨基酸突变代价矩阵 GCM （ iii ）疏水矩阵（ iv ） PAM 矩阵（ Point Accepted Mutation ）（ v ） BLOSUM 矩阵（ Blocks Amino Acid Substitution Matrices ）

ji

jiRij 0

1 其中 Rij 代表打分矩阵元素i 、 j 分别代表字母表第 i 和第 j 个字符。

PAM 矩阵（ Point Accepted Mutation ）• 基于进化的点突变模型 • 一个 PAM就是一个进化的变异单位 , 即 1% 的氨基酸改变

• 这类矩阵里列出同源蛋白质在进化过程中氨基酸变化的可能性。

• 这类矩阵式基于进化原理的证据：编码相同蛋白质的基因随着进化发生分歧，相似度降低。

• 科学

• 用得多

矩阵集合 ----- PAM-N

如， PAM120 矩阵用于比较相距 120 个 PAM 单位的序列。

一个 PAM-N 矩阵元素（ i ， j ）的值：反应两个相距 N 个 PAM 单位的序列中第 i 种氨基酸替换第 j 种氨基酸的频率。

针对不同的进化距离采用 PAM 矩阵

序列相似度 = 40% 50% 60%

| | |打分矩阵 = PAM120 PAM80 PAM 60

PAM250 → 14% - 27%

归一化打

分实例

BLOSUM 62

第二节两两比对算法1 、序列两两比对基本算法

直接方法 — 生成两个序列所有可能的比对，分别计算代价函数，然后挑选一个代价最小的比对作为最终结果。

本质问题：优化

动态规划寻优策略

动态规划算法（ Dynamic Programming ）

最短路经问题

起点终点

C1

C2

W1

W2

路径 1 ： C1 + w1 ？

路径 2 ： C2 + w2 ？

取最小值！算法求解 :

从起点到终点逐层计算

利用动态规划方法求解序列的两两比对

起点终点ATTC………CGAAGA

AGTC………GAAGGT

ATTC………CGAAG

AGTC………GAAGG

A

T+（ 1

）

ATTC………CGAAGA

AGTC………GAAGG

-

T+（ 2

）

ATTC………CGAAG

AGTC………GAAGGT

A

-+（ 3

）

求解过程

起点终点ATTC………CGAAGA

AGTC………GAAGGT

• 从两个序列前端开始• 逐步推进• 直到两个序列的末端。

序列 S: i-1 i i+1

序列 t: j-1 j j+1

序列 S: i-1 i i+1

序列 t: j-1 j j+1

Case1:

匹配（ si ， tj

)

中间过程：比对 0:S:i 与 0:T:j

序列 S: i-1 i i+1

序列 t: j-1 j j+1

序列 S: i-1 i i+1

序列 t: j-1 j j+1

Case2:

删除（ si ， - ）

序列 S: i-1 i i+1

序列 t: j-1 j j+1

序列 S: i-1 i i+1

序列 t: j-1 j j+1

Case3:

插入（ - ， tj

）

设序列 s 、 t 的长度分别为 m 和 n 。考虑两个前缀

0:s:i 0:t:j

假如已知序列 0:s:i 和 0:t:j 所有较短子列的最优比对，即已知：

（ 1 ） 0:s:(i-1) 和 0:t:(j-1) 的最优比对（ 2 ） 0:s:(i-1) 和 0:t:j 的最优比对（ 3 ） 0:s:i 和 0:t:(j-1) 的最优比对

则 0:s:i 和 0:t:j 的最优比对一定是上述三种情况之一的扩展（ 1 ）替换（ si ， tj ）或匹配（ si ， tj ) ，这取决于 si 是否等于 tj ；（ 2 ）删除（ si ， - ）；（ 3 ）插入（ - ， tj ）。

)::,::( 00 ji tsS令：

为序列 0:s:i 和与序列 0:t:j 比对的得分

按下述方法求解

其初值为：

for i=1 , 2 ,......, m

for j=1 , 2 ,......, n

),()::,::(

),()::,::(

),()::,::(

max)::,::(

)1(00

0)1(0

)1(0)1(0

00

jji

iji

jiji

ji

tptsS

sptsS

tsptsS

tsS

),()::,::()::,::(

),()::,::()::,::(

0)::,::(

)1(000000

00)1(0000

0000

jjj

iii

tptsStsS

sptsStsS

tsS

距离矩阵

按照上述方法，对于给定的得分函数 p ，两个序列所有前缀的得分定义了一个 (m+1)(n+1) 的距离矩阵

D = ( d i , j )

其中 d i , j = S (0:s:i , 0:t:j )

d i , j 的计算公式如下：

),(

),(

),(

max

1,

,1

1,1

,

jji

iji

jiji

ji

tpd

spd

tspd

d

d i , j 最小值的三种选择决定了各矩阵元素之间的关系，

用下图表示：

di,jdi,j-1

di-1,jdi-1,j-1

距离矩阵元素 d i , j 的计算

S (0:s:i , 0:t:j )

S (0:s:i-1 , 0:t:j )S (0:s:i-1 , 0:t:j-1 )

S (0:s:i , 0:t:j-1 )

动态规划算法计算过程：

• 计算过程从 d 0 , 0开始

• 可以是按行计算，每行从左到右，也可以是按列计算，每列从上到下。

当然，任何计算过程，只要满足在计算 d i , j 时

d i-1 , j 、 d i-1 , j-1 、和 d i, j-1都已经被计算这个条件即可。

• 在计算 d i , j 后，需要保存 d i , j 是从 d i-1 , j 、 d i-1 , j-1 、或 d i,

j-1 中的哪一个推进的，或保存计算的路径，以便于后续处理。

•上述计算过程到 d m , n 结束。

最优路径求解：与计算过程相反

• 从 d m , n开始，反向前推。

• 假设在反推时到达 d i ,j ，根据保存的计算路径判断 d i , j究竟是根据 d i-1 , j 、 d i-1 , j-1 、和 d i, j-1 中的那一个计算而得到的。找到这个点以后，再从此点出发，一直到 d 0 , 0 为止。

• 走过的这条路径就是最优路径（即代价最小路径），其对应于两个序列的最优比对。

计算过程：

（ 1 ）初始化

计算过程：

（ 2 ）反复计算

•按列计算

计算过程：

（ 2 ）反复计算

•按行计算

•其他方式

计算过程：

（ 3 ）求最佳路径

t

s

A C A C A C T A

A

G

C

A

C

A

C

A

例：

s = AGCACACA

t = ACACACTA

得分矩阵 D （ 9×9）

t

s

A C A C A C T A

0 -1 -2 -3 -4 -5 -6 -7 -8

A -1

G -2

C -3

A -4

C -5

A -6

C -7

A -8

初始化

计算 d （ 2 ，2 ）

t

s

A C A C A C T A

0 -1 -2 -3 -4 -5 -6 -7 -8

A -1 1 0 -1 -2 -3 -4 -5 -6

G -2 0 1C -3

A -4

C -5

A -6

C -7

A -8

最终的得分矩阵

及序列比对

t

s

A C A C A C T A

0 -1 -2 -3 -4 -5 -6 -7 -8

A -1 1 0 -1 -2 -3 -4 -5 -6

G -2 0 1 0 -1 -2 -3 -4 -5

C -3 -1 1 1 1 0 -1 -2 -3

A -4 -2 0 2 1 2 1 0 -1

C -5 -3 -1 1 3 2 3 2 1

A -6 -4 -2 0 2 4 3 3 3

C -7 -5 -3 -1 1 3 5 4 3

A -8 -6 -4 -2 0 2 4 5 5

AGCACACA| ||||| |ACACACTA

•序列长度的影响：

令 cw(s, t) 表示两个长度分别为 m 和 n 的序列的相似性得分

设 cw(s, t) = 99

如果 m=n=100 -> 则可以说这两个序列非常相似

但如果m=n=1000 ，则仅有 10% 相同

相对长度的得分

sim （ s ， t ） = 2*cw(s, t) /(m+n)

•算法分析：数据结构 d i , j

空间复杂度： O (mn)

时间复杂度： O (mn)

2 、子序列与完整序列的比对

----AGCT----

ATGCAGCTGCTT

目标：使 S(s, i:t:j ) 最大

序列 S:

序列 t: i j

不计前缀 0:t:i 的得分 , 也不计删除后缀的 j+1:t:|t| 得分

不计前缀 0:t:i 的得分——处理第一行

t

s

A C A C A C T A

0 0 0 0 0 0 0 0 0

A

G

C

A

C

A

C

A

0)::,::( 000 itsS

不计删除后缀的 j+1:t:|t| 得分 ——处理最后一行

)::,::(

),()::,::(

),()::,::(

max)::,::(

)1(00

0)1(0

)1(0)1(0

00

jm

mjm

jmjm

jm

tsS

sptsS

tsptsS

tsS

dm,,jdm,,j-1

dm-1,,jdm-1,,j-1

S (0:s:i , 0:t:j )

S (0:s:i-1 , 0:t:j )S (0:s:i-1 , 0:t:j-1 )

S (0:s:i , 0:t:j-1 )

不计代价

距离矩阵初始化时，对第一行进行如下处理：

d0,j = 0 for 0 j n

最后一行的计算应该是：

同样， d m, n依然是最优局部比对的得分，而匹配的子列 i:t:j 按如下方式寻找：

（ 1 ） j = min {k d m ,k = d m ,n }

（ 2 ）反推比对路径，最终通过斜线（非空位）到达（ 0 ， i ）。

（ 3-10 ）

（ 3-11 ）

1,

,1

1,1

, ),(

),(

max

jm

mjm

jmjm

jm

d

spd

tspd

d

3 、寻找最大的相似子序列

目标：使 dw (i:s :j, i’:t:j’ ) 最大

序列 S:

序列 t: i’ j’

i j

数据结构：（ m+1 ）（ n+1 ）的矩阵 D

但是，对数组元素含义解释与基本算法有所不同

每个元素的值代表序列 0:s:i 某个后缀和序列 0:t:j 某个后缀的最佳比对。

这种局部比对不计前缀的得分，所以新的边界条件是：

• d0,j = 0 for 0 j n （ 3-12 ）• di,0 = 0 for 1 i m

另外，由于 0:s:i 和 0:t:j 总有一个得分为“ 0” 的空后缀比对，因此矩阵 D 中的所有元素大于或等于“ 0” ，于是，新的递归计算公式为：

(3-13)

0

),(

),(

),(

max1,

,1

1,1

,jji

iji

jiji

ji tpd

spd

tspd

d

寻找最佳比对的子序列

在矩阵中找最大值

该值就是最优的局部比对得分

该值对应的点为序列局部比对的末点

然后反向推演前面的最优路径，直到局部比对的起点。

TATA||||TATA

4 、准全局比较所谓准全局比较就是在评价序列比对时不计终端

“空缺”（ end space ，或空位）的得分或代价

序列 1 长度为 8

序列 2 长度为 18

（ a ） 6 个匹配， 1 个失配， 1 个空位

（ b ） 8 个匹配

情况 1 ：不记 s 后面的空位与 t 后缀比对的得分

在矩阵 di,j 中取最后一行的最大值，即：

jm

n

jdtssim ,

1max),(

(3-14)

序列 S:

序列 t: i’ j’

i j

空位

后缀

情况 2 ：不记 s 前面的空位与 t 前缀比对的得分

将矩阵 di,j 中的第一行各元素值置为“ 0”

序列 S:

序列 t:

i’ j’

i j

空位

前缀

情况 3 ：……情况 4 ：……

半全局比较算法与基本算法在计算 di,j 时的区别归纳为下列四个方面：

（ 1 ）第一行初始值为“ 0” ，表示不计第一个序列的前端空位；

（ 2 ）寻找最后一行的最大值，表示不计第一个序列的末端空位；

（ 3 ）第一列初始值为“ 0” ，表示不计第二个序列的前端空位；

（ 4 ）寻找最后一列的最大值，表示不计第二个序列的末端空位。

对于最后一行和最后一列的另一种处理办法是：—— 最后一行的横向移动不被空位罚分—— 最后一列的纵向移动也不被罚分

这样，就可以允许在两条序列终端自由存在空位。

当矩阵 D 所有元素计算完以后，其右下角得值即为两条序列最终准全局比对的得分。

ACACTGATCG||||||ACACTG

5 、关于连续空位的问题 K 阶空位 — K 个连续的空位字符 “ -”

ATG-A-T-C-A-G ATG-----ATCAG

ATGCAGTGCAATG ATGTTTTTATCAG

生物学意义 • “ 插入” 或“删除” 突变• 突变次数

连续空位可能对应于一次突变非连续空位对应于多次突变

对于连续空位的代价是一个线性的函数。设 p （ k ）代表空位得分函数，其中 k是连续空位的个数，则：

p （ k ） = -bk

这里 b （ >0 ）是单个“空位”得分的绝对值。

处理方法：• 任何一个比对可以被唯一地分为若干个相继的块。有三类块：

（ 1 ）两个字符的比对（ 2 ）与序列 s 空位进行比对的 t 的最大连续字符序列（ 3 ）与序列 t 空位进行比对的 s 的最大连续字符序列

为比较序列 s （长度为 m ）和序列 t （长度为 n ），我们使用三个（ m+1 ）（ n+1 ）的矩阵各矩阵第一行和第一列初始值的设定如下：

)(

)(

0

0,

,0

0,0

iwc

jwb

a

i

j

（ 3-16 ）（ 3-17 ）

（ 3-18 ）

递归计算过程如下：

)(

)(max

)(

)(max

max),(

,

,,

,

,

,

1,1

1,1

1,1

,

kwb

kwac

kwc

kwab

c

b

a

jipa

jki

jkiji

kji

kji

ji

ji

ji

ji

ji

(3-20)

for 1 k jfor 1 k j

for 1 k ifor 1 k i

(3-19)

(3-21)

上述算法的时间复杂度为 O(n3) 。比起标准算法，其多花的时间主要用于处理连续的空位。那么，是否可以改进连续空位的得分函数，而使得算法的时间复杂度降低为O(n2)呢？

如果认为 k 个连续空位比 k 个孤立空位出现的可能性更大，则p(k) kp(1) （ 3-22 ）

或更一般地，p(k1 + k2 + … + kn ) p(k1) + p(k2) + … +p(kn) (3-23)

可以用下式重新计算连续“空位”的得分：p(0)=0 （ 3-24 ）

p(k) = – h – g(k-1), k1 （ 3-25 ） h0 ， g0 ， hg 。

依然用 A 、 B 、 C 三个矩阵，各自的意义如下：ai,j —— 0:s:i 与 0:t:j 最优比对的得分，该比对以 si 和 tj 匹配结

束bi,j —— 0:s:i 与 0:t:j 最优比对的得分，该比对以空位和 tj 匹配

结束ci,j —— 0:s:i 与 0:t:j 最优比对的得分，该比对以 si 和空位匹配

结束

ji

ji

ji

ji

ji

ji

ji

ji

ji

ji

ji

ji

cg

bh

ah

c

ch

bg

ah

b

c

b

a

jipa

,1

,1

,1

,

1,

1,

1,

,

1,1

1,1

1,1

,

max

max

max),(

对个矩阵元素的初始化工作按以下公式进行： a0,0 = 0 ai,0 = - for 1 i m ao,j = - for 1 j n bi,0 = - for 0 i m (3-29) bo,j = -h-(j-1)g for 1 j n ci,0 = -h-(i-1)g for 1 i m co,j = - for 0 j n

计算公式如下：

（ 3-26 ）

（ 3-27 ）

（ 3-28 ）

6 、比较相似序列相似序列快速比较算法

• 例如，有两个序列： s=GCGCATGGATTGAGCGA t=TGCGCCATGGATGAGCA 最优比对所对应的路径偏离主对角线，经过一段以后重新返回主对角线。

一个比对假设至少有（ k+1 ）个空位对，则最佳的得分为：

M ( n - k - 1 ) + 2 ( k +1) g (3-30)

M 为匹配的得分， g 为空白的得分， M0 ， g 0 。从某个 k （ =1 ）开始进行计算，如果 dn,n 比（ 3-3

0 ）计算值小，则将 k 加倍 ,再进行一次计算，直到下式成立。

dn,n M ( n - k - 1 ) + 2 ( k +1) g (3-31)

7 、比对的统计学显著性（ 1 ）典型方法：将两条待比较的序列分别随机打乱，再使用相同的程

序与打分函数（或打分矩阵）进行比对，计算这些随机序列的相似性得分。重复这一过程，用和分别表示其平均值与标准差。 • 设原来两条序列的比对得分为 x ，利用下式计算大

于或等于 x 的比对得分概率： z = (x - )/ 和分别表示其平均值与标准差根据 z 值判断两个序列相似得分的显著性

（ 2 ）相似性得分分布分析方法 • 分析其中的一条序列（称为靶序列）对数据库检索

的相似性得分的分布情况

根据所检测出的其他类似序列的个数与得分大小，并根据结构域或功能的有无设立阳性对照和阴性对照。如果靶序列所检出序列的分布状态与阳性对照序列的检测结果相近，而阴性对照序列不能或仅检出很少有关的序列，则可以断定要比较的那两条序列的比对结果是有统计意义的。

（ 3 ） Karlin-Altschul 的计算公式如下：

• P(S>x) = 1- exp(-Ke-x) •

P(S>x) 是最大片段得分大于 x 的概率， K 和是两个参数

经验法则（针对蛋白质序列）：① 如果两个序列的长度都大于 100 ，在适当地加入空位之后，它们配对的相同率达到 25% 以上，则两个序列相关；② 如果配对的相同率小于 15% ，则不管两个序列的

长度如何，它们都不可能相关；③ 如果两个序列的相同率在 15%25% 之间，它们

可能是相关的。

第三章（ 1 ） 序列分析

Documents

第三章（ 1 ）序列分析