第三章( 2 ) 序列多重比对
DESCRIPTION
第三章( 2 ) 序列多重比对. 主讲人:孙 啸. 制作人:刘志华. 东南大学 吴健雄实验室. 第三节 序列多重比对. 目的: 发现多个序列的共性 发现与结构和功能相关的保守序列片段 设:有 k 个序列 s 1 , s 2 , ... ,s k ,每个序列由同一个字母表中的字符组成, k 大于 2 。 通过插入操作,使得各序列达到一样的长度。. 1 、 SP ( Sum-of-Pairs )模型. 评价多重序列比对的结果. 按照每个对比的列进行打分,然后加和 处理每一列: — k 个变量的打分函数 - PowerPoint PPT PresentationTRANSCRIPT
-
ks1, s2, ... ,skk2
-
1SPSum-of-Pairs
-
k k
-
c1,c2,,ckkpSPsum-of-pairs p(1,2)p (1,3)...p(1,8)p (2,3)p(2,4)... p (2,8)...p (7,8) -7-6-5-4-3-2-1+2 = -26
-
SP
ijs i s j
-
2
-
2k - 1
-
kA
a[ 0, 0, ,0 ] = 0
a[ i ] = max {a[ i - b ] + SP-score(Column(s, i, b))} (3-37)(3-38) if bj = 1if bj = 0
-
3.17 O(2ki=1,...,k si) O(2kNk)
-
3
-
stijij 0:s:i 0:t:j i:s:mj:t:nS:t: ji
-
AB a[i, j] = sim(0:s:i , 0:t:j)b[i, j] = sim(i:s:m , j:t:n)
A BB00
ABC=A+BijCAB
C
-
-ATTCGGGATTC-- c abca b
- 3-1s1, s2, ... ,skSP-score() L score(ij) Lij Lij = L - ( sim(sx, sy) ) x
-
4
siscOkn2
-
scs1s2
sk
(sc, s1) (sc, s2) (sc, sk)
-
sim( si, sc )
-
5 s1 = ATTGCCATT s2 = ATGGCCATT s3 = ATCCAATTTT s4 = ATCTTCTT s5 = ACTGACCsc=s1ATTGCCATT ATTGCCATT-- ATTGCCATT ATTGCCATTATGGCCATT ATC-CAATTTT ATCTTC-TT ACTGACC-- ATTGCCATT--ATGGCCATT-- ATC-CAATTTT ATCTTC-TT-- ACTGACC----
-
3.1 1ijk,ij, dc(si, sj) D(si, sc) + D(sc, sj) 3-433.2 3-44
-
5k k
-
CTCGCTxyz8
a=bp(a,b)=1 p(a,b)=0p(a,-)=-1 CTCGCT
-
Alignment of alignments, AA
121s1s2si2t1t2tjs1s2sit1t2tj=s1t112
11s1s1a1a2als1ls1s122t1t1b1b2blt1lt1t13a1a2als1b1b2blt1412-
-
1: s1 -H-LVV 2: t1 L-HCLV s1 -H-LVV s2 G-VLVC t2 VLHCL- t1 LHCLV- s3 GN-LVV
AA--H--LVV-G--VLVG-GN--LVVL-HC-LV-V-HC-L
1245HLVVGVLVGGNLVVLHCLV-VHCL--
-
n
1
2AA
32n s1 s2 s3 s412
-
6
12 3
-
((LYCES, SPIOL 84), (YEAST, (XENLA,(((RAT, MOUSE 96), HUMAN 83), CHICK71) 66), DROVI 58))
-
ClustalW ClustalW
EBICLUSTALW http://www.ebi.ac.uk/clustalw/
-
7
HLVVGVLVGGNLVVLHCLV-VHCL-- 1ATNTSC (N - A,T,C,G ; S - G,C)
-
2Profile
P=(P1,P2,,PL)P
Pj=(pj0,pj1,,pj|A|)
APjkAk j 0-
-
ATTATAACTTCTTATACTTTAGAAT 1 2 3 4 5 () A 0.8 0.2 0.2 0.6 0.0 T 0.0 0.4 0.6 0.4 1.0 C 0.2 0.2 0.2 0.0 0.0 G 0.0 0.2 0.0 0.0 0.0
-
s=a1a2amaj
|A|AAkAkA0-s