バイオインフォマティクス - sakakibara lab · バイオインフォマティクス...

34
バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

Upload: phambao

Post on 04-Aug-2018

234 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

バイオインフォマティクス(第3回)

慶應義塾大学生命情報学科

榊原康文

Page 2: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

アセンブリの演習問題 (解)

CGTCCGT--------

--TCCGTAT------

-----GTATC-----

-------ATCCAT--

----------CATCG

===============

CGTCCGTATCCATCG

14

2 3

CGTCCGT

TCCGTAT

ATCCAT

GTATC4

2

5

CATCG

32

1 3

2

5

2

1

1

1

Page 3: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

配列解析(ペアワイズアライメント)

① ペアワイズアライメント

② 最長共通部分配列(LCS)

③ 大域アライメント,局所アライメント

④ スコア行列(置換行列)

Page 4: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

相同性検索(アライメント)の威力

サル肉腫ウイルスのがん遺伝子シス(sis)とヒトの血小板

由来増殖因子(PDGF)のアミノ酸配列が一致している

(そっくりである)ことが発見された (1983)

(「がん遺伝子の発見」,中公新書)

sis : simian sarcoma virus

この発見は2つの意味において驚きをもって迎えられた

① がん遺伝子が正常な細胞の増殖・分化や個体発生を

司る遺伝子とほとんど同じものであることが初めて具体

的に明らかにされた (がん遺伝子と増殖因子が結び

ついた)

② その発見が試験管の中の実験ではなく,コンピュータに

よるホモロジー検索の結果得られた

Page 5: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

相同性検索

Doolittleによるがん遺伝子の発見

Doolittleがそれまでに構築してきたデータベース

相同性検索プログラム

総当りの仕事もいとわないコンピュータ

BLASTによるデータベース検索

ゲノムデータベース

入力配列■DNA配列■アミノ酸配列

類似遺伝子

アノテーション

Page 6: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

相同性検索(アライメント)の威力(2)

P16タンパク質遺伝子:

① サイクリン依存性キナーゼ4(CDK4,細胞増殖促進)の阻害因子

② 実は,がん抑制遺伝子の一つ

③ 発見の過程において,GENBANKと相同性検索が威力を発揮 (1994)

① (ミリアッド・ジェネティクス社のカムは)メラノーマと呼ばれる皮膚がんの組織から,ある遺伝子を実験によって同定していた

② しかし,その遺伝子の正体がわからなかったために,頻繁にGENBANK上で相同性検索を行う

③ ある日,GENBANKに最近登録されたp16遺伝子と皮膚

がん遺伝子の相同性が非常に高いことを検索から発見し,その正体を突き止めた

(「がん遺伝子を追う」,朝日新聞社)

Page 7: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

アライメントからわかること

① 配列と配列がもつ情報との関係が十分に解明されていない

ため,1本の配列だけから生物学的な情報を抽出することは

困難 ⇒ 配列を比較する

② 生物配列は進化によりダイナミックに変化する:

点突然変異(置換,挿入,欠失)

③ 未知の遺伝子配列に類似である,機能が既知の遺伝子を検

索する ⇒ 遺伝子機能の推定

④ ゲノム配列中に既知の遺伝子配列と相同な領域を発見する

⇒ ゲノム配列からの遺伝子の発見

⑤ 生物種間の共通遺伝子の配列をアライメントにより比べるこ

とにより,配列間の進化的な関係を計算

⇒ 分子進化系統の推定

Page 8: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

最適なアライメントを求める

① 与えられたスコア(置換度)に関して,最適なア

ライメントを求める高速なアルゴリズム

② 数学的に最適なアライメントが,生物的に真に

最適なアライメントになるためのスコア行列

生物的に最適な配列数学的に最適な配列

問い合わせ配列

高速なアルゴリズムスコア行列

Page 9: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

配列のアライメント

2つのDNA配列に対して,適切な位置にギャップ記号を挿入

することで,配列中の同じ位置に同じ塩基(あるいは性質が

良く似た塩基)が並ぶようにする操作

GAGGTTATCAAAAGCTACTAGTCCA

GAGGATAACAAGGCTACTATCACA入力:

GAGGTTATCAA-AA-GCTACTAGTC-CA

GAGG--AT-AACAAGGCTACTA-TCACA

**** ** ** ** ******* ** **

出力:

Page 10: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGMVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLG**********************************************************************

タンパク質のアライメントの例ヘモグロビンのアミノ酸配列のアラメント:

AFSDGLAHLDNLKGTFATLSELHCDKLHVDPENF-RLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVAAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFK-LLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVA********************************** **********************************

NALAHKYHNALAHKYH********

MV-HL--TPEEK-SAV-TALW-GKVN--VDEVGGEALGRLLVVYPWTQRFF-ESFGDLS-TP-DAVMGNP-VQ-LSG--EEKA-AVL-ALWD-KVNEE--EVGGEALGRLLVVYPWTQRFFD-SFGDLSN-PG-AVMGNP* * *** ** *** *** ********************* ****** * ******

KVKAHGKKVL---G-AFSDG--LAHLDNLKGTF-ATLSELHCDKLHVDPENFRLLGNVL-VCVLA-HHFGKVKAHGKKVLHSFGE----GVH--HLDNLKGTFAA-LSELHCDKLHVDPENFRLLGNVLVV-VLAR-HFG********** * * ********* * *********************** * *** ***

K-EFTP--PVQA-AYQKVVAGVANALAHKYHKD-FTPEL--QAS-YQKVVAGVANALAHKYH* *** ** *****************

ヒトと馬:

ヒトとゴリラ:

Page 11: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

大域アライメント計算の例題

2つの例題配列: AGCGTAG, GTCAGA

置換度(置換スコア)とギャップスコア:

アライメント:

AG-C-GTAG

-GTCAG-A-* * * *

スコア:0+1+0+1+0+1+0+1+0 = 4

AGCGTAG-

GTC--AGA* **

スコア:(-1)+(-1)+1+0+0+1+1+0 = 1

AGCGTAG

GTCAGA-* *

スコア:(-1)+(-1)+1+(-1)+(-1)+1+0 = -2

Page 12: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

大域アライメントの数

最長共通部分配列(LCS):

2本の配列に共通な部分配列で最長のもの

大域アライメントの数(ギャップ挿入の場合):

長さ n の2本の配列に対して:

nnn

n

n

n n

22

)!)(!(

)!2(2

GAGGTTATCAAAAG

GAGGATAACAAGGC

G・G・T・T・C・A・G

G・A・A・T・A・C・A

k個取ってくる

knC

knCnn

n

k

knkn CCC 2

1

Page 13: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

動的計画法(アルゴリズム)

動的計画法(dynamic programming, DP)は,

計算機による配列解析の中核である

どのような場合に,DPは適用できるか?

① Optimal substructure:

全体の問題に対する最適解は,その中に部分問題に対する

最適解を含んでいる

② Overlapping subproblems:

部分問題の空間が十分小さい

異なる部分問題の数は,入力サイズの多項式くらいの大きさ

DPは,各部分問題を一度だけ解き,テーブルに確保して,

必要になった時に参照する

Page 14: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

大域アライメントアルゴリズム

① (Needleman-Wunsch)アルゴリズムの基本的アイデア:

より小さな部分配列の最適アライメントを一つ前の解として,

最適なアライメントを次々と組み上げていく

② Optimal substructure of LCS:

とするのとを

を入力列

LCS

,

21

2121

YXzzzZ

yyyYxxxX

k

nm

LCS (1) 111 のとはかつであり,ならば, nmknmknm YXZyxzyx

LCS (2) 1 のとはのとき,ならば, YXZxzyx mmknm

LCS (3) 1のとはのとき,ならば, nnknm YXZyzyx

Page 15: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

動的計画法の例題:石取りゲーム

n個の石の山

ゲームのルール:

①プレイヤーは二人で,交互に山から石をとる

②片方の山から1つ,もしくは両方の山から1つずつ石を

取ることができる

③最後に石を取った方が勝ち

m個の石の山

Page 16: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

動的計画法の例題:石取りゲーム

0 1 2 3 4 5 6 7 8 9 10

0 W

1 W W

2

3

4

5

6

7

8

9

10

W:先手が勝つ L:先手が負ける

m:石の数

n:石の数

Page 17: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

大域アライメントアルゴリズム

① を と の最適アライメントのスコア

② 初期化:

③ 再帰式:

④ が と の最適アライメントの値

⑤ アライメントを求めるには, から に至ったパス

を からトレースバック

),( jiF ixxx 21 jyyy 21

djjFdiiFF ) ,0( ,)0 ,( ,0)0 ,0(

はギャップペナルティd

djiF

djiF

yxsjiF

jiF

ji

)1,(

),1(

),()1,1(

max) ,(

),( nmF X Y

),( nmF)0 ,0(F

),( nmF

Page 18: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

i 0 1 2 3 4 5 6

j G T C A G A

0

1 A

2 G

3 C

4 G

5 T

6 A

7 G

0 0 0 0 0 0 0

0 0 0 1 1 1

1 1 1 1 2 2

1 1 2 2 2 2

1 1 2 2 3

0

0

0

0

0

0

0

3

1 2 2 2 3 3

1 2 2 3 3 4

1 2 2 3 4 4

置換スコア: ギャップスコア

Page 19: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

i 0 1 2 3 4 5 6

j G T C A G A

0 0 0 0 0 0 0 0

1 A 0 0 0 0 1 1 1

2 G 0 1 1 1 1 2 2

3 C 0 1 1 2 2 2 2

4 G 0 1 1 2 2 3 3

5 T 0 1 2 2 2 3 3

6 A 0 1 2 2 3 3 4

7 G 0 1 2 2 3 4 4

G

G

G

G

C

C

A

A

-GTCAG-A-AG-C-GTAG

Page 20: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

局所アライメントアルゴリズム

① と の部分配列間の最適なアライメント

② 共通のドメインの発見など

③ Smith-Waterman アルゴリズム

④ 初期化:

⑤ 再帰式:

⑥ 最大スコア を行列中から探索し,そこから 0 が格納

されたセルに到達するまでトレースバック

0) ,0( ,0)0 ,( ,0)0 ,0( jFiFF

djiF

djiF

yxsjiFjiF

ji

)1,(

),1(

),()1,1(

0

max) ,(

X Y

),( jiF

Page 21: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

局所アライメントアルゴリズム

Page 22: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

参考:大域アライメントアルゴリズム

Page 23: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

スコア行列

① スコア行列(置換行列)の精度は,アライメントの

精度に影響

アミノ酸配列の場合,進化過程における相対的な置換

のしやすさを反映

塩基(DNA)配列の場合,マッチ+1,アンマッチ0と

いった簡単なスコア

② 信頼できる既存のアライメントから統計的手法に

よりスコア行列を導出

PAM行列(Dayhoffのアミノ酸置換行列)

BLOSUM行列(ブロックアミノ酸置換行列)

Page 24: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

スコア行列

① PAM行列(Dayhoffのアミノ酸置換行列)

先祖の共通のタンパク質ファミリから多数のタンパク質を集め,置換

の頻度を調べて分子進化学的に求めた.アミノ酸配列で100残基あ

たり1個の突然変異が起きるという進化上の時間の単位PAMを導入.

1PAMの間にアミノ酸 iがアミノ酸 jに置換される頻度を求める.

② BLOSUM行列(ブロックアミノ酸置換行列)

より新しいデータのアライメントからアミノ酸変異の統計データを獲得.

BLOSUM50, BLOSUM62, BLOSUM80, など.

小さい数字の行列は進化的に遠縁の配列の比較に,大きい数字の行列は近縁の配列の比較に,不明の場合にはBLOSUM62を推奨

BLOSUM50はギャップあり,BLOSUM62はギャップなしで利用

BLASTなどで利用.

Page 25: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

CLUSTALWに

おけるBLOSUMスコア行列

Page 26: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

参考:BLOSUM50スコア行列

Page 27: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

スコア行列の導出

① 頻度の比の対数をスコアとする

ba

ab

qq

pbas log) ,(

:文字 aが独立に起こる確率(頻度)aq

:文字 a と bがアラインされたペアとして起こる確率

(a と bが共通の祖先から分岐してきた確率と考える)

abp

a

b

文字のペア a と bが,偶然に“対”になるのに比べて,どれだけ本当に“対”になる確率が大きいかを示したもの

対数を取ることにより,加法性をもつスコアリングシステムを得る

Page 28: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

スコア行列の導出

② BLOSUM“L” 行列の求め方:

– 既存の多くの配列のアライメントを求め,ギャップ無しの領

域(ブロック)を集める

– 残基が L %以上一致しているものを同一クラスタに集める

– あるクラスタの残基 a が別のクラスタの残基 b にアライメン

トされる確率 pab を計算 (ただし,各クラスタの大きさで

割った重みをつける)

– ある残基 a が独立に起こる確率 qa を計算

– s(a,b)=log(pab/qaqb) を計算して,スケーリングして,近傍の

整数値に丸める

Page 29: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

BLOSUM “75” の導出

① タンパク質ファミリごとのマルチプルアライメントから

ブロックを取り出す

– ブロックとは,良く保存されたギャップを含まないアライメントの領域

② ブロック内の配列の偏りを取り除くために,一致度が75%以上の配列をひとつにまとめる

block 1 block 2

BABA

BABC

AACC

CBB

CBB

ABC

AAC1クラスタ

Page 30: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

BLOSUM75の導出

③ ブロックからアミノ酸残基の出現確率(頻度)を数える

アミノ酸 出現確率 qa

A

B

C17

2/11

17

2

34

17

5

17

2

81

17

2/13

17

2

35

block 1 block 2

BABA

BABC

AACC

CBB

CBB

ABC

AAC

Page 31: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

BLOSUM75の導出④ ブロックからアライメントされたアミノ酸残基ペアの出現確率と

その2つの残基が独立に同時に出現する確率を計算する

残基ペアペア出現確率

A to A

A to B

A to C

B to B

B to C

C to C13

2/3

13

3

13

1

13

22/1

13

2/5

13

3

3334

2

13

2

block 1 block 2

BABA

BABC

AACC

CBB

CBB

ABC

AAC

独立同時確率

17

2/11

17

2/11

17

2/11

17

52

17

5

17

5

17

2/11

17

2/132

17

5

17

2/132

17

2/13

17

2/13

A

B

B

A

対になる

2通りの場合

pab qaqb

Page 32: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

BLOSUM75の導出⑤ 対数尤度を計算し,さらにスケーリング(ここでは,2倍して

ハーフビットに)して,近傍の整数値に丸める

残基ペア ペア確率

A to A

A to B

A to C

B to B

B to C

C to C13

2/3

13

3

13

1

13

2/5

13

3

13

2

同時確率

289

4/121

289

55

289

25

289

2/143

289

65

289

4/169

log2 2同時確率

ペアの出現頻度 スコア行列

28.0

56.0

34.0

73.0

07.0

15.0

0

1

0

1

0

0

Page 33: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

アライメントに対するスコアの考え方

アミノ酸配列のアライメントスコアの問題点:

① それぞれのアミノ酸のペアに対する出現頻度の比の対数

の考え方は問題なし

② 進化的にまったく類縁関係にないアミノ酸配列のペアに対

してもスコア(正の値)は計算される(例えば,ランダム配列

のアライメントスコアは,平均50~60位の値になる)

③ このスコアは,位置特異的なスコアでない

④ アライメントのスコアは,長さに依存する傾向(より長い配

列ほどアライメントのスコアは高くなる傾向)がある

Page 34: バイオインフォマティクス - Sakakibara Lab · バイオインフォマティクス (第3回) 慶應義塾大学生命情報学科 榊原康文

i 0 1 2 3 4 5 6 7 8

j

0

1

2

3

4

5

6

7

局所アライメント演習問題 学籍番号: 名前:

局所アライメント: