生命情報科学実習・系統樹の作成 - kobe...

4
生命情報科学実習・系統樹の作成 遺伝子指定する塩基配列は,一定の確率で変異が起こる.例えば, 3 種において,α(以下 HBA)指定する塩基配列に着目しよう.進化の過 程でとが分岐するよりはるか昔に,爬虫類とその他両生類が分岐したはずだ.すなち,同 HBA 指定する塩基配列であっても,ととの差は,ととの差より も非常に小さいと考えられる.この性質利用すれば,様々な種同士で HBA の塩基配列比較し,その差の大 小考察することにより,生物の系統樹が描けるはずである. 今回扱うのは,HBA mRNA の鋳型となる DNA 配列である.この mRNA は,実は全てが翻訳されるけ ではない. 1. 塩基配列同士の距離を求める まずは,2 つの塩基配列がどれだけ離れているか,すなち塩基配列同士の距離定義しよう(下記のように 定義される距離のこと特に距離という). 定義: ある塩基配列”X1X2…Xi-1XiXi+1…XN-1XN”があったとき,塩基 Xi を除去して”X1X2…Xi-1Xi+1…XN-1XN”と する操作を削除という.また,塩基 Xi を塩基 Y に取り替えて”X1X2…Xi-1YXi+1…XN-1XN”とする操作を置換 という.塩基 Y を付け加えて”X1X2…Xi-1XiYXi+1…XN-1XN”とする操作を挿入という(先頭もしくは末尾に 付け加える操作も同様に挿入という).削除・置換・挿入やその繰り返しを編集という. 塩基配列 P に削除を d 回,置換を s 回,挿入を i 回繰り返せば塩基配列 Q が得られるとする.d+s+i の最小 値を塩基配列 P と塩基配列 Q の距離という. 例: 塩基配列 P が”ATTGACT”,塩基配列 Q が”TCGACAT”のとき,”ATTGACT→(削除)”TTGACT(置換)”TCGACT(挿入)”TCGACATという手順で塩基配列 P から Q が得られる.したがって, P Q の距離は 3 である. それでは,塩基配列同士の距離は具体的にどう求めればよいだうか.次の定理活用しよう. 定理: ある塩基配列 P’:”X1XM-1”と塩基配列 Q’:”Y1YN-1”の距離が ds,塩基配列 P:”X1XM-1XM”と塩基配 Q’:”Y1YN-1”の距離が dd,塩基配列 P’:”X1XM-1”と塩基配列 Q:”Y1YN-1YN”の距離が di である とする.このとき,塩基配列 P:”X1XM-1XM”と塩基配列 Q:”Y1…YN-1YN”との距離は,XM = YN のとき ds, dd+1, di+1 の中で最も小さいものである.XM YN のときは,ds+1, dd+1, di+1 の中で最も 小さいものである. 解説: 配列 P と配列 Q の距離は,明らかに「『配列 P’配列 Q’に編集する距離』と『XM YN であれば末尾の置換 に伴う 1XM = YN であれば 0』の和」,「『配列 P 配列 Q’に編集する距離』と『末尾に YN 挿入して配列

Upload: others

Post on 15-Sep-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

生命情報科学実習・系統樹の作成

遺伝子を指定する塩基配列は,一定の確率で変異が起こる.例えば,ヒト・チンパンジー・アフリカツメガエルの 3 種において,ヘモグロビンαサブユニット(以下 HBA)を指定する塩基配列に着目しよう.進化の過程でヒトとチンパンジーが分岐するよりはるか昔に,爬虫類とその他両生類が分岐したはずだ.すなわち,同じ HBA を指定する塩基配列であっても,ヒトとチンパンジーとの差は,ヒトとアフリカツメガエルとの差よりも非常に小さいと考えられる.この性質を利用すれば,様々な種同士で HBA の塩基配列を比較し,その差の大小を考察することにより,生物の系統樹が描けるはずである.

※ 今回扱うのは,HBA の mRNA の鋳型となる DNA 配列である.この mRNA は,実は全てが翻訳されるわけではない.

1. 塩基配列同士の距離を求める

まずは,2 つの塩基配列がどれだけ離れているか,すなわち塩基配列同士の距離を定義しよう(下記のように定義される距離のことを特にレーベンシュタイン距離という).

定義:

ある塩基配列”X1X2…Xi-1XiXi+1…XN-1XN”があったとき,塩基 Xiを除去して”X1X2…Xi-1Xi+1…XN-1XN”とする操作を削除という.また,塩基 Xiを塩基 Yに取り替えて”X1X2…Xi-1YXi+1…XN-1XN”とする操作を置換という.塩基 Yを付け加えて”X1X2…Xi-1XiYXi+1…XN-1XN”とする操作を挿入という(先頭もしくは末尾に付け加える操作も同様に挿入という).削除・置換・挿入やその繰り返しを編集という. 塩基配列 Pに削除を d回,置換を s回,挿入を i回繰り返せば塩基配列 Qが得られるとする.d+s+iの最小値を塩基配列 Pと塩基配列 Qの距離という.

例:

塩基配列 Pが”ATTGACT”,塩基配列 Qが”TCGACAT”のとき,”ATTGACT” →(削除)”TTGACT” → (置換)”TCGACT” → (挿入)”TCGACAT” という手順で塩基配列 Pから Qが得られる.したがって,Pと Qの距離は 3である.

それでは,塩基配列同士の距離は具体的にどう求めればよいだろうか.次の定理を活用しよう.

定理:

ある塩基配列 P’:”X1…XM-1”と塩基配列 Q’:”Y1…YN-1”の距離が ds,塩基配列 P:”X1…XM-1XM”と塩基配列 Q’:”Y1…YN-1”の距離が dd,塩基配列 P’:”X1…XM-1”と塩基配列 Q:”Y1…YN-1YN”の距離が diであるとする.このとき,塩基配列 P:”X1…XM-1XM”と塩基配列 Q:”Y1…YN-1YN”との距離は,XM = YNのときは ds, dd+1, di+1の中で最も小さいものである.XM ≠ YNのときは,ds+1, dd+1, di+1の中で最も小さいものである.

解説:

配列 P と配列 Q の距離は,明らかに「『配列 P’を配列 Q’に編集する距離』と『XM ≠ YNであれば末尾の置換に伴う 1,XM = YNであれば 0』の和」,「『配列 P を配列 Q’に編集する距離』と『末尾に YNを挿入して配列

Q を作ることに伴う 1』の和」,「『配列 P から末尾の XMを削除することに伴う 1』と『配列 P’を配列 Q に編集する距離』の和」の最小値である.

上記定理より,配列 P と配列 Q の距離を知りたければ,配列 P’と Q’,P と Q’,P’と Q の距離が分かっていればよいことが分かる.例えば,上記の例において,本当に距離が 3 であるのか,確かめてみよう.

例:

まず,下記のような表を書いてみる.各欄がそれぞれの塩基配列同士の距離を表す.

A AT ATT ATTG ATTGA ATTGAC ATTGACT

T

TC

TCG

TCGA

TCGAC

TCGACA

TCGACAT

空の塩基配列””と塩基配列”X1…Xm”との距離は明らかに mに等しいため,まずその部分の欄を埋める.

A AT ATT ATTG ATTGA ATTGAC ATTGACT

0 1 2 3 4 5 6 7

T 1

TC 2

TCG 3 ︙

次に,上表斜線欄を考察する.末尾の塩基は A ≠ Tなので,定理にしたがい,上表網掛部に 1 を足したものの中で最小のもの,すなわち 1 となる.

A AT ATT ATTG ATTGA ATTGAC ATTGACT

0 1 2 3 4 5 6 7

T 1 1

TC 2

TCG 3 ︙

次に,斜線欄を同様に埋める.左下の斜線欄は末尾の塩基が C ≠ Aなので,同様に距離が 2 となる.右上の斜線欄は末尾の塩基が T = Tなので,距離は増加せずに 1 となる.この結果を下表にまとめる.

A AT ATT ATTG ATTGA ATTGAC ATTGACT

0 1 2 3 4 5 6 7

T 1 1 1

TC 2 2

TCG 3 ︙

同様に表を最後まで埋めると,次のようになる.

A AT ATT ATTG ATTGA ATTGAC ATTGACT

0 1 2 3 4 5 6 7

T 1 1 1 2 3 4 5 6

TC 2 2 2 2 3 4 4 5

TCG 3 3 3 3 2 3 4 5

TCGA 4 3 4 4 3 2 3 4

TCGAC 5 5 4 5 4 3 2 3

TCGACA 6 5 5 5 5 4 3 3

TCGACAT 7 6 5 5 6 5 4 3

この距離の計算を手作業で行うのは大変骨が折れる.そこで,単純な計算を大量に行うことが得意な,コンピュータに計算を任せてしまおう.

演習:配布された Excel シートを編集し,塩基配列間の距離を求めるシートを作成せよ.

2. 距離に基づき系統樹を描く

前節で作ったシートを活用することにより,塩基配列間の距離を求めることが可能になる.

演習:上記シートを用いて,与えられた種間の全ての組み合わせの距離を求めよ.

これを基に系統樹を書いてみよう.距離から系統樹を書くにはいくつかのアルゴリズム(問題を解くための定まった手順)があるが,今回はそのうち最も簡単な「最短距離法」とよばれるものを採用することにする.

アルゴリズムの概略:

種 1, 2, … nについて,種 iと種 jの配列の距離を dijとする(dij=dji).dijが最小である(i,j)の組み合わせを(p,q)としたとき,種 pと種 qが最も新しく分岐したと考える.次に dijを最小とする組み合わせが(i,j) =

(r,s)であるとき,種 rと種 sが次に新しく分岐したと考える.ただし,例えば rが pもしくは qと一致する場合,種 pと種 qの共通祖先と種 sが次に新しく分岐したと考える.また,種 rもしくはその共通祖先および種 sもしくはその共通祖先の分岐を既に考えてしまっている場合,何もしない.以下同様に全ての系統樹が描けるまで順番に dijを調べる.

例:

例えば,A, B, C, D, E の 5 つの種について,各々の HBA の塩基配列の距離が下記の表で表されたとする.

A B C D E

A 103 54 231 226

B 125 236 254

C 215 231

D 18

E

※縦 A 横 A の欄はゼロ,縦 A 横 B の欄は縦 B 横 A に等しい.同様に自明なものは敢えて表記していない.

この表の中で最小になるのは D, E の組み合わせだ.したがってこの 2 つが最初に分岐した.この次に最小となるのは A, C なので,次に分岐するのはこれらである.

その次に小さくなるのは A と B である.したがって,「A, C の共通祖先」と B が次に分岐した.この次に最小となるのは C と B なので,この分岐は既に考慮済みである.

同様に最後まで距離を調べると,下記の系統樹が描ける.

演習:与えられた種間の系統樹を描け.

問題:現在の学説での系統樹を調べよ.今回描いた系統樹との違いはどうなっているか.また違いはなぜ生じたか.

[[[A,C],B],[D,E]]

[D,E]

ED

[[A,C],B]

B[A,C]

CA