it - 関西学院大学tohhiro/bioinfo18/...blast random...

Post on 27-Mar-2021

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

バイオインフォマティクス第3回

藤 博幸

バイオインフォマティクス第3回

藤 博幸

BIO

IT

本日の講義内容

1.BLASTの原理2.データベース検索による予測の補足3.mafftのオプション4.その他

本日の講義内容

1.BLASTの原理2.データベース検索による予測の補足3.mafftのオプション4.その他

BLAST(BasicLocalAlignmentSearchTool)

(1)問い合わせ配列のwordへの分割

(2)生成されたwordの有限オートマトンによる表現

100101 100

(3)wordのヒットの部分からのギャップなしの拡張

BLASTgapなしのアラインメント

アラインメントスコア y

問い合せ配列の断片

配列データベース

E-value: 配列データベースの配列を、問い合せ配列と比較した時にy以上のスコアを有する類似性を示す配列の本数の期待値

P-value: 配列データベースの配列を、問い合せ配列と比較した時にy以上のスコアを有する類似性が見いだされる確率

いずれも小さい方が良い。E-valueが目安として使われることが多い。

E-value, P-valueの計算

S Y V T G P M N RT W Q T S K I I Y

0-1

BLASTrandomwalk0から出発し、ungappedalignemntの各サイトのアミノ酸対に対応するスコアを考え、それを加算していく。加算した結果が-1以下になったらrandomwalkは停止するものとする。

この時各サイトのアミノ酸対の出現頻度は、比較する2本の配列におけるアミノ酸の出現頻度の積で表されるものとする (BLASTの帰無仮説)。

(1) BLAST random walkの停止するまでに表れる最大値Y(↓)がy以上である確率はgeometric-like distribution となる。Prob(Y > y) ~ C exp(- λy)

(2) 問い合わせ配列の長さをN1, データベースから取り出した配列の長さをN2、BLAST random walkが停止するまでの平均のステップ数をAとする。すると、二つの配列を比較する際、n = (N1N2 )/A個程度のrandom walkが生じる。n個のrandom walkのいづれにおいても得られた最高スコアがy以上である確率は、順位統計に従い以下のように計算される。Prob(Y > y) = 1 - (1 - Cexp(-λ (y-1)))n = 1 - (1 - Cnexp(-λ (y -1))/n) n

= 1 - exp(-Cnexp(-λ (y -1))) = 1 - exp(-N1N2 Kexp (-λy ))

. .

ここで K = (C/A) exp(-λ)である。

(3) (2) で2本の配列を比較した時にy以上のスコアが得られる確率が計算された。次に、データベース中でy以上のスコアを有する配列の本数の期待値を求める。データベース中の配列のトータルの残基数をDとすると、長さのN2 配列がD / N2本含まれていると見なす事ができる。そのそれぞれが、確率1 - exp(-N1N2 Kexp (-λy ))でy以上のスコアを有するので、二項分布を考えE-value = ((1 - exp(-N1N2 Kexp (-λy )) D) / N2となる。

(4) 上記のy以上のスコアを有する配列の本数に関する二項分布は、E-valueを平均と分散としたポアソン分布で近似できるものとする。すると、y以上のスコアが得られる確率は、そのようなスコアを有する配列の本数が0本である確率を1から引くことで得られるので、P-value = 1 - exp(-E-value)として計算される。

※ 実際はedge effectに関する補正など、種々の補正が行われるので、必ずしも上の通りの計算ではない。また、複数のアラインメントについては、Karlin-Altschulのsum statisticが利用される。

より詳しくは添付の参考資料参照

オリジナルのBLASTはgapを扱えない検出配列はgapが入らない代わりに、断片化されてしまい出力が見づらい

Gapを導入できるように拡張されたgappedBASTが構築された

1)gapped-BLASTの手続き

Step 1: 有限オートマトン生成まではBLASTに同じStep 2: データベース中の各配列に次の操作を行う

2-1) 有限オートマトンによるhitを検出(これもBLASTに同じ)

2-2) 同じ対角線上で十分近接した2個のhitからungapped extensionによりHSPを求め、そこからseedを決定して両側にgapped extension を行う。

2-3) 有意性評価(E-value)をして出力

Two-Hits Strategy と Gapped Extension

(1) Two-hit induced ungapped extensionによるHSPの検出(1-1) hit検出(1-2) second hit (C末側で、距離がA残基以内の同じ対角線上)検出(1-3) second hitからungapped extensionによりHSP検出

(2) seedとなる残基対の同定(2-1) HSPが11残基対以上の時: HSP にそって11残基のセグメントのスコア を計算し、最大値を示すセグメントの中間をseedとする。

(2-2) HSPが11残基より短い時:中間の残基対をseedとする。

(3) gapped extension seedより両側に動的計画法によりgapped extensionを実行ただし、この時の動的計画法は、現在見ている残基対のスコアが、それ以前に達成された最高スコアからXg以下にならないように実行される。これは、ungapped extensionが、それ以前に達成された最高スコアからX以下にならないように実行されることに対応している。

Two-HitsStrategy 1

BLASTの各hitごとのungappedextensionは時間を要するので、その部分を短縮

同じ対角線上にある二つのhitとはFASTAでいう所の同じオフセット値を有するタプルに相当する。

Two-HitsStrategy 2

SecondhitからBLAST同様にungapped extensionを行い、HSPを求める

HSPが11残基以下の長さの時その中点の残基対をseedとする。

HSPが11残基対より長い時11残基対のウィンドウでスキャンし、最大スコアを示す領域を見つけその中点の残基対をseedとする。

Two-HitsStrategy 3

Seedとなる残基対

ここを出発点として両側にgappedextensionしてアラインメントを構築する。

gappedextension

Seedとなる残基対

seedより両側に動的計画法によりgapped extensionを実行

ただし、この時の動的計画法は、Smith & Waterman法ではない。

現在見ている残基対のスコアが、それ以前に達成された最高スコアからXg以下にならないように実行される。

これは、ungapped extensionが、それ以前に達成された最高スコアからX以下にならないように実行されることに対応している。

BLASTの統計評価 PSI-BLASTの統計評価

gapなしのアラインメント(HSP) gapのあるアラインメントのスコア のスコア

分布関数は理論的に導かれている BLASTの評価法をもとにシミュレーションなどにより

パラメータをフィットさせて使用

実用上は問題ないが、理論的にはgapのあるアラインメントの統計理論は不十分なものである。

データベース検索

問い合わせ配列

配列DB

問い合わせ配列に類似した配列を配列DBの中から検索

類似配列の中で、構造や機能既知のものがあれば、それらと同様の構造あるいは機能を有するものと推測

配列A

配列B(機能既知)

配列C

配列D(構造既知)

血小板由来成長因子(PDGF)

の配列決定

1. 発癌遺伝子 v-sis

配列データベース

SimianSarcomaVirus

v-sis gene

サル肉腫ウイルス

v-sis は、成長因子としての情報を送り続けることで癌化を引き起こす。

Secondarymessenger

GPCRs

Coupling withtrimeric G-protein

PeptidesAminesNucleic acids

α β

γ

G-proteinactivation

Conformationchange

Monomer function

GPCRs

• Membrane proteins• Bind neurotransmitters (physiologicallyactive peptides, amines, nucleic acids, etc).

• Ligand binding to GPCRs causes theirconformation changes.

• It leads to several signal transductionsconjugated with trimeric G-proteins.

GPCRs

• About1000genesinhumangenome• Targetfor~45%ofclinicallymarketeddrugs• Dividedinto5classesbasedonsequence similarity(ClassA-E,theother)

• AtomicallyresolvedstructureinclassAGPCR:BovineRhodopsin

既知のGPCRの配列

新規のGPCRの配列

既知のGPCRの配列

ゲノムにコードされているタンパク質との類似性を検索

創薬ターゲットとしての検討

ヒト・ゲノム

データベース

実例編

GPCR以外のターゲット探索の例

中外製薬(株)

中外分子医学研究所

ドラッグデザインのターゲットとしての

新規サイトカイン及び新規サイトカイン受容体

のゲノム配列、EST配列からの探索

「ゲノム創薬」 個別化医療とゲノムデータマイニング野村仁 著 サイエンス社 (2005)

本日の講義内容

1.BLASTの原理2.データベース検索による予測の補足3.mafftのオプション4.その他

(1) 類縁蛋白質の立体構造は保存される

ホモロジー・モデリングの根拠

進化的な関係が遠いもの(配列一致度が小さいもの)では、・二次構造の数や長さが大きく異なること・二次構造の相対的な配向や局所的なトポロジーは

異なることが多い。

相同な蛋白質では基本的なトポロジーは保存されている。SCOPやCATH (構造分類データベース)におけるFamily, Superfamilyの分類の基準

Δ=0.40 exp(1.87H)Δ:common core 主鎖の重ねあわせのRMSDH:配列の相違度

Hが小さい時:表面のみの変化Hが大きい時:表面と内部の変化

内部の変化は表面に比べ大きな構造変化をもたらす

アミノ酸配列では類似性が検出できないほどアミノ酸置換が蓄積された遠い進化的関係にあるタンパク質でも、立体構造は保存されている場合が多い

分子進化の経験則 (例外もある)

立体構造未知のアミノ酸配列

立体構造既知の蛋白質

配列類似性

Homology Modeling

(2) 相同タンパク質の機能(生化学的機能)は基本的に保存される。

Thornton JM et al. (1999) J. Mol. Biol. 293, 333-342.

シングル・ドメインとマルチドメインに分類し、酵素活性の保存を調査

シングル・ドメインの酵素の場合:○ 配列一致度が40%以上:EC番号の最初の3つはほぼ完全に保存

EC番号の4番目の数字が変わっていることも稀○配列一致度が30%レベル:EC番号の最初の3つは95%保存○ 配列一致度が30%以下:EC番号の保存はきわめて悪くなる。

シングル・ドメインとマルチドメインの両方のタンパク質を含む場合:○ 配列一致度40%以上:EC番号の保存はシングル・ドメインのケースと同様○ 配列一致度が30%レベル:EC番号の最初の3つは90%保存

どちらの解析においても:配列一致度30%以下では、酵素/非酵素のペアが多く観察された。

本日の講義内容

1.BLASTの原理2.データベース検索による予測の補足3.mafftのオプション4.その他

MAFFTによるマルチプルアラインメント

mafftは宮田研究室で開発され、加藤和貴によって継続的に開発されているマルチプルアラインメントのフリーソフトウェア

海外の多くの研究機関で利用されている。

Web上でのアラインメントサービスに加え、ダウンロードして自身のPC上で利用できる。Mac,Windows,Linuxなど様々なOSに対応している

ここでは、既に関西学院大学の計算システム(Windows環境)にインストールされているmafftを利用する。

Mafftを起動する

1左下 スタート をクリック

2.検索ウィンドウにmafftと入力上部にmafftのインストール場所が表示される。このmafftのアイコンをクリック

1.このウィンドウにmafftと入力

2.表示されたmafftをクリック

3.mafftの入力画面がたちあがる。

Input file? (fasta format)@ ここに入力ファイルを記入(次のようにする)

4.入力ファイルを指定するために、multi-fasta formatのファイルが置かれたDirectoryを表示する。(ここからはWindowsOS上での処理)左下のスタートをクリックし、出て来たパネル左上のドキュメントを選択

ドキュメントを選択

ファイルがドキュメントフォルダにある場合

5.ドキュメントdirectoryが表示される。Directoryからmafftのウィンドウにファイルをドラッグすると、ファイル名が入力される。ファイル名が入力されたらenterキーをおす。

Fasta formatの入力ファイルのアイコンをmafftの入力画面にドラッグする

6.Outputすなわち、アラインメントを出力するファイル名を聞かれる、入力ファイル名を参考にZドライブ上のファイル(新規でも既存の者でも良い)を指定しEnterキーをおす。出力オプションを聞いてくるので2を指定する。Clustal形式/Fasta形式 SortedOrder/InputOrder説明はアラインメントを見ながら

1. 入力ファイルがZ:¥ファイル名の形で記入される

エンターキーをおす

2. Output file?@

とアラインメントの出力ファイルを聞いてくるのでZ:¥ファイル名としてドキュメントフォルダのファイル名を持つファイルに保存するようにしてエンターキーをおす

3.6つのアウトプット形式が出力される

6つ出力形式

1 Clustal format/ Sorted2 Clustal format / Input order3 Fasta format / Sorted4 Fasta format / Input Order5 Phylip format / Sorted6 Phylip format / Input Order

Clustal と Fastaは説明済みPhylipは系統解析の際に説明

Sortedと InputOrder

入力ファイル fasta format>配列1atgccttgcccaccgctg…>配列2atgggttgggcacccctg…>配列3atgcgttggccaccgctg…>配列4atgccctggcccccgctc…

Guide-treeは次のようになっているとする

配列1配列4配列2 配列3

Sorted

InputOrder

配列1 ATGCCTTGCC配列4 ATGCCCTGGC配列2 ATGGGTTGG配列3 ATGCGTTGGCA

配列1 ATGCCTTGCC配列2 ATGGGTTGG配列3 ATGCGTTGGCA配列4 ATGCCCTGGC

7.アラインメントのオプションを聞いてくる。1の—autoオプションを指定してenterautoオプション 小規模データ丁寧に、大規模データそれなりにアライン

アラインメントのオプションを聞いてくる(正確さ優先か、速度優先か)。1の—autoオプションを指定してenterautoオプション 小規模データ丁寧に、大規模データそれなりにアライン

t7

8.指定したファイルやオプションを、コマンドライン形式で確認してくる問題なければ Yを入力してenter

(前ページのウィンドウを拡大)

9.ウィンドウ中に、出力が表示(END)が表示された時点で、出力ファイルに書き込まれている。

(前ページのウィンドウを拡大)

本日の講義内容

1.BLASTの原理2.データベース検索による予測の補足3.mafftのオプション4.その他

スコア・テーブル PAM250 アミノ酸の置換頻度から構築GASTPLIMVDNEQFYWKRHC

G5A12S112T0113P-11106L-4-2-3-2-36I-3-1-10-225M-3-1-2-1-2426V-10-10-12424D1000-1-4-2-3-24N0010-1-3-2-2-222E0000-1-3-2-2-2314Q-10-1-10-2-2-1-22124F-5-4-3-3-5210-1-6-4-5-59Y-5-3-3-3-5-1-1-2-2-4-2-4-4710W-7-6-2-5-6-2-5-4-6-7-4-7-50017K-2-100-1-3-20-20101-5-4-35R-3-20-10-3-20-2-10-11-4-4236H-2-1-1-10-2-2-2-21213-20-3026C-3-20-2-3-6-2-5-2-5-4-5-5-40-8-5-4-312

(1) G,A,S, T, P: small hydrophilic residues(2) L, I, M, V: hydrophobic residues(3) D, N, E, Q: nagatively charged residues and the relatives(4) F, Y, W: aromatic residues(5) K, R, H: positively charged residues(6) C: Cys

大きな数字置換しやすい

小さい数字置換しにくい

アスパラギン酸 グルタミン酸 システイン チロシン

リジン アルギニン ヒスチジン

セリン

スレオニン

アスパラギン

グルタミン

グリシン アラニン バリン ロイシン イソロイシン

メチオニン プロリン フェニルアラニン トリプトファン

アミノ酸は”大文字”で表記する

アミノ酸

C

H

HN

H

R

OH

O

C

側鎖

カルボキシル基アミノ基

基本構造

主鎖

Arg (R)

Glu (E)Asp (D)

Thr (T)

Cys (C) Ser (S)

Lys (K)

Met (M)

His (H)

Phe (F)Pro (P) Trp (W)

Ala (A)Gly (G) Leu (L) Ile (I)Val (V)

Tyr (Y)

Gln (Q)

Asn (N)

親水性アミノ酸

解離性アミノ酸

疎水性アミノ酸

GASTPG5A12S112T0113P-11106

GASTPL-4-2-3-2-3I-3-1-10-2M-3-1-2-1-2V-10-10-1

GASTPD1000-1N0010-1E0000-1Q-10-1-10

GASTPF-5-4-3-3-5Y-5-3-3-3-5W-7-6-2-5-6

GASTPK-2-100-1R-3-20-10H-2-1-1-10

GASTPC-3-20-2-3

LIMVL6I 25M426V 2424

LIMVD -4-2-3-2N -3-2-2-2E-3-2-2-2Q-2-2-1-2

LIMVF 210-1Y-1-1-2-2W-2-5-4-6

LIMVK-3-20-2R-3-20-2H-2-2-2-2

LIMVC-6-2-5-2

DNEQD4N22E314Q 2124

DNEQF-6-4-5-5Y-4-2-4-4W-7-4-7-5

DNEQK0101R-10-11H1213

DNEQC-5-4-5-5

FYWF9Y710W0017

FYWK-5-4-3R-4-42H-20-3

FYWC-40-8

KRHK5R36H026

KRHC -5-4-3

CC12

塩基配列の場合のスコア

BLASTの場合は、塩基が一致する時は 1

不一致の時は -3がデフォルト

A T G CA 1 -3 -3 -3T -3 1 -3 -3G -3 -3 1 -3C -3 -3 -3 1

点数 (4)100-90 (3)89-80 (2)79-70 (1)69-60

達成目標 (3)に加え、mafftのオ

プション、スコアマトリクスについて説明できる

(2)に加え、

何故構図や機能の予測にデータベース検索が有効かを説明できる。

(1)に加え、

データベース検索の意味を具体例を挙げて説明できる

BLASTの処

理を説明できる

top related