ホモロジー検索演習 (fasta, blast)

46
ホホホホホホホホホ (FASTA, BLAST)

Upload: zandra

Post on 12-Jan-2016

83 views

Category:

Documents


1 download

DESCRIPTION

ホモロジー検索演習 (FASTA, BLAST). 遺伝子の生体内での働き(機能)を予測する. ・ 個々の遺伝子配列の決定 ・ 全ゲノム配列解析による膨大な量の遺伝子配列の決定. 様々なデータベースを用いる (統合化データベース). 生体内での働き(機能)を推測する. 遺伝子の機能予測. 機能が似ている. 塩基配列(遺伝子)が似ている. タンパク質の立体構造が似ている. アミノ酸の配列が似ている. 配列が似ていれば機能も似ている. 配列の類似度の計算. データベースに対するホモロジー検索. ペアワイズ アライメント. 問い合わせ配列. データベース. - PowerPoint PPT Presentation

TRANSCRIPT

ホモロジー検索演習(FASTA, BLAST)

遺伝子の生体内での働き(機能)を予測する

・ 個々の遺伝子配列の決定

・ 全ゲノム配列解析による膨大な量の遺伝子配列の決定

生体内での働き(機能)を推測する

様々なデータベースを用いる(統合化データベース)

機能が似ている

配列の類似度の計算

タンパク質の立体構造が似ている

塩基配列(遺伝子)が似ている

アミノ酸の配列が似ている

配列が似ていれば機能も似ている

遺伝子の機能予測

問い合わせ配列

ペアワイズアライメント データベース

機能が既知な遺伝子やタンパク質の配列機能が未知の配列

 類似した配列をデータベースから検索することにより,問い合わせ配列の機能を予測する.

Genbank, SWISS-PROT, PIR等

データベースに対するホモロジー検索

例)実験で得た配列

BLAST, FASTASSEARCH

ギャップ(挿入、欠失)を用いて類似度(スコア)が最大になるように配列を並べ替える方法

塩基配列

A, T, G, C4文字の一致度を計算

配列1  TACG配列2  TTAG配列1と配列2の間の類似度を知りたい

ペアワイズアライメント(1)

T

T

(拡大図)-1

-1

同一文字:1異なる文字: - 1

配列1   TACG配列2   TTAG

ペアワイズアライメント

配列1   T-ACG配列2   TTA-G

ギャップ

ダイナミック・プログラミング法( DP法)

T A C G

T

T

A

G

-1 -1 -1 -1

-1

-1

-1

-1

1 -1 -1 -1

1 -1 -1 -1

-1 1 -1 -1

-1 -1 -1 1

-1 -1 -1 -1

-1

-1

-1

-1

-1

-1

-2 -3 -4

0 -1 -2

-2 0 -1 -2

-1-3 1 0 -1

-2-4 0 0 1

配列1

配列2 0

1

ギャップの挿入

ギャップの挿入

ペアワイズアライメント(2)

アミノ酸配列の場合はどのようにするか?

A, R, N, D, C, Q, E, G, H, IL, K, M, F, P, S, T, W, Y, V

20文字の類似度を定義する必要がある

配列1   GCRC配列2   GWWD

配列1と配列2の間の類似度を知りたい

20文字

アミノ酸配列

ペアワイズアライメント(3)

Cys CSer SThr TPro PAla AGly GAsn NAsp DClu EGln QHis HArg RLys KMet MIle ILeu LVal VPhe FTyr YTrp W

Dayhoff マトリックス( PAM250) 進化の過程でアミノ酸間での置換が,どの程度起こりやすいかを推定し,数値化したもの .  250は進化距離の基準 .  PAM40, PAM120, PAM250が存在する .12

C S T P A G N D E Q H R K M I L V F Y W

0 2-2 1 3-3 1 0 6-2 1 1 1 2-3 1 0 -1 1 5-4 1 0 -1 0 0 2-5 0 0 -1 0 1 2 4-5 0 0 -1 0 0 1 3 4-5 -1 -1 0 0 -1 1 2 2 4-3 -1 -1 0 -1 -2 2 1 1 3 6-4 0 -1 0 -2 -3 0 -1 -1 1 2 6-5 0 0 -1 -1 -2 1 0 0 1 0 3 5-5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6-2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5-6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6-2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4-4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9 0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10-8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17

ジスルフィド結合性

小型

酸性

塩基性

疎水性

芳香族

BLOSUM マトリックス モチーフ周辺の配列の保存性から数値化したもの .  BLOSUM80, BLOSUM62,BLOSUM50が存在する .

距離行列( PAM250)

G C R C

G

W

W

D

G

G

(拡大図)-7

-75

-7 -7 -7 -7

-7

-7

-7

-7

5 -3 -3 -3

-7 -8 2 -8

-7 -8 2 -8

1 -5 -1 -5

-7 -7 -7 -7

-7

-7

-7

-7

アミノ酸の類似度

配列1   GCRC配列2   GWWD

ペアワイズアライメント計算時間を要する。

配列1   GCR-C配列2   G-WWD

-7

5-7

-14 -21 -28

-2 -9 -16

-2-14 -3 0 -7

-9-21 -10 -1 -8

-16-28 -14 -8 -6

配列1

配列2

ギャップの挿入

ギャップの挿入

ペアワイズアライメント(4)

ギャップ

機能が似ている

配列の類似度の計算

タンパク質の立体構造が似ている

塩基配列(遺伝子)が似ている

アミノ酸の配列が似ている

配列が似ていれば機能も似ている

遺伝子の機能予測

問い合わせ配列

ペアワイズアライメント データベース

機能が既知な遺伝子やタンパク質の配列機能が未知の配列

 類似した配列をデータベースから検索することにより,問い合わせ配列の機能を予測する.

Genbank, SWISS-PROT, PIR等

データベースに対するホモロジー検索

例)実験で得た配列

BLAST, FASTASSEARCH

塩基配列 Genbank http://www.ncbi.nlm.nih.gov/

アミノ酸配列 SWISS-PROT http://www.expasy.ch/sprot/

タンパク質立体構造 PDB http://www.rcsb.org/pdb/

PIR http://pir.georgetown.edu/pirwww/dbinfo/pir_psd.shtml

種類 データベース名 URL

生物学的データベースの例

EMBL

DDBJ

http://www.ebi.ac.uk/

http://www.ddbj.nig.ac.jp/

FASTA はじめに文字の良く一致する領域を高速に検索し,最終的にはギャップを入れた完全なアライメントを行う.  (利点)  BLASTよりも精度が高い.  (欠点)  BLASTよりも検索速度が遅い.

BLASTでの検索

満足できる結果が得られない場合

BLAST ギャップを入れない部分配列のアライメントを複数集めて評価する.  (利点)  FASTAよりも検索速度が速い.  (欠点)  FASTAよりも精度が若干低い(充分な精度).

ホモロジー検索プログラム

FASTAでの検索

ドット・マトリックス

ホモロジー検索プログラム( FASTA)(1)

A C A T AG C

G

A

T

G

A

T

A

ktup = 1

A C A T AG C

G

A

T

G

A

T

A

ktup = 2

問い合わせ配列 問い合わせ配列

データベース中の配列

データベース中の配列 )

))

)))

) ) ) ) ) )

一般に,アミノ酸配列の場合は ktup=2,塩基配列の場合は ktup=6。

初期検索で見つかった類似領域

初期検索で見つかった領域の結合(initn score)

最適アライメント(opt score)

DP法で結合

ホモロジー検索プログラム( FASTA)(2)

統合化データベース (ゲノムネット)

http://www.genome.jp

ホモロジー検索( FASTA)

配列を直接的に入力

配列をファイルから入力

○ゲノム解析された生物( KEGG)  ・ KEGG GENES(遺伝子)

○重複を除いたデータベース  ・ nr-aa   (アミノ酸配列; Genbank, UniProt, Refseq, PRF, PDBSTRから作成

  ・ nr-nt   (塩基配列; GenBank, EMBL and RefSeq) 

検索の対象となるデータベース

入力する配列

MRSLLILVLC FLPLAALGKV FGRCELAAAM KRHGLDNYR

例えば,実験で,以下の配列が分かったとする.この配列は何のタンパク質に似ているか?

データベースの中から, FASTAを使って,遺伝子を探す.

ホモロジー検索( FASTA)

配列を直接的に入力

MRSLLILVLC FLPLAALGKV FGRCELAAAM KRHGLDNYR

nr-aaを選択

FASTAの結果

E-valueopt

配列の類似度が高いものから順に出力される

FASTAの結果

FASTAの結果

(アライメント)問い合わせ配列とデータベースでヒットした配列とを並べたもの

ヒットした配列名(アクセッション番号)

FASTAの結果(ヒットしたもののデータ)

Egg white lysozymeと同一の配列Lysozymeと推測できる.

アライメント

問い合わせ配列

データベースでヒットした配列

相同性(同一アミノ酸残基の割合%)

initn init1 opt Z-score E-value

類似性(類似アミノ酸残基の割合%)

E-value; 8.6e-15 = 8.6×10-15

アライメント

問い合わせ配列

データベースでヒットした配列「:」は同一の配列

「.」はアミノ酸配列の性質が類似「 」は類似していないもの

類似性の指標

E-value

0.001未満 有意0.1 ~ 0.001 微妙0.1以上 有意でない

有意性

1 . 相同性(%) ( Identity)   同一アミノ酸残基(塩基)数の割合。

2. 類似性(%) ( Positive)   物理化学的性質が類似したアミノ酸残基数の割合。

3. E-value   統計的な指標。   同じ長さで同じスコアをもつ配列が偶然にデータベースから  見つかる期待値。

FASTA はじめに文字の良く一致する領域を高速に検索し,最終的にはギャップを入れた完全なアライメントを行う.  (利点)  BLASTよりも精度が高い.  (欠点)  BLASTよりも検索速度が遅い.

BLASTでの検索

満足できる結果が得られない場合

BLAST ギャップを入れない部分配列のアライメントを複数集めて評価する.  (利点)  FASTAよりも検索速度が速い.  (欠点)  FASTAよりも精度が若干低い(充分な精度).

ホモロジー検索プログラム

FASTAでの検索

問い合わせ配列: … EKAAFDMFDADGGGDISVKEL…

類似ワードのリスト

MFD,MFE,MFN,MYD,MYE,MYN,LFD,…

ワードの検索

問い合わせ配列: … EKAAFDMFDADGGGDISVKEL…データベース配列: … EKEAFSLFDKDGDGDISTKEL…

高い類似性を与える部分配列の対( HSP)の抽出

両側に伸長していく

ホモロジー検索( BLAST)

ホモロジー検索( BLAST)

http://www.genome.jp

ホモロジー検索( BLAST)

配列を直接的に入力

配列をファイルから入力

入力する配列

MLVLFVATWS DLGLCKKRPK PGGWNTGGSR YPGQGSPGGN

例えば,実験で,以下の配列が分かったとする.この配列は何のタンパク質に似ているか?

データベースの中から, BLASTを使って,遺伝子を探す.

ホモロジー検索( BLAST)

配列を直接的に入力

配列をファイルから入力

nr-aaを選択

MLVLFVATWS DLGLCKKRPK PGGWNTGGSR YPGQGSPGGN

BLASTの結果

E-valuebits

BLASTの結果

(アライメント)問い合わせ配列とデータベースでヒットした配列とを並べたもの

ヒットした配列名(アクセッション番号)

prion(プリオン)と推測される.

score E-value

問い合わせ配列

データベースでヒットした配列

相同性(同一アミノ酸残基の割合%)

類似性(類似アミノ酸残基の割合%)

BLASTの結果

「大文字」は同一の配列「 + 」はアミノ酸配列の性質が類似「 」は類似していないもの

BLASTの結果

BLAST( Basic Local Alignment Search Tool)

BLASTのプログラムの一覧

BLASTN 塩基配列 塩基配列

BLASTP アミノ酸配列 アミノ酸配列

TBLASTN アミノ酸配列 塩基配列

BLASTX 塩基配列 アミノ酸配列

問い合わせ配列(クエリー)

データベース(サブジェクト)プログラム名

>lysozyme1KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINS RWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDV QAWIRGCRL>lysozyme2RTDCYGNVNRIDTTGASCKTAKPEGLSYCGVSASKKIAERDLQAMDRYKTIIKKVGEKLCVEPAVIAGIISRESHAGKVLKNGWGDRGNGFGLMQVDKRSHKPQGTWNGEVHITQGTTILINFIKTIQKKFPSWTKDQQLKGGISAYNAGAGNVRSYARMDIGTTHDDYANDVVARAQYYKQHGY

FASTA 形式(ファイルから入力する場合)

ホモロジー検索で用いる配列の形式

一般に60文字で改行を入れる。“>”の行はヘッダー。配列の区切りにもなっている。

サンプル配列 1

BLASTN, BLASTX テスト用

>seq1ggcccgagtgggtgggggtgggggggcatccgggggcttagccctggaaccccagctccttgtacttggcagcaatgtcattccggaacagctccagggccttcctcatggccgcctgggcgtcggcgccgaagtccccgggatgcttgctctgcaggacctggatgatggcttctgagatgaactccaggtacttgacggggatcttgtgcttggtggcatgtgactgagccaggggcttcagctccgcctcgtgctgccccttcttcttgaggatgccccccagggcagtgaacaccgtgttgccatgcttcttcaggtcctcagaacccttcatctcgtcctctgacttcaggtgcttgaacttgtcgaacttctccagggtctcggggtggcccttgaagagcctgatgaggacctcctgcccatggcccgcgaggtcagcctctaccttcccccagacgttcagcaccaactgccattccccgtcgctgagccccatggtgtggtctgaagaagacaaaaagagcaagtccgggctgactcggtgtcctggctctgacagctggggtttgagatcgcctggccccaaagggattttatactttccctgaagcttggcacagatcacttgacggcttgctcactctttctcctcctcctcctccctccctttcatgcggggtctaatcttttcctttctgtagctctcacatggaagctattttggggcaggtgccattgtggggaggtaggac

塩基は小文字でも可。コード鎖でなく逆鎖でもよい。

サンプル配列 2

BLASTP, TBLASTN テスト用

>seq2MKATLVLGSLIVGAVSAYKATTTRYYDGQEGACGCGSSSGAFPWQLGIGNGVYTAAGSQALFDTAGASWCGAGCGKCYQLTSTGQAPCSSCGTGGAAGQSIIVMVTNLCPNNGNAQWCPVVGGTNQYGYSYHFDIMAQNEIFGDNVVVDFEPIACPGQAASDWGTCLCVGQQETDPTPVLGNDTGSTPPGSSPPATSSSPPSGGGQQTLYGQCGGAGWTGPTTCQAPGTCKVQNQWYSQCLP*

“*”は終止コドン(翻訳されない)。似た性質のアミノ酸や塩基の繰り返しは複雑性フィルターによって” X”や” n”でマスクされる。フィルターを解除して全長をアライメントすることもできる。

サンプル配列 3

BLASTX テスト用

>seq3ATGGCAAGCCTCCGAAAAACTCACCCGCTACTAAAAATCGCTAACGACGCACTAGTTGACCTCCCTACCCCCTCTAATATCTCTGCATGATGAAACTTTGGCTCACTACTTGGCCTTTGCCTTATTTCTCAAATCCTTACAGGACTATTCCTCGCAATACACTATACCCCTGATGTCGAA

コドン表が  standard のままでは正しく翻訳できない場合がある。上の例では  Vertebrate Mitochondrial (2) が適切。genome.jp の  BLASTX ではコドン表の変更に未対応なので、必要に応じて  NCBI (GenBank) 等の BLAST サービスを使う。機能や生物種を推定する程度なら  standard のままでもよい。

 2つ以上の配列間の類似関係を明らかにする

 幾つかの配列において保存されているアミノ酸残基は、構造の安定性や機能の維持に関与する重要なものである

 マルチプルアライメント

 機能の発現に対して、重要なアミノ酸配列は何か?

アミノ酸配列からの特徴抽出(1)

例)マルチプルアライメント(セリンプロテアーゼ)

完全に保存されたアミノ酸残基 “ *”保存性が高い列 “ :”保存性が低い列 “ .”

配列の保存性から共通構造や、進化的な関係(系統関係)を推測することができる

THRB_HUMAN LESYIDGRIVEGSDAEIGMSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYPTHRB_BOVIN FESYIEGRIVEGQDAEVGLSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYPTHRB_MOUSE LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYPTHRB_RAT LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYPLFC_TACTR SDSPRSPFIWNGNSTEIGQWPWQAGISRWLADHNMWFLQCGGSLLNEKWIVTAAHCVTYSFA9_RAT EPINDFTRVVGGENAKPGQIPWQVILNGEIE------AFCGGAIINEKWIVTAAHCLK--FA9_RABIT QSSDDFTRIVGGENAKPGQFPWQVLLNGKVE------AFCGGSIINEKWVVTAAHCIK--FA9_PIG QSSDDFIRIVGGENAKPGQFPWQVLLNGKID------AFCGGSIINEKWVVTAAHCIEP-FA7_BOVIN NGSKPQGRIVGGHVCPKGECPWQAMLKLNGA------LLCGGTLVGPAWVVSAAHCFER-FA7_MOUSE NSSSRQGRIVGGNVCPKGECPWQAVLKINGL------LLCGAVLLDARWIVTAAHCFDN-FA7_RABIT GASNPQGRIVGGKVCPKGECPWQAALMNGST------LLCGGSLLDTHWVVSAAHCFDK-PRTC_HUMAN QEDQVDPRLIDGKMTRRGDSPWQVVLLDSKK-----KLACGAVLIHPSWVLTAAHCMDE-PRTC_RAT EELELGPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCLES-PRTC_MOUSE DELEPDPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCVEG-PSS8_HUMAN CGVAPQARITGGSSAVAGQWPWQVSITYEGV------HVCGGSLVSEQWVLSAAHCFPS- : * ***. : *. :: *:::****.

アミノ酸配列からの特徴抽出(2)

: βストランド構造

SecStructure ......................BBBBBB...----.BBBBBBB.....BBBB........THRB_HUMAN LESYIDGRIVEGSDAEIGMSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYPTHRB_BOVIN FESYIEGRIVEGQDAEVGLSPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCLLYPTHRB_MOUSE LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYPTHRB_RAT LDSYIDGRIVEGWDAEKGIAPWQVMLFRKSP----QELLCGASLISDRWVLTAAHCILYPLFC_TACTR SDSPRSPFIWNGNSTEIGQWPWQAGISRWLADHNMWFLQCGGSLLNEKWIVTAAHCVTYSFA9_RAT EPINDFTRVVGGENAKPGQIPWQVILNGEIE------AFCGGAIINEKWIVTAAHCLK--FA9_RABIT QSSDDFTRIVGGENAKPGQFPWQVLLNGKVE------AFCGGSIINEKWVVTAAHCIK--FA9_PIG QSSDDFIRIVGGENAKPGQFPWQVLLNGKID------AFCGGSIINEKWVVTAAHCIEP-FA7_BOVIN NGSKPQGRIVGGHVCPKGECPWQAMLKLNGA------LLCGGTLVGPAWVVSAAHCFER-FA7_MOUSE NSSSRQGRIVGGNVCPKGECPWQAVLKINGL------LLCGAVLLDARWIVTAAHCFDN-FA7_RABIT GASNPQGRIVGGKVCPKGECPWQAALMNGST------LLCGGSLLDTHWVVSAAHCFDK-PRTC_HUMAN QEDQVDPRLIDGKMTRRGDSPWQVVLLDSKK-----KLACGAVLIHPSWVLTAAHCMDE-PRTC_RAT EELELGPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCLES-PRTC_MOUSE DELEPDPRIVNGTLTKQGDSPWQAILLDSKK-----KLACGGVLIHTSWVLTAAHCVEG-PSS8_HUMAN CGVAPQARITGGSSAVAGQWPWQVSITYEGV------HVCGGSLVSEQWVLSAAHCFPS-

: * ***. : *. :: *:::****.

βストランド構造 βストランド構造保存性が高い部分 保存性が高い部分

-thrombin Autoprothrombin IIA

マルチプルアライメント(3)

・ タンパク質の分類に関する研究    機能部位の配列の推定(モチーフ抽出)    タンパク質ファミリーと配列パターンとの関係(機能分類)

・ アミノ酸配列とタンパク質の構造との関係    アミノ酸配列からの二次構造予測    アミノ酸配列からの立体構造予測      ホモロジーモデリング法 (配列の相同性≧ 25 %)       3D-1D法       ab initio法

・ 進化的系統関係の研究    ゲノムの多様性    集団内における遺伝子の多様性

配列解析が基本となる研究