1. ゲノム解析と 計算機 の 利用 の 方法

89
04.9.19 1 1.ゲゲゲゲゲゲ ゲゲゲゲゲゲゲゲゲ

Upload: bernie

Post on 15-Jan-2016

42 views

Category:

Documents


0 download

DESCRIPTION

1. ゲノム解析と 計算機 の 利用 の 方法. バイオインフォマティクスとは. 生物情報科学または情報生物学 生物または生物学に関する情報処理 生物情報(遺伝情報)を用いた情報処理技術とそれによる知識発見 実験生物学者にとっては,自分または他人のデータの集積に基づく,新たな実験のきっかけを与えるような知識の抽出 情報科学者にとっては,システム生物学を目指した生物情報の処理方法の開発と体系化. 計算機に対する私の姿勢. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

1

1.ゲノム解析と計算機の利用の方法1.ゲノム解析と計算機の利用の方法

Page 2: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

2

バイオインフォマティクスとはバイオインフォマティクスとは

• 生物情報科学または情報生物学• 生物または生物学に関する情報処理• 生物情報(遺伝情報)を用いた情報処理技術とそれによる知識発見

• 実験生物学者にとっては,自分または他人のデータの集積に基づく,新たな実験のきっかけを与えるような知識の抽出

• 情報科学者にとっては,システム生物学を目指した生物情報の処理方法の開発と体系化

Page 3: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

3

計算機に対する私の姿勢計算機に対する私の姿勢

生物情報科学を使って,生物の基本的なしくみや生物の進化を理解する。ソフトはあくまでも手段であるが,生物系の研究者がプログラム作りを全くできないようなことでは,これからの生物科学は発展しない。物理や化学では,実験をする研究者自身,自分の実験の解析のためにプログラムを作る。生物も同じはずだが,これまでは,生物系の研究が,遺伝子操作をつかってなまの生き物を取り扱うことにばかり重点を置きすぎていた。生物系の研究者がプログラミングをすることをもっと普及したい。

Page 4: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

4

オフィスツールとしての計算機の利用オフィスツールとしての計算機の利用

A . 論文や原稿の作成( Word )B . 数値データの処理とグラフ化( Exc

el )C . 画像データの処理と図の作成( Phot

oshop, Illustrator )D . 論文検索とオンラインジャーナルの

ダウンロード,プリント(ブラウザ, Acrobat )

Page 5: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

5

光合成研究における計算機の利用光合成研究における計算機の利用(1)シーケンサからのデータのアセンブル(2)相同性検索,論文で報告された配列の取得,ゲノムデー

タベースの利用(3)塩基配列の様々な処理(翻訳,制限酵素サイト,ターゲ

ティング,疎水性など)(4)プライマーの設計(5)マイクロアレイデータの処理(6)タンパク質立体構造の表示(7)系統解析(8)シロイヌナズナやシアノバクテリアの様々なデータベー

ス(変異体,アノテーション, EST, タグライン)からの情報収集

(9)画像データの収集(ゲル,植物体,顕微鏡像など)( 10 )その他様々な計測( 11 ) 実験のプロトコルの管理 (Protocol )

Page 6: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

6

生物学者としてどこまで情報に関わるか?生物学者としてどこまで情報に関わるか?

1.解析ツールの利用

2.既存のソフトウェア間の橋渡しのためのスクリプトなど

3.独自プログラムの開発(自分用)

4.汎用ソフトウェアパッケージの開発

Page 7: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

7

UNIXの利点UNIXの利点

• 基本は,自分で好きなシステムを構成できること。特に,個々のアプリケーションを組み合わせて,連続した処理をすることができる。

• 異なるマシン間を LANでつないで,相互に自由に利用できること。リモートのマシンのウィンドウを,手元のマシンで開く形で,何台ものマシンを同時に操ることができる。

• マルチタスク OSであるため,個々のプロセスがクラッシュしても他に影響しない。また,複数のユーザーが同時に作業できる。

Page 8: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

8

システムの選択肢システムの選択肢

OS

主なハードウェア

CPU

Pentium PowerPC Untrasparc MIPS Alpha

機種の例

DOS/V 機( たいていのWindows パソ

コン)

PowerMac(旧型, G3, G

4 )

SUN   Ultra10

など

Silicon Graphics  

O2など

Compaq製, HIT製など

Solaris 使えるものあり

無理 標準 無理 無理

Irix 無理 無理 無理 標準 無理

TruUNIX64 無理 無理 無理 無理 標準

LINUX 使える 使える 使える 対応あり 使える

BSD

FreeBSD 使える 無理 無理 ? 無理 無理

NetBSD 使える 68k で可 使える 使える? ?MacOS X(Xdarwin)

無理 G3, G4のみ

無理 無理 無理

Page 9: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

9

パソコンで使える UNIXパソコンで使える UNIX

MacOS Xは、 G3, G4などで使えるパソコンの顔をした UNIX (FreeBSDの一種である Darwin)。

X on Windows は、 Cygwinをさらに使いやすくしたパッケージで、Windows上で使える X Windowシステム。基本的に普通の UNIXのように使え、 gccコンパイラ、 Perlなどもあるが、本質的には UNIXではないので、微妙に異なる点がある。

Dual bootで LinuxをWindowsかMacにいれる。 Virtual PCなどを使って、複数の OSをいれる。

Page 10: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

10

UNIXのはじめの困難の克服UNIXのはじめの困難の克服

きれいな graphical user interfaceをはじめから期待しない。コンピュータが実際にやっている仕事は単なる計算。表示は別の問題と割り切り,コマンドを使って作業する。

すべてのコマンドを暗記している人はいない。わからないコマンドは,本かオンラインマニュアルで調べよう。

MacOS Xなら,初心者もなじみやすい。

Page 11: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

11

なぜMacOS XがよいかなぜMacOS Xがよいか

• はじめからプログラム開発環境がある。• BLASTサーチなどの計算速度はきわめて速い。• 一台のマシン上で, UNIXとして計算した結果を,直ちにWord, Excel, Illustrator, Photoshopなどで使える。

• 他のMacやWindowsとのファイル共有ができ,また,リモートの UNIXマシンからログインして利用できる。

• 自動的に swapを確保してくれるので、大きなメモリを使うアプリケーションを使うことができる。

• Finkによりソフトウェアの導入が容易

Page 12: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

12

自動処理は情報処理の第一歩自動処理は情報処理の第一歩

• スクリプトを使うことで,同種の処理を大量に一括処理できる。

• シェルスクリプト, perl, その他を活用する。

• 利点は,間違いがない,少し条件を変えてもう一度全部できる,他の人がその処理を検証できる,ことなど。

• クリックしなくてよいだけ, GUIよりも便利。

Page 13: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

13

スクリプト初歩の初歩スクリプト初歩の初歩

• 例題のダウンロード• (例題1)カレントディレクトリにあるテキストファイルをすべて連結する。

• (例題2)カレントディレクトリにあるすべてのファイルの最初の数行を表示する。

• (例題3)カレントデクレクトリにあるすべてのファイルについて,同じ処理をする。

• (例題4)多数のアラインメントを作る。

Page 14: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

14

少しでいいからできるようになりましょう

少しでいいからできるようになりましょう

• 基本的なシェルのコマンドを覚える。• コマンドラインで使う perl と基本的な正規表現

を覚える。基本形は,perl -pe ’s/xxx/yyy/’ file > outfile• 行末コードの変換でびっくりしないようになる。• 次は, perl スクリプトを作って,簡単なこと

を自動処理してみる。

Page 15: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

15

Blast を使いこなすBlast を使いこなす

• Basic Local Alignment Search Tool の略で,配列相同性検索ツールの代表格

• FASTAが配列全長同士の比較を行うものであったのに対して,部分的な類似も検出でき,繰り返し配列も正しく処理できることが特徴

• 1990年に発表された当初は一つのものだったが,その後, NCBI と WU に分かれて開発されている

• 1997年の改良により,ギャップも考慮したアラインメントができるようになり,さらに, PSI-BLASTが開発され,弱い相同性も検出できるようになってきた

Page 16: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

16

Basic Local Alignment Search Tool (BLAST)Basic Local Alignment Search Tool (BLAST)

An open source software provided by NCBI (National Center for Biotechnology Information, USA).

http://www.ncbi.nlm.nih.gov/

It finds local similarity between a query sequence (DNA or protein) with database sequences. The similarity is assessed by various parameters, such as E value, similarity score etc.

ReferenceAltschul, S. F., Madden, T. L., Schaffer, A. A., et al. 1997, Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, Nucl. Acids Res., 25, 3389-3402.

Page 17: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

17

Blast 検索のやり方Blast 検索のやり方• NCBI toolbox のなかの formatdbと blastall を使う。• データベースは GenomeNet から取得する (nr, nt, swissprot な

ど FASTA 形式のファイル)。以下 nr を例とする。

Formatdb の実行

Page 18: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

18

Blast 検索のやり方( 2 )

Blast 検索のやり方( 2 )• 検索に使う nr, testfile とも FASTA 形式のファイルである。

nr ファイルの先頭

Page 19: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

19

Blast 検索のやり方( 3 )

Blast 検索のやり方( 3 )

• 環境変数 BLASTDB をセットし,検索を行う。

blastall コマンドの実行

検索ファイルも FASTA 形式

setenv BLASTDB /Volumes/HD1/DB/db1

Page 20: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

20

Blast 検索のやり方( 4 )

Blast 検索のやり方( 4 )• これが一番単純な blast 検索コマンド

blastall -i a1 -d nr -p blastp -o a1.result

入力ファイル名

データベース名

予め BLASTDB環境変数で指定したディレクトリの中にあって,formatdb により加工された3個のファイルの拡張子なしの名前

プログラム名 結果を書き出すファイル名

ハイフンの後にオプションを示す記号を書き,その後に設定する値を書く

ハイフンの後にオプションを示す記号を書き,その後に設定する値を書く

Page 21: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

21

Blast 検索のやり方( 5 )

Blast 検索のやり方( 5 )

• プログラム名一覧

プログラム名 Query Database

blastp protein protein

blastn nucleic acid nucleic acid

blastx nucleic acid protein

tblastn protein nucleic acid

tblastx nucleic acid nucleic acid

blastall -i a1 -d nr -p blastp -o a1.result

Page 22: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

22

Blast 検索のやり方( 6 )Blast 検索のやり方( 6 )• Webで見慣れた結果がテキストとしてでてくる。

アラインメント部分

はじめの方

Page 23: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

23

Blast 検索の注意点Blast 検索の注意点

• ただ検索するだけなら簡単だが,自分の目的を達成できているか,検討が必要。

• 検索対象であるデータベースの選択nr, est, その他

• 検索オプションの指定マスクの指定マトリクスの指定など

Page 24: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

24

Blast 検索のメリットBlast 検索のメリット• では,自前の検索のメリットは?

自分だけのデータベースが使える(非公開配列,特定の生物種など)

 逆に,最新のデータベースは利用できないかもしれない。

いちいち画面をクリックしなくてよい。同じ条件なら条件を含むコマンドをすべてスクリプトに含めておける。

複数の配列を含むファイルを使い,一回のコマンド実行で,まとめて検索ができる。

たとえば,ゲノム全体のタンパク質配列をデータベース化しておき,別のゲノム全体のタンパク質配列との比較が一回のコマンドでできる。計算時間はマシンによるが,細菌ゲノム全体程度なら, G4 で1~2時間程度。

結果はすべて一つのファイルになっているので, Perl などを利用して,うまく自動的に整理する。

Page 25: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

25

2. 比較ゲノム解析の方法2. 比較ゲノム解析の方法

Page 26: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

26

データベースの利用データベースの利用

Page 27: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

27

データベースの利用 (2)

データベースの利用 (2)

微生物ゲノム解析が結びつける生命の多様性地域共同研究センター出張講演会

2001年9月20日

Page 28: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

28

データベースの利用 (3)

データベースの利用 (3)

微生物ゲノム解析が結びつける生命の多様性地域共同研究センター出張講演会

2001年9月20日

Page 29: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

29

大腸菌の代謝系大腸菌の代謝系

Page 30: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

30

Synechocystis の代謝系

Synechocystis の代謝系

Page 31: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

31

ゲノム配列の入手ゲノム配列の入手ゲノム塩基配列とコードされる推定タンパク質の配列は,GenBank (または RefSeq )を利用するのが便利である。EMBL でも GenBank と同様のデータベースが得られるが, RefSeq は NCBI の独自のものなので, EMBL に同じものがあるとは限らない。

データベースファイルは,通常,コマンドラインから FTP を使って取得する。データは膨大なので,圧縮されている。バイナリ形式で取得後,解凍して使用する。

大きなデータなので,できるだけ日本国内のサイトから入手する。 GenomeNet なら,

ftp ftp.genome.ad.jp

である。

Page 32: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

32

ゲノム配列の入手と加工ゲノム配列の入手と加工取得したファイルは, gzip または compress圧縮されている。解凍法は,コマンドラインから,

gzip -d gbbact1.gz

uncompress nr.Z

などとする。

BLAST 検索用のデータベースファイルは, nr, nt などであるが,ここでは, GenBank 形式のファイルから,自分で,様々なデータを含むファイルを作製する方法を説明する。

Page 33: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

33

ゲノム配列の大量処理ゲノム配列の大量処理

詳細はテキスト参照。

私は,自分で開発した SISEQ を利用しているが,そのほか,様々なツールが存在する。一般的なのは,GCG (有料), EMBOSS など。

GenBank 形式のファイルには,様々な情報が書き込まれており,特に,翻訳してできるタンパク質配列が feature の一部として記載されている。従って, GenBank ファイルが一つあれば,個別のタンパク質の情報などはあとで自分で抽出できる。ただし,ゲノムに関しては,そのほかに,アノテーションをまとめた表や,タンパク質配列だけをまとめたものなども,データベースとともに取得できる。

Page 34: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

34

BLAST による相同性検索BLAST による相同性検索

ゲノムの比較を目的とした相同性検索では,比較したい2つのゲノムのそれぞれにコードされたタンパク質の配列からなるデータベースを構築する。

ゲノムを A, B とすると,

A, B両ゲノムの全タンパク質配列を書いた FASTA 形式のファイル A.faおよび B.fa を準備する。

それぞれについて, formatdb を行う。

A 対 Bおよび B 対 A の BLASTP 検索を行う。

あるいは, AB両方のデータを一つにまとめたファイル AB.fa を作り, AB 対 AB の検索を行う。

Page 35: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

35

いろいろな homolog: ortholog と paralogいろいろな homolog: ortholog と paralog

Ortholog: 別々のゲノム上にある2つの遺伝子が,共通の祖先遺伝子から進化した場合, ortholog と呼ぶ。

Paralog: 同じゲノム上の2つの遺伝子が,共通祖先遺伝子から遺伝子重複によって生じた場合, paralog と呼ぶ。

別々のゲノム上にある複数の遺伝子ファミリーメンバー同士の関係も, paralog であるが,上の paralog を in-paralog と呼ぶのに対し, out-paralog と呼ぶことが提唱されている。

そのほか,水平移動や収斂進化などもあり,これらの場合には, analogous genes と呼ぶようである。

Page 36: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

36

Ortholog と paralogOrtholog と paralog

Page 37: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

37

Ortholog pair の検出Ortholog pair の検出

双方向 best-best hit による定義

BLAST (または FASTA )による相同性検索において,

Query としてゲノム A の遺伝子 x を用いて,ゲノム B の全遺伝子を検索した場合,遺伝子 yが最高得点となり,

逆に, query としてゲノム B の遺伝子 y を用いて,ゲノム A の全遺伝子を検索した場合,遺伝子 xが最高得点となる場合,

x と y とは, orthologs であると定義する。

Page 38: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

38

Ortholog pair の検出(2)Ortholog pair の検出(2)

しかし,

BLAST の点数が必ずしも配列の類似性を正しく表しているとは限らず,厳密には,類似遺伝子を集めた系統解析をすることによって初めて, ortholog を決めることが可能になる。これは前のスライドで示されたとおりである。

とはいうものの,これには時間がかかる上,人の手でいちいち見ながらやらなければならないので,大量のゲノム比較をする場合には,第一次近似として,双方向 best-best hitが基準として使われることが多い。

Page 39: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

39

Orthologs in KEGGOrthologs in KEGG

Page 40: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

40

All-to-all searchAll-to-all search

1. One-way 3. Network

4. All-to-all (= 2+3)2. Self

Page 41: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

41

Gene familyの場合Gene familyの場合

遺伝子によっては,類似遺伝子が多数ファミリーになっている場合も多く,その場合に, best-best hit を一義的に定義できない場合がある。

Page 42: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

42

Ortholog gene method -- straightforward.Problems: Liability to gene duplication and fusi

on. Difficulty in identifying orthologues in genomes of very different sizes.

Homolog group method -- stable result.Problems: No direct relation to orthologues.

Two strategies for the comparison of genome contents

Two strategies for the comparison of genome contents

Common problem: multi-domain proteins or protein fusion. --> Two-step clustering

Page 43: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

43

Homolog group の利用Homolog group の利用

類似遺伝子群をまとめて homolog group として取り扱い,それぞれのグループがそれぞれのゲノムに存在するか否かを調べる。細かい遺伝子ごとの比較は,このグループごとに詳しく系統解析をすることによって得られる。

この方法によっても,マルチドメインタンパク質の扱いは難しい。

Page 44: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

44

Multidomain proteinsMultidomain proteins

A

B

C

1

1 2

2

In the first step of clustering, all these are put in a single cluster. The advantage of this approach is that the motifs 1 and 2 are not included in other clusters.

Page 45: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

45

種間の遺伝子移動種間の遺伝子移動

Page 46: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

46

推定される水平移動した遺伝子

推定される水平移動した遺伝子

Page 47: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

47

Gclust approach-- combined informatics and experiments --

Gclust approach-- combined informatics and experiments --

1. Use of eight (or more) cyanobacterial genomes that are currently available.

2. Use of a red alga, Cyanidioschyzon merolae, as a representative of the ‘red lineage’ of photosynthetic eukaryotes, besides Arabidopsis thaliana, a representative of the ‘green lineage’.

3. Clustering of all protein sequences (by the software ‘gclust’) to extract lineage-specific clusters (to be made publicly available as ‘PhotoGclust’).

4. Experimental verification of the cluster data by gene disruption and expression analysis.

Page 48: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

48

Gclust: genome-wide clustering of proteins by the homologue group method

Gclust: genome-wide clustering of proteins by the homologue group method

1st step: BLAST E-valueGroups of all possible homologues

Iteration: progressive increase of E-value2nd step: homology region

Subgroups and multi-domain proteins

ORF pool Annotation table

BLASTP

bl2ls2.pl

Homologue list

Homologue group matrix

Homologue group sequencesLineage-specific homologue groups

homologgroupsG.pltbsort6d.pl etc

gclust

Page 49: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

49

Gclust: genome-wide clustering of proteins by the homolog group method

Gclust: genome-wide clustering of proteins by the homolog group method

Before Gclust: List of similarity regions based on all-against-all BLASTP search

Preparation: Exclusion of vary large proteins

Single cut-off mode: Groups of all possible homologs using a BLAST E-value as a cut-off

Iteration mode: Natural clusters estimated by progressive increase of E-value with removal of multidomain proteins

Subcluster mode: Subclusters based on similarity matrix

Page 50: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

50

Example result (2)Example result (2)

Group 762: 14 sequences.

S81_g3096 186 1 0 0 0 0 0 0 0 0 0 1 1 0 0 sll1656_57_1e-08TE_c50g6270 188 0 1 1 1 1 1 1 1 0 0 0 0 1 0 sll1656_89_2e-18Ana_all3977 170 0 1 1 1 1 1 1 1 1 0 0 0 0 0 hypothetical_proteinAna_all4113 194 0 1 1 1 1 1 1 1 1 1 0 0 0 0 hypothetical_proteinSyn_sll1656 191 0 1 1 1 1 1 1 1 1 0 0 0 0 0 hypothetical_proteinNP_c357g8190 0 1 1 1 1 1 1 1 1 0 0 0 0 0 sll1656_100_1e-21NP_c445g23 189 0 1 1 1 1 1 1 1 1 1 0 0 0 0 sll1656_109_2e-24NP_c506g67 189 0 1 1 1 1 1 1 1 1 1 1 0 0 0 sll1656_92_5e-19Tel_tll0396 198 0 0 1 1 1 1 1 1 1 0 0 0 0 0 hypothetical_proteinNP_c459g43 123 0 0 0 1 0 0 1 1 0 1 0 0 0 0 sll1656_66_1e-11PM2_g2695 187 1 0 0 0 0 0 0 1 0 0 1 1 0 0 sll1656_57_2e-08PM1_g542 177 1 0 0 0 0 0 0 0 0 0 1 1 0 0 sll1656_54_8e-08Cz_Cz11g913.048 350 0 0 0 0 0 0 0 0 0 0 0 0 1 1 unknown_proteinATH_At2g15290 296 0 0 0 0 0 0 0 0 0 0 0 0 1 1 unknown_protein

Page 51: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

51

Example result (3)Example result (3)

Unidentified proteins that are conserved in 8 cyanobacteria,Arabidopsis and Cyanidioschyzon

Page 52: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

52

Genome tree

Genome tree

Parsimonous tree based on presence/absence of homolog groups

Page 53: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

53

3.ゲノム情報に基づく系統解析3.ゲノム情報に基づく系統解析

Page 54: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

54

様々なゲノム様々なゲノム

Page 55: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

55

配列情報に基づく解析配列情報に基づく解析

塩基配列そのものの規則性に基づく解析

遺伝子の塩基配列や翻訳して得られるタンパク質配列に基づく解析(系統樹)

遺伝子の制御領域の解析

GC skew に基づく複製方向の推定

Page 56: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

56

シアノバクテリアゲノムにおける塩基配列の特徴の解析

シアノバクテリアゲノムにおける塩基配列の特徴の解析

Analysis without annotation•Short sequence features•Genome signature analysis

Page 57: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

57

Short sequence features of the genome of Anabaena sp. PCC

7120

Short sequence features of the genome of Anabaena sp. PCC

7120

• Underrepresentation of various restriction sites

• Highly abundant short sequence

Page 58: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

58

Short sequence features

Short sequence features

Underrepresentation of various restriction sites

Low frequency RE sites (Obs/Exp)Genome

Size

(kbp) GC% AvaICYCGRG

AvaIIGGWCC

AvaIIIATGCAT

Other RE sites(Obs/Exp <0.05)

An 6,413 41.4 0.006 0.031 0.011 AhaII (NarI, AatII), ApaLI,AvaIVP, AvrII, BamHI, BanII(SacI), BglII, BsiWI (= SplI),BstBI (= AsuII), FspI, NcoI,NspI, PmlI, PstI, SacII, SalI,SphI.

Np 9,216 41.5 0.113 0.088 0.366 ApaLI, AvaIVP, BglII, NcoI,NdeI, SacI

Sy 3,573 47.7 0.534 0.418 0.243 BssHII ,MluI

Hp 1,667 38.9 0.255 0.130 0.639 ScaI, XhoI, AatII, KpnI, SalI,HpaI, SnaBI

Ec 4,639 50.8 0.259 0.303 0.765 AvrII, XbaI

Pm 1,674 30.9 0.601 1.364 0.813 none

An, Anabaena sp. PCC 7120; Np, Nostoc punctiforme; Sy, Synechocystis sp. PCC 6803; Hp, Helicobacter pylori; Ec, Escherichia coli K-12; Pm, Prochlorococcus marinus MED4.

Page 59: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

59

Short sequence features (3)Short sequence features (3)Highly abundant short sequence

High-frequency palindromeGenome

Size

(kbp)GC%

Octamer sequence Obs/Exp

An 6,413 41.4 GCGATCGC 122.1Np 9,216 41.5 GCGATCGC 120.7Sy 3,573 47.7 GCGATCGC 70.1Hp 1,667 38.9 GCGATCGC 10.4Ec 4,639 50.8 (none)Pm 1,674 30.9 GCTGCAGC 13.3

An, Anabaena sp. PCC 7120; Np, Nostoc punctiforme; Sy, Synechocystis sp. PCC 6803; Hp, Helicobacter pylori; Ec, Escherichia coli K-12; Pm, Prochlorococcus marinus MED4.

Page 60: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

60

Genome signatureGenome signature

Dinucleotide relative abundance (DRA)

*XY = *XY / *X*Y

*XY: frequency of the dinucleotide XY

*X: frequency of the nucleotide XX, Y: one of { A, T, G, C }

The asterisk indicates that the values are computed for both strands.

Similar values can be calculated for tri- and tetranucleotides.

Campbell et al. (1999) Proc. Natl. Acad. Sci. USA 96: 9184-9189

Page 61: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

61

Genome signature(2)Genome signature(2)

The set of dinucleotide relative abundance (DRA) values is used as a genome signature that is diagnostic and can discriminate sequences from different organisms.

The local DRA values are fairly constant throughout a single genome.

The DRA value does not depend on prediction of coding regions or other functional features of genome.

Campbell et a. (1999) Proc. Natl. Acad. Sci. USA 96: 9184-9189

Page 62: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

62

Genome signature (3)Genome signature (3)

Dinucleotide relative abundances Species

GC CG AT TA TT AA

CC GG

TC GA

CT AG

TG CA

AC GT

An 1.16 0.78 0.93 0.84 1.15 1.11 0.92 0.99 1.09 0.89

Np 1.24 0.81 0.92 0.81 1.17 1.05 0.94 1.02 1.09 0.86 Sy 1.02 0.75 1.00 0.75 1.32 1.36 0.86 0.85 1.05 0.79 Pm 1.17 0.51 0.92 0.79 1.17 1.28 1.08 1.09 1.00 0.72 S8 1.10 0.87 1.13 0.43 1.09 0.95 1.08 1.00 1.25 0.85 Bs 1.27 1.04 1.02 0.65 1.24 0.97 1.06 0.91 1.08 0.75 Ec 1.28 1.16 1.10 0.75 1.21 0.91 0.92 0.82 1.12 0.88 Rp 1.20 1.31 1.43 0.44 1.08 0.75 1.24 0.87 1.02 0.86 Rs 1.12 1.16 1.57 0.39 0.99 0.85 1.31 0.99 0.97 0.75

An, Anabaena sp. PCC 7120; Np, Nostoc punctiforme; Sy, Synechocystis sp. PCC 6803; Pm, Prochlorococcus marinus MED4; S8, Synechococcus sp. WH8102; Bs, Bacillus subtilis; Ec, Escherichia coli K-12; Rp, Rhodopseudomonas palustris; Rs, Rhodobacter sphaeroides.

Page 63: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

63

Genome signature(4)Genome signature(4)

Evaluation from DRA of the genomic difference * between the two genomes f and g

*(f,g) = 1/16 *XY(f) - *XY(g)

(The sum extends over all dinucleotides.)

Page 64: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

64

Genome signature(5)Genome signature(5)

An, Anabaena sp. PCC 7120; Np, Nostoc punctiforme; Sy, Synechocystis sp. PCC 6803; Pm, Prochlorococcus marinus MED4; S8, Synechococcus sp. WH8102; Bs, Bacillus subtilis; Ec, Escherichia coli K-12; Rp, Rhodopseudomonas palustris; Rs, Rhodobacter sphaeroides.

Distance (x1000)

An Np Sy Pm S8 Bs Ec Rp

An Np 30

Sy 115 128

Pm 109 109 135

S8 123 113 199 173

Bs 115 92 143 141 109

Ec 107 95 151 202 136 82

Rp 217 203 263 252 147 158 154

Rs 229 220 285 234 153 169 202 93

Page 65: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

65

An, Anabaena sp. PCC 7120; Np, Nostoc punctiforme; Sy, Synechocystis sp. PCC 6803; Pm, Prochlorococcus marinus MED4; S8, Synechococcus sp. WH8102; Bs, Bacillus subtilis; Ec, Escherichia coli K-12; Rp, Rhodopseudomonas palustris; Rs, Rhodobacter sphaeroides.

Genome signature(6)

Genome signature(6)

Page 66: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

66

短い配列モチーフを利用したゲノムの特徴付け短い配列モチーフを利用したゲノムの特徴付け

Page 67: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

67

Phylogenetic tree of the Nad7 superfamily

Phylogenetic tree of the Nad7 superfamily

Hashimoto & Sato (2001)

Page 68: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

68

The presence/absence of introns in the nad7 gene

The presence/absence of introns in the nad7 gene

Page 69: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

69

いくつかの細菌ゲノムに含まれる遺伝子の分類

いくつかの細菌ゲノムに含まれる遺伝子の分類

Page 70: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

70

酵母ゲノムにおける遺伝子の分類酵母ゲノムにおける遺伝子の分類

Page 71: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

71

ヒトゲノムの構成ヒトゲノムの構成

Page 72: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

72

ヒトゲノムの構成(2)

ヒトゲノムの構成(2)

Page 73: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

73

系統解析系統解析

Page 74: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

74

生物の系統生物の系統微生物ゲノム解析が結びつける生命の多様性

地域共同研究センター出張講演会2001年9月20日

Page 75: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

75

人類のルーツ人類のルーツ

Page 76: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

76

遺伝子の有無や並び方に基づく解析遺伝子の有無や並び方に基づく解析

Page 77: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

77

SynthenySyntheny

Page 78: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

78

遺伝子クラスター遺伝子クラスター

Page 79: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

79

Ribosome protein cluster の例Ribosome protein cluster の例

Page 80: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

80

Ribosomal protein cluster の進化Ribosomal protein cluster の進化

Page 81: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

81

ゲノム間の比較がもたらすもの

ゲノム間の比較がもたらすもの

既知遺伝子のファミリーの分子進化

新規遺伝子の発見

病原菌の成り立ち(有害遺伝子の獲得機構)

細菌・微生物の分子分類

Page 82: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

82

生物の共通性生物の共通性

ヒトゲノム中の細菌由来遺伝子配列

植物で見つかった哺乳類の光受容体

遺伝子ファミリー

原核生物と真核生物の統一性

Page 83: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

83

ヒトゲノム中の細菌由来遺伝子配列ヒトゲノム中の細菌由来遺伝子配列

Page 84: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

84

ヒトゲノム中の細菌由来遺伝子配列 (2)ヒトゲノム中の細菌由来遺伝子配列 (2)

Page 85: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

85

植物で見つかった哺乳類

の光受容体

Page 86: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

86

マウスの視交差上核におけるクリプトクロム発現のリズムマウスの視交差上核におけるクリプトクロム発現のリズムShearman et al. (2000) Science 288: 1013-1019

Page 87: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

87

マウスの視交差上核における概日時計機構

マウスの視交差上核における概日時計機構

Shearman et al. (2000) Science 288: 1013-1019

Page 88: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

88

光回復酵素とクリプトクロム光回復酵素と

クリプトクロム

光回復酵素 (DNA photolyase) は,紫外線によって DNAに生じたピリミジンダイマーなどを,可視光のエネルギーを使って修復する酵素で,細菌からヒト・植物に至るまで存在する。

大腸菌の photolyase は, MTHF (葉酸誘導体)が吸収した青色光のエネルギーを FADH-が受け取り,これがピリミジンダイマーを開裂させて DNA を修復する。

DNA修復能のない photolyase 様タンパク質が存在する。植物の光による伸長阻害に関わるクリプトクロムが最初に発見されたが,その後,哺乳類にも類似タンパク質が存在することが示され,概日リズムの制御に関与することがわかった。

Page 89: 1. ゲノム解析と 計算機 の 利用 の 方法

04.9.19

89

大腸菌光回復酵素の

活性部位

大腸菌光回復酵素の

活性部位

Deisenhofer (2000) Mutation Research 460: 143-149