生存研シンポジウム tokimatsu forpdf.ppt...

14
2012/3/9 1 生命システム情報統合データベース KEGG および GenomeNet の活用方法 KEGG および GenomeNet の活用方法 202回生存研シンポジウム 「バイオテクノロジーと情報科学の接点」 2012/3/5 京都大学化学研究所 京都大学化学研究所 バイオインフォマティクスセンター 化学生命科学領域 時松 敏明 URL KEGG 英語 http://www.kegg.jp/kegg/ 日本語 http://www.kegg.jp/kegg/kegg_ja.html GenomeNet 英語 http://www.genome.jp/ 日本語 http://www.genome.jp/ja/ GoogleKEGG, GenomeNet(ゲノムネット)で検索すると、ト ップヒットで出てきます。

Upload: others

Post on 27-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

1

生命システム情報統合データベースKEGGおよび GenomeNetの活用方法KEGG および GenomeNet の活用方法

第202回生存研シンポジウム「バイオテクノロジーと情報科学の接点」

2012/3/5

京都大学化学研究所京都大学化学研究所バイオインフォマティクスセンター

化学生命科学領域

時松 敏明

URL

• KEGG– 英語

• http://www.kegg.jp/kegg/– 日本語

• http://www.kegg.jp/kegg/kegg_ja.html

• GenomeNet– 英語

• http://www.genome.jp/– 日本語

• http://www.genome.jp/ja/

• GoogleでKEGG, GenomeNet(ゲノムネット)で検索すると、トップヒットで出てきます。

Page 2: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

2

様々な種類のデータを「生命現象の総体」として再構築

KEGG: Kyoto Encyclopedia of Genes and Genomes

機能の階層分類相互参照用データ

KEGG BRITE

高次機能ツールの提供EGassemblerKAASGENIESKegArray

ツールの提供e-zymePathPredSIMCOMPKegArray

研究者の知識をゲノムレベルのデータと結びつける

KegArray

3

KEGG: Kyoto Encyclopedia of Genes and Genomes

http://www.kegg.jp/kegg/ http://www.kegg.jp/kegg/kegg2.html4

Page 3: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

3

KEGG: Kyoto Encyclopedia of Genes and Genomes

システムの知識

ゲノムの知識KEGG GENES

システムの知識KEGG PATHWAYKEGG BRITE KEGG MEDICUS

http://www.kegg.jp/kegg/ 5

化合物の知識KEGG LIGAND

KEGGの高次システム情報データベース

• 基礎科学に関する情報PATHWAY パスウ イマップ– PATHWAY パスウェイマップ

– BRITE 機能階層情報

– MODULE モジュールと機能ユニット

• 応用科学に関する情報(MEDICUS)– DISIEASE ヒトの病気

– DRUG 医薬品情報

– ENVIRON 生薬や健康関連の物質

Page 4: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

4

KEGGのゲノム(配列)情報データベース

• ORTHOLOGY KEGG Orthology (KO)

• GENOMES 生物種ごとのゲノム情報

• GENES 遺伝子カタログ

– マニュアルもしくはKOALAアノテーション

遺伝 カタ グ• DGENES 遺伝子カタログ

– 自動アノテーション

• SSDB GENESの配列類似性

KEGGの化学情報データベース(LIGAND)

• COMPOUND 代謝産物などの低分子

• GLYCAN (タンパク修飾)糖鎖

• REACTION 生化学反応

• RPAIR Reactant pairの化学変換情報

• RCLASS RPAIRによる反応のクラス分類

• ENZYME Enzyme nomenclature (EC番号)– 下4つの統合入り口として REACTIONがある

Page 5: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

5

ゲノムネット

データベース検索システム:DBGET/LinkDBKEGGと国内外の様々なデータベースを統合的に検索するシステム

ゲノムネット医薬品データベース

9http://www.genome.jp/ja/

その他のプロジェクトデータベース

ゲノムネット計算ツール

ホモロジー検索、モチーフ検索マルチプルアライメント

10英語: http://www.genome.jp/

遺伝子機能アノテーション、予測など

化学構造比較、パス予測など

日本語: http://www.genome.jp/ja/

Page 6: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

6

KEGG PATHWAY 生体内(外)の分子間ネットワーク図

• 代謝系

– 12+1カテゴリ (162+3マップ)

– 中間代謝、二次代謝、薬の代像謝、全体像

• 制御系

– 20カテゴリ

– 遺伝制御、環境シグナル、細胞プロセス、生体システム他

• 疾患疾患

– がん、免疫・神経変性・循環器・代謝疾患、感染症

• 薬の開発

– 開発の歴史、標的ベース、構造ベース

http://www.kegg.jp/kegg/pathway.html

11

代謝系Pathway Mapの3つのタイプ(1) Standard Pathway Map

Page 7: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

7

代謝系Pathway Mapの3つのタイプ(2) Global Map

Metabolic pathwaysBiosynthesis of secondary metabolitesMicrobial metabolism in diverse environments

代謝系Pathway Mapの3つのタイプ(3) Overview map

Page 8: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

8

KO, REACTION, COMPOUND, PATHWAY‐ KEGG PATHWAYの構造 ‐

• 生物種ごとのPathwayは遺伝子と化合物の相互ネットワーク

R f P h は KOやR i と化合物の相互ネ トワ ク• Reference Pathwayは、KOやReactionと化合物の相互ネットワーク

• 文献を元に新しいPathwayを作成することにより、新しいKOが定義される

Species pathways

A. thaliana (ath)

O. sativa (osa)

GENES

ath:AT2G30490

osa:4329324osa:4329329osa:4338409

(例: C4H)

P. patens patens (ppp)

Reference pathways

KO (KOと化合物)

REACTION(反応と化合物)

……

……

…..

……

……

…..

……

……

…..

……

……

…..

……

……

…..

KO

REACTION

K00487

R02253

ppp: PHYPADRAFT_140533ppp: PHYPADRAFT_149501…

KEGG GENESデータベース( http://www.kegg.jp/kegg/genes.html)

KEGG GENESのサブカテゴリ

配列の種類アノテーションの種類(manual、KOALA、KAAS)

16

登録データの一覧表へのリンク生物種単位、サンプル単位

Page 9: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

9

KEGG Organisms‐ GENES, DGENESに登録されている生物種 ‐

分類 生物種コード 生物種名 データソース

17

生物種のゲノム情報‐種の系統、データソース、アノテーションレベル、文献などの詳細情報 ‐

Page 10: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

10

KO (KEGG Orthology)

• KEGGでは同じ機能を有している

と考えられるオーソログ遺伝子を集め、同一のID(K番号)をつけることでその機能を表現している

• 新規ゲノムが新しくGenesに登録

されるとき、遺伝子をオーソロググループ(KO)に追加することで、

遺伝子の機能アノテーションを行っている

KOのアサイン

• KEGGでは基本的にはSSDBフィールドの情報をもとに 遺伝子にKOの付与(機能アノテをもとに、遺伝子にKOの付与(機能アノテーション)を行う

• KEGGの機能アノテーションはmanual、KOALAKAASの3段階の精度、KAASの3段階の精度

Page 11: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

11

KOのアノテーションレベル• Manual

• KOALAによる自動アノテーションの情報とオーソログ情報を参考にし、それぞれの遺伝子に対して個別に、知識にも基づく機能アノテーションを手作業で行う

– KOALA• GENESに登録される生物種において、SWスコア、ベストヒット、系統分類、

ドメイン情報などをもとにスコアリングを行い、配列に自動で機能アノテーションを行う

– KAAS• SWスコアの計算には非常に時間がかかるため、頻繁にデータ更新があ

りうる や配列数の多い を で機能アノテりうるDGENES, EGENESや配列数の多いMGENESをKOALAで機能アノテーションするのは困難

• BLASTの相同性スコア、ベストヒットの情報をもとにしたアノテーションツール、KAASによって DGENES、EGENES、MGENESに登録されている配列の自動機能アノテーションを行う

KAAS ( http://www.genome.jp/tools/kaas/ )‐自動、機能アノテーションサービス ‐

Page 12: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

12

KAAS‐自動、機能アノテーションサービス ‐

• 入力データ– 大規模シークエンスによっ

Query種Xの網羅的

て得られた特定の種の大量のアミノ酸・ヌクレオチド配列

– ORFの配列をmulti‐FASTA形式で

• 出力結果KOアノテ ション

種Xの網羅的遺伝子配列

・・・

テンプレートGENESKO

PATHWAY– KOアノテーション– KOに基づく遺伝子の階層

分類データ(BRITE)– PATHWAYマップ

PATHWAY

Results種XのPATHWAY

KAAS‐自動、機能アノテーションサービス ‐

• Complete or Draft genome– 入力配列が特定の種の遺伝子で、

ある程度網羅性が期待できると来、ある程度網羅性が期待できると来、BBHを指標により精度の高いアノテーションを行う

• Partial genome– 入力が網羅的でないときには、

Bidirectionalな意味がないので、SBH(片方向ベストヒット)を用いてアノテーションを行う

– 入力が少量の場合、対話式に結果を得ることができる果を得ることができる

• ESTs– 入力データがESTの時に用いる。ヌ

クレオチド配列を全パターン翻訳するため計算量が増える

Page 13: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

13

PATHWAY の検索とマッピング

• キーワード検索

– Entry, Name, Description フィールドとマップ中のオブジェクト(遺伝子、オーソログ、反応、化合物)や注釈を対象とした検索

– 複数キーワードは AND 検索

• オブジェクトマッピング KEGG Mapper

– マップ中のオブジェクトを指定してパスウェイにマッピング

– 複数オブジェクトを指定するとマッチしたものすべてをマッピング

– Search Pathway

• 指定したオブジェクトを赤く色づけ

– Search & Color Pathway

• 指定したオブジェクトを自由に色づけ

http://www.kegg.jp/kegg/pathway.html

– Color Pathway

• 指定したパスウェイにオブジェクトの色データを与えて色づけ、数値を与えることも可能

25

KEGG GENOME

• KEGG 生物種ごとの入り口– GENES/DGENES:ゲノムが決定された生物種

– EGENES:ESTで作成された遺伝

http://www.kegg.jp/kegg/genome.html

子セット

– MGENES:メタゲノムデータ

– Pangenomes:近縁生物種をまとめたもの

– Viruses

–生物種の組み合わせ

26

Page 14: 生存研シンポジウム tokimatsu forPDF.ppt [互換モード]bioinf.mind.meiji.ac.jp/rish2012/pdf/kyoutouniv...2012/3/9 1 生命システム情報統合データベース KEGG

2012/3/9

14

複数生物種の情報を PATHWAY にマッピング

• 共生関係

• 寄生関係

• ヒトと腸内細菌叢など

• ミヤコグサ– マメ科モデル植物

• Mesorhizobium loti– 共生根粒菌

27

複数生物種の情報を PATHWAY にマッピング

ミヤコグサ 根粒菌 共通28