computational biology research center life science...

1
生命情報工学研究センター Computational Biology Research Center Life Science Database Integration Project, Workflow 2009 Toshiyuki Tashiro, Yukimitsu Yabuki, Kazuhiko Fukui, Katsuhisa Horimoto, Tamotsu Noguchi, Kiyoshi Asai Integration of Biological Information Group, CBRC, AIST user CBRC GRID AIST EBI, DBCLS, NCBI, etc request results GRID BLAST, CLUSTALW, etc Web portal Scheduling, Workflow management results results Query/Job execution request results request Job execution request Web services Query/Job execution request results ASIAN MXScarna POODLE GRIFFIN WoLF PSORT 統合DBにおけるCBRCの役割 CBRC2007年より文部科学省が推進するライフサイエンス統合データベースプロジェクトに参画してお り、データベース・解析ソフトウエアを組み合せたワークフロー技術及び分散処理技術の開発を担当して いる。 現在、多くのデータベース・ソフトウエアが存在するが、サイトが分散しており、これらを組み合せて使用 する場合、間と手間がかかり非効率的である。ユーザがこれら複数のデータベース・ソフトウエアを短 間に効率的に実行するためには、組合せ技術及び分散処理が不可欠である。CBRCはタンパク質立 体構造に関して益な情報を提供する3点のワークフロー及びアクティブ・ワークフローを開発し提供し ます。 CBRC情報統合基盤サイト http://togo.cbrc.jp CBRC Protein Structure Workflows Comparative Protein Information Workflow Protein Annotation Workflow Protein Modelling Workflow ワークフローは、立体構造知のタンパク質に関し、構造及び機能のヒントと なる情報を幅広く実験研究者等に提供することを目的としており、各種プログラ ム等をGridにより効率的に分散処理し、従と比し短間で結果を表示する。 ユーザからアミノ酸配列を受取り、二次構造予測、埋れ残基予測、フォールド認 識、ディスオーダー予測、膜タンパク質オールベータ・ベータシート予測、細胞内 局在予測をGridにて分散処理を行う一方、データベース検索及び疎水性予測の 実行を他のサーバへ依頼し結果を取得後、全ての結果をユーザーが解析し いよう配置し出力する。200812より一般公開。 ワークフローは、相同なタンパク質を比較することで保存部位等構造 上重要な部位を表示し、実験研究者等に提供することを目的としている。 ユーザからアミノ酸配列を受取り、相同タンパク質を検索、その結果から ユーザーがいくつかのタンパク質を選択し、マルチプルアラインメントを実 行することで保存性が高い残基を表示する。また、二次構造予測結果も 同様にマルチプルアラインメントし、保存性が高い二次構造を表示する。 20093より一般公開。 ワークフローは、立体構造知のタンパク質に関し、立体構造のモデ リングを行う。ユーザからアミノ酸配列を受取り、 BLAST/PSI-BLAST鋳型構造を探し、モデリングプログラムを実行する。また、鋳型構造が発 見できなかった領域が存在する場合は、構造認識実行後モデリングする。 さらに、ディスオーダー領域や膜貫通領域などのアノテーション情報も同 に計算/検索し、モデリングの結果とともにユーザに提示する。2009 12一般公開予定。 BLAST/PSI-BLAST NR Sequence Genomes selected by the user Multiple alignment (ClustalW/PRIME/T-Coffee) Secondary structure prediction Secondary structure alignment Show conserved regions (in 3D if the structure is known) Conserved regions Phylogenetic tree Emboss -All β prediction TMBETA-NET -β-sheet region prediction TMBETADISC-COMP -Cellular localization prediction WoLF-PSORT Sequence Check Uniprot - Secondary structure prediction - Buried residue prediction - Fold recognition - Disorder prediction Uniprot entry Results Not exist (Uniprot, PDB) Check TransMembrane TM Exist Check InterProScan Results InterProScan entry Exists -Secondary structure prediction Psipred, Jnet, Sable, Coils -Buried residue prediction Jnet, Sable -Fold recognition HHsearch -Disorder prediction POODLE-S,L,W,T - All β prediction - β-sheet region prediction - Cellular localization prediction Not exist BLAST/PSI-BLAST Sequence Show Models Modeller Fold Recognition POODLE/TMHMM Show Annotation template exists no template CBRCでは遺伝子ネットワーク推定システムとしてASIANAutomatic System for Inferring A Networkの略」)を開発しています。このシステムは、DNAマイクロア レイ等の遺伝子発現データに対し、階層型クラスタリングを適用し、クラスタ数を 結果画面 結果画面 異なるプロ グラムの予 測結果を揃 えて表示し、 目視認識度 を向上 保存度のレ ベルは3段階 アクティブ・ワークフローの開発 2009年度より、ソフトウェアの利用者であるユーザが、解析用途に応じて各解 析要素技術(プログラム)を組み合わせ解析構造体とし、要素技術を利用できる 基盤技術環境構築実施していますここでは能動的解析める CBRC ASIAN Server ASIAN Active Workflow Template modelling Template modelling Template modelling fold recognition modelling fold recognition modelling 推定し、クラスタ間の関係性を推定するシステムです。 ASIANの現状での課題に対応する、複数のデータタイプからASIANに適した形 式へ変換する方法や様々なクラスタリング機能がKNIME上で既に実現されてい るため、ASIANの機能をKINME上のノードとして実現し、ワークフロー化するこ とでユーザの求める機能を効率的に実現することができると考えられます。 基盤技術環境構築実施していますここでは能動的解析める ユーザを対象とし、それぞれ目的に応じて、独自のワークフローを構築し実行で きる目的指向アーキテクチャーを目指したプラットフォーム型アクティブ・ワークフ ローの開発を行っています。 KNIMEはオープンソースで開発され、無料で利用することができるソフトウェア であり、ノードと呼ばれるプログラム群をGUI上でインタラクティブに接続し、一連 のデータ解析を実現することができます。 階層型クラスタリング クラスタ発現データ 相関係数 偏相関係数 Graphical Gaussian Modeling (GGM) ネットワーク出力 Local PC SOAP ノード・レポジトリ ノード・レポジトリ ノード・レポジトリ ノード・レポジトリ ワークフロー・エディタ ワークフロー・エディタ ワークフロー・エディタ ワークフロー・エディタ ノード ノード ノード ノード説明 説明 説明 説明 お気に入り KNIME*プラットフォームの利用 http://www.knime.org Local PC ASIANアクティブ・ワークフロー

Upload: others

Post on 28-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Computational Biology Research Center Life Science ...lifesciencedb.jp/symposium2009/poster/B-4.pdf · Title (Microsoft PowerPoint - 2009JUN12-workflow-poster-draft4 [\214\335\212\267\203\202\201[\203h])

生命情報工学研究センター

Computational Biology Research Center

Life Science Database Integration Project, Workflow 2009Toshiyuki Tashiro, Yukimitsu Yabuki, Kazuhiko Fukui, Katsuhisa Horimoto, Tamotsu Noguchi, Kiyoshi Asai

Integration of Biological Information Group, CBRC, AIST

user

CBRC

GRID AIST EBI, DBCLS, NCBI, etc

request

results GRID

BLAST, CLUSTALW,

etc

Web portal

Scheduling,

Workflow

management

results

results

Query/Job

execution

request

results

request

Job execution

request

Web

services

Query/Job

execution

request

results

ASIAN

MXScarna

POODLE

GRIFFIN

WoLF

PSORT

統合DBにおけるCBRCの役割CBRCは2007年より文部科学省が推進するライフサイエンス統合データベースプロジェクトに参画しており、データベース・解析ソフトウエアを組み合せたワークフロー技術及び分散処理技術の開発を担当している。現在、多くのデータベース・ソフトウエアが存在するが、サイトが分散しており、これらを組み合せて使用する場合、時間と手間がかかり非効率的である。ユーザがこれら複数のデータベース・ソフトウエアを短時間に効率的に実行するためには、組合せ技術及び分散処理が不可欠である。CBRCはタンパク質立

体構造に関して有益な情報を提供する3点のワークフロー及びアクティブ・ワークフローを開発し提供します。

CBRC情報統合基盤サイト http://togo.cbrc.jp

CBRC Protein Structure Workflows

Comparative Protein Information WorkflowProtein Annotation Workflow Protein Modelling Workflow

本ワークフローは、立体構造未知のタンパク質に関し、構造及び機能のヒントとなる情報を幅広く実験研究者等に提供することを目的としており、各種プログラム等をGridにより効率的に分散処理し、従来と比し短時間で結果を表示する。

ユーザからアミノ酸配列を受取り、二次構造予測、埋れ残基予測、フォールド認識、ディスオーダー予測、膜タンパク質オールベータ・ベータシート予測、細胞内局在予測をGridにて分散処理を行う一方、データベース検索及び疎水性予測の

実行を他のサーバへ依頼し結果を取得後、全ての結果をユーザーが解析し易いよう配置し出力する。2008年12月末より一般公開。

本ワークフローは、相同なタンパク質を比較することで保存部位等構造上重要な部位を表示し、実験研究者等に提供することを目的としている。ユーザからアミノ酸配列を受取り、相同タンパク質を検索、その結果からユーザーがいくつかのタンパク質を選択し、マルチプルアラインメントを実行することで保存性が高い残基を表示する。また、二次構造予測結果も同様にマルチプルアラインメントし、保存性が高い二次構造を表示する。2009年3月末より一般公開。

本ワークフローは、立体構造未知のタンパク質に関し、立体構造のモデリングを行う。ユーザからアミノ酸配列を受取り、 BLAST/PSI-BLASTで

鋳型構造を探し、モデリングプログラムを実行する。また、鋳型構造が発見できなかった領域が存在する場合は、構造認識実行後モデリングする。さらに、ディスオーダー領域や膜貫通領域などのアノテーション情報も同時に計算/検索し、モデリングの結果とともにユーザに提示する。2009

年12月一般公開予定。

BLAST/PSI-BLASTNR

SequenceGenomes selected

by the user

Multiple alignment

(ClustalW/PRIME/T-Coffee)

Secondary structure prediction

Secondary structure alignment

Show conserved regions (in

3D if the structure is known)

Conserved

regions

Phylogenetic tree

Emboss

-All β prediction

TMBETA-NET

-β-sheet region prediction

TMBETADISC-COMP

-Cellular localization prediction

WoLF-PSORT

Sequence Check Uniprot

- Secondary structure prediction

- Buried residue prediction

- Fold recognition

- Disorder prediction

Uniprot

entry

Results

Not exist (Uniprot, PDB)

Check TransMembrane

TM

Exist

Check InterProScan

ResultsInterProScan

entry

Exists-Secondary structure prediction

Psipred, Jnet, Sable, Coils

-Buried residue prediction

Jnet, Sable

-Fold recognition

HHsearch

-Disorder prediction

POODLE-S,L,W,T

- All β prediction

- β-sheet region prediction

- Cellular localization

prediction

Not exist

BLAST/PSI-BLAST

Sequence

Show Models

Modeller Fold Recognition

POODLE/TMHMM

Show Annotation

template exists no template

CBRCでは遺伝子ネットワーク推定システムとしてASIAN(Automatic System for

Inferring A Networkの略」)を開発しています。このシステムは、DNAマイクロア

レイ等の遺伝子発現データに対し、階層型クラスタリングを適用し、クラスタ数を

結果画面 結果画面

異なるプログラムの予測結果を揃えて表示し、目視認識度を向上

保存度のレベルは3段階

アクティブ・ワークフローの開発

2009年度より、ソフトウェアの利用者であるユーザが、解析用途に応じて各解析要素技術(プログラム)を組み合わせ解析構造体とし、要素技術を利用できる基盤技術環境の構築を実施しています。ここでは、自ら能動的に解析を進める

CBRC ASIAN ServerASIAN Active Workflow

Template modelling

Template modelling

Template modelling

fold recognition

modellingfold recognition

modelling

推定し、クラスタ間の関係性を推定するシステムです。

ASIANの現状での課題に対応する、複数のデータタイプからASIANに適した形式へ変換する方法や様々なクラスタリング機能がKNIME上で既に実現されているため、ASIANの機能をKINME上のノードとして実現し、ワークフロー化することでユーザの求める機能を効率的に実現することができると考えられます。

基盤技術環境の構築を実施しています。ここでは、自ら能動的に解析を進めるユーザを対象とし、それぞれ目的に応じて、独自のワークフローを構築し実行できる目的指向アーキテクチャーを目指したプラットフォーム型アクティブ・ワークフローの開発を行っています。

KNIMEはオープンソースで開発され、無料で利用することができるソフトウェアであり、ノードと呼ばれるプログラム群をGUI上でインタラクティブに接続し、一連のデータ解析を実現することができます。

階層型クラスタリング

クラスタ発現データ 相関係数 偏相関係数

Graphical

Gaussian

Modeling

(GGM)

ネットワーク出力

Local PC

SOAP

ノード・レポジトリノード・レポジトリノード・レポジトリノード・レポジトリ

ワークフロー・エディタワークフロー・エディタワークフロー・エディタワークフロー・エディタ

ノードノードノードノード説明説明説明説明

おおおお気気気気にににに入入入入りりりり

KNIME*プラットフォームの利用

* http://www.knime.org

Local PC

ASIANアクティブ・ワークフロー