リード化合物探索とインフォマティクス3.コスト・時間削減...

生命情報実験第一（情報系）

「バイオインフォマティクスの道具箱」

「タンパク質化合物相互作用解析：

バーチャルスクリーニング」

慶應義塾大学生命情報学科

榊原康文，佐藤健吾

リード化合物探索とインフォマティクス

1.大量化合物の探索2.成功率向上3.コスト・時間削減

薬剤標的タンパク質

High Throughput Screening実験的検証

リード化合物= 薬剤候補

＋インフォマティクス

初期候補実験的検証

コンピュータ上で予測

バーチャルスクリーニング

タンパク質化合物

アミノ酸配列

立体構造

構造式

記述子

ペア

結合未知のタンパク質と化合物

結合予測

結合/非結合を予測２つの手法

ドッキング解析統計的手法を用いた予測

薬剤（低分子化合物）とターゲットタンパク質

（例）アスピリン（消炎鎮痛剤）

シクロオキシゲナーゼ酵素（Cyclooxygenase）

アセチルサリチル酸（acetylsalicylic acid）

バーチャルスクリーニングによるリード化合物探索

手順：

リード化合物探索に利用可能なウエブツール等を用いて，化合

物がターゲットタンパク質に結合（相互作用）するか否かを

予測する

① 【統計的予測手法による網羅的結合予測】

タンパク質と化合物の相互作用を予測するウェブツール

COPICAT を使用して，与えられたタンパク質と化合物に対

して，結合するか否かの予測を行う

② 【ドッキング解析による予測の検証】上記で結合すると予

測されたタンパク質と化合物のペアに対して，ドッキング解

析ツールであるAutoDock を用いて，その予測が物理化学

的（エネルギー的）に正しいことを確認する

バーチャルスクリーニングによるリード化合物探索

手順：

③ 【ドッキング解析のフィードバックと予測モデルの学習】

AutoDock のドッキング解析の結果から，COPICAT の結

合予測が正しくないと判断されたタンパク質化合物の情報

をCOPICAT にフィードバックして，再予測を行う．

具体的には，予測が正しくないと判断されたペアを学習

データに追加して，COPICAT の学習機能を用いて予測モ

デルを作成する．次に，この自ら作成した予測モデルを用

いて，再度，タンパク質と化合物に対して予測を行い，予測

がどのように変化したかを見る．

統計的予測システムの精度向上

AR結合予測化合物群

結合評価予測の誤りをフィードバック

予測システム検証実験

in vitro スクリーニングin silico スクリーニング

ターゲットタンパク質

小分子化合物

統計的予測とフィードバック戦略

今回は，AUTODOCKによる検証

ドッキング解析と統計解析

ドッキング解析（Structure Based Drug Design）

主鎖クーロンポテンシャル，van der Waals ポテンシャル

結合エネルギー

溶媒和エネルギー

標的酵素薬剤候補

活性評価

分子設計利点: 根拠が明確

信頼性が高い

欠点: 立体構造が必要膨大な計算量・時間

「タンパク質－化合物間相互作用」の予測手法ＣＯＰＩＣＡＴ

タンパク質

化合物

MSGLRTVSASSGNGKSY

TVDINGKKVKLQLWDTA

HANDEAQLLLVGNKSDM

QEKIDSNKLVGVGNGKE

アミノ酸配列サポートベクターマシン（SVM)

入力データ：コーディング

結合する

クラス

結合しないクラス

結合予測

大量の結合データ

学習構造式

タンパク質化合物結合の予測手法の利点

本手法の特徴

A a

b

c

B

C

タンパク質: 化合物:

結合＝薬剤-標的関係

統計モデル

タンパク質データベース

x網羅的標的タンパク質予測化合物

固定

化合物データベースY

網羅的結合リガンド予測

タンパク質固定

計算時間が高速（1相互作用予測 0.3秒） vs ドッキング手法AUTODOCK １００分

（欠点）予測精度は，学習データに依存結合部位が明示的には求まらない

本手法の利点

アンドロゲン受容体の立体構造

アンドロゲン受容体化合物（アンドロゲン, DHT）

ARAR

AR

ARAR 悪性化

アンドロゲン

ARAR

AR

ARAR

アンドロゲンアンタゴニスト

×

前立腺がん細胞

前立腺がん細胞

activator

repressor

ホルモン治療

アンドロゲン受容体

アンドロゲンとアンドロゲンアンタゴニスト

網羅的結合リガンド予測

PubChem Compound ２,０００万化合物

４６４化合物

標的タンパク質: Androgen Receptor (AR)（前立腺がんの原因遺伝子）

×

新規アンタゴニストの発見T5853872

タンパク質網羅的結合リガンド予測

化合物データベース

(Nagamine et al., PLoS comp. bio., 2009)

“ULTRA” High Throughput Virtual Screening

化合物情報の蓄積

PubChem

1億1800万～

ZINC

2000万～

化合物ライブラリー

数万～数十万

High Throughput Screening

リード化合物

化合物空間：1060～

ULTRA High Throughput Virtual Screening

網羅的予測

検証実験

( Bohacek et al., 1996 )

COPICAT：タンパク質化合物相互作用予測システム

URL: http://copicat.dna.bio.keio.ac.jp/

COPICAT：統計的相互作用予測システム

予測ジョブ投入画面：

COPICAT：統計的相互作用予測システム

予測結果画面：

PubChem, UniProtデータベースへのリンク

タンパク質配列立体構造のフォーマット

タンパク質情報：

Protein Data Bank (PDB) ：タンパク質立体構造情報+ 複合体立体構造情報

化合物

PDB ファイル形式：

⋯⋯

⋯

タンパク質

化合物

UniProt ：アミノ酸配列情報

HIV protease と阻害剤

indinavir の複合体）

> protein 1MSGLRTVSASSGNGKSYTVDINGKKVKLQLWDTA> protein 2HANDEAQLLLVGNKSDMQEKIDSNKLVGVGNGKE

FASTA形式：

⋯

⋯

化合物構造情報のフォーマット

データ形式：

sdf ファイル形式

座標

原子数結合数

化合物の（2次)構造式

有用なデータベース ①

化合物情報：

• KEGG (KEGG LIGAND, KEGG DRUG)

• PubChem （データ数：1億数千万～2億化合物）

入手可能な情報 (PubChem の場合)

• 構造情報 (sdf ファイル)• 物理化学特性値 (分子量, XLogP etc.)• SMILES• 類似化合物情報• バイオアッセイの結果• パスウェイ, 毒性等のデータベースへのリンクetc.

有用なデータベース ②

タンパク質-化合物結合情報：

• DrugBank - 薬剤とその標的タンパク質の情報

• GLIDA - GPCR の agonist/antagonist の情報

• Binding Database - (酵素中心) Ki 値 etc.

• PDSP Ki database - (受容体中心) Ki 値

阻害定数:

;平衡時, タンパク質濃度 ;平衡時, 阻害剤濃度

;平衡時, タンパク質-阻害剤複合体濃度

Ki 値が小さい (ex. pM) = 結合が極めて強い

AutoDock を用いたドッキング解析

特徴

– エネルギー計算：経験的スコア関数

– 配座探索：遺伝的アルゴリズム（GA），大域的＆局所的探索

protein ligand

+ ・・・

候補

ツール： AutoDock


エネルギー計算

化合物の座標・形をランダムに変化させながら, より複合体のエネルギーが安定する位置・形態を求める

GA

GA

適応度地形

化合物のとり得る座標・形態

初期配置

出力結果

座標変化etc.

AutoDock の仕組み


複合体の自由エネルギー Gを近似式により計算

van der waals

水素結合

静電相互作用

脱溶媒和

エントロピー

統計的予測システムの精度向上

AR結合予測化合物群

結合評価予測の誤りをフィードバック

予測システム検証実験

in vitro スクリーニングin silico スクリーニング

ターゲットタンパク質

小分子化合物

統計的予測とフィードバック戦略

今回は，AUTODOCKによる検証

レポート課題３

COPICATによる予測，AUTODOCKによる検証，フィードバックによる学習と再予測，の３つの演習を行う実行結果画面の図を張り付けるなどして，考察する

フィードバックによる学習と再予測により予測の変化を見る

AutoDock のドッキング結果の解析から，結合情報を取得して，主要な情報の値（affinity 値など）を示す

それらの値がどのような物理化学的特性について意味しているのかを調べる

結合している化合物とタンパク質の位置関係について考察

結合予測に用いた化合物について調べる（ヒント）アンドロゲンレセプターに結合する化合物の探索

アンドロゲンの受容体と前立腺がんとの関係やその治療法であるホルモン治療について調べる

（発展）PubChemから，アンドロゲンレセプターに結合する可能性のある新しい化合物の発見を試みる

リード化合物探索とインフォマティクス3.コスト・時間削減...

Documents