energetic conformational analysis of proteins - …fukunishi/img/fukunishi_drug...2 page3...

68
1 計算創薬化学(3) 福西 快文 産業技術総合研究所・創薬分子プロファイリング研究センター (molprof) 薬の開発は、標的(タンパク質や遺伝子)を探し、100万種類~数百万種類 の薬剤を試し、構造活性相関を調べて、新規化合物をデザイン、合成し、 アッセイし、細胞で、動物で、と試していく。 最低、20-30人のチームで行う。 労力の50%は、周囲の人とのコミュニケーションに費やす。 たとえ間違っていても、その時点で正しそうな作業仮説を立てなければ、多く の人を説得できず、研究は進められない。 チーム内でのトラブルでは、感情的に理屈を述べるのではなく、理性的に感 情を伝えること。そういった人間関係もプロジェクトの成否を左右する。 page2 分子設計に必要なこと (0)スクリーニングなどにより、活性化合物を得る (1)タンパク質と活性化合物の正確な複合体構造を知る。 X線構造解析、NMR実験、分子シミュレーション計算 (3)化合物を改変する(人間の知恵によるアートの世界) 3-① 「合成できる化合物」で、 3-② 水に溶け、吸収できる化合物でなければならない。 3-③ Kinase/GPCRの場合は、Off-targetに作用しないこと。 (4) 合成、アッセイ実験 (2)タンパク質と活性化合物の正確な結合活性を知る。

Upload: lehanh

Post on 03-May-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

1

計算創薬化学(3) 福西 快文

産業技術総合研究所創薬分子プロファイリング研究センター (molprof)

薬の開発は標的(タンパク質や遺伝子)を探し100万種類~数百万種類

の薬剤を試し構造活性相関を調べて新規化合物をデザイン合成しアッセイし細胞で動物でと試していく

最低20-30人のチームで行う

労力の50は周囲の人とのコミュニケーションに費やす

たとえ間違っていてもその時点で正しそうな作業仮説を立てなければ多くの人を説得できず研究は進められない

チーム内でのトラブルでは感情的に理屈を述べるのではなく理性的に感情を伝えることそういった人間関係もプロジェクトの成否を左右する

page2

分子設計に必要なこと

(0)スクリーニングなどにより活性化合物を得る

(1)タンパク質と活性化合物の正確な複合体構造を知る X線構造解析NMR実験分子シミュレーション計算

(3)化合物を改変する(人間の知恵によるアートの世界) 3-① 「合成できる化合物」で 3-② 水に溶け吸収できる化合物でなければならない 3-③ KinaseGPCRの場合はOff-targetに作用しないこと

(4) 合成アッセイ実験

(2)タンパク質と活性化合物の正確な結合活性を知る

2

page3

Structure-based drug screening

蛋白質ー化合物相互作用パネルの解析

-標的蛋白質構造が既知の場合ー

ランダムな実験(HTSなど)ではヒットは1万化合物に1化合物しかない

ドッキング計算だけでヒット化合物を見つけるのはドッキングソフトの精度が悪いので難しい

いろいろな工夫をして精度をカバーする

計算スクリーニングではヒット率(計算で予測して購入した化合物に対する実際に実験してヒットする化合物の割合)は1~10になる

page4

group

file_name mts mts_score SUPPLIER

c001 0006240-01 1 -20627 Ambinter

c001 0020411-01 3 -20674 Ambinter

c001 0013395-01 4 -20611 Ambinter

c001 0020413-01 5 -20663 Ambinter

c001 0013566-01 6 -20617 Ambinter

c001 0002135-01 7 -20683 Ambinter

c001 0020501-01 8 -20617 Ambinter

c001 0022138-01 9 -2091 Ambinter

c001 0022583-01 10 -20709 Ambinter

c001 0021187-01 11 -20647 Ambinter

c002 0103033-01 2 02702 Aronis

データベースエンリッチメントカーブスクリーニングの評価方法

購入化合物数(ないし個数)

ヒッ

ト化

合物

数(

ない

し個

数)

薬物スクリーニング

薬物スクリーニングで順位づけした化合物を上位から何購入したら本来データベースに含まれていたヒット化合物を何を見つけられたかを示す

良い

悪い

ヒット率

ヒット率=ヒット数購入化合物数x100()

3

page5

ROC(ロック)カーブReciever Operating Characteristic Curve

スクリーニングの評価方法

Folase positive (擬陽性)

Tru

e p

osi

tive

(真陽

性)

購入化合物は計算において「陽性」(ヒット)と判定されたものである

購入化合物においてはずれ(擬陽性)とヒット(true positive)をプロットしたものがROCカーブである

良い

悪い

少数のスコア上位化合物を購入する場合ヒットが多くはずれは少ないので図左はしにプロットされる

ROCカーブは縦横軸の定義が各種あり様々なものが存在する

一般にデータベース中のヒット化合物数が

ヒット化合物数 << データベース化合物

であればデータベースエンリッチメントカーブはほぼROCカーブに一致する

ROCは数学的だがデータベースエンリッ

チメントカーブは横軸が経費そのものなので後者が便利な場合が多い

page6

In silico薬物スクリーニングの標的依存性タンパク質によって成績はバラバラ

GLWarren et al J Med Chem (2006) 495912-5931

4

page7 GLWarren et al J Med Chem (2006) 495912-5931

In silico薬物スクリーニングのソフトウェア依存性ソフトによって成績はバラバラ

page8

計算機スクリーニングでは通常標的蛋白質に一番強く結合する化合物を選び出すしかし実際には「どの蛋白質にも強く結合する化合物」や「どの蛋白質にも結合しない化合物」が存在し蛋白質と活性化合物のペアを見出すことは難しい

しかし1つの化合物に着目すると一番結合しやすい蛋白質は比較的容易に見出される

そこで多数の蛋白質と化合物をドッキングさせ各化合物に対してどの蛋白質が結合しやすいかを調べ標的蛋白質に選択的に結合する化合物をヒット化合物として選ぶ

このようにすると従来よりはるかに高いヒット率で活性化合物を選出できる

既知医薬品探索の例では計算予測上位1の化合物を選ぶとその中に既知の医薬品がランダムスクリーニングに比較して平均40倍の確率で含まれる程度の結果を得ることが出来た

ドッキング ne スクリーニング計算

薬物ドッキングスクリーニング

5

化合物 compound

標的蛋白質 Target protein

化合物 compound

標的蛋白質 Target protein

副作用

Side effect 副作用

Side effect

副作用

Side effect

副作用

Side effect

6

page11

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page12

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

7

page13

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

ヒット化合物

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page14

In silico screeningの開発(Multiple target screening)

標的に効いて副作用の少ない化合物を予測できる

ヒット率(活性化合物が予測によって見つかる確率)は世界標準ソフトの約10倍を達成

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

8

page15

分子設計に必要なこと

(0)スクリーニングなどにより活性化合物を得る

(1)タンパク質と活性化合物の正確な複合体構造を知る X線構造解析NMR実験分子シミュレーション計算

(3)化合物を改変する(人間の知恵によるアートの世界) 3-① 「合成できる化合物」で 3-② 水に溶け吸収できる化合物でなければならない 3-③ KinaseGPCRの場合はOff-targetに作用しないこと

(4) 合成アッセイ実験

(2)タンパク質と活性化合物の正確な結合活性を知る

page16

化合物ライブラリー

sievgene

(1)化合物の標的蛋白質へのふるいわけ

標的 ポケット1 ポケット2 ポケット3

(2)ふるいわけられた化合物集合に対する通常のin silicoスクリーニング

Multiple target screeningの流れ

0

20

40

60

80

100

0

10

20

30

40

50

60

70

80

90

100

Number of compounds ()

Hit r

atio

n ()

0

20

40

60

80

100

0 10 20 30 40 50 60 70 80 90 100

Number of Compounds ()

Hit r

atio

()

MTS法

生のdocking scoreを用いたとき

Score=55 Score=32 Score=21

9

page17

Docking score modification

-application to in-silico screeningー

① 相互作用行列の情報でスコアの精度を向上させる

② 実験データをフィードバックすることで計算機スクリーニングの精度を向上させる

既に得られた実験情報(どれがヒット化合物か)を利用して

計算スクリーニングの精度を高める

この方法だとヒット率は10~50にまで高まる

page18

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

i

i

i

ai

a

i

i

i

bi

b

i

i

ai

a

i

i

i

bi

bb

a

Nc

s

sNc

s

s

Nc

s

sNc

s

s

R

22 )()(

))((

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとるノイズを低減するには類似蛋白質と化合物iとのドッキングスコアを類似度に応じた重みをつけて平均することで可能になる

似たタンパク質は似た化合物を結合するだろう

10

page19

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとる

ドッキングスコアは他のタンパク質へのドッキングスコアの重み付平均で精度を向上できる

似たタンパク質は似た化合物を結合するだろう

ドッキングスコア~タンパク質ー化合物結合自由エネルギー(ΔG)

page20

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

11

page21

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

page22

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

医薬品探索のヒット率は改善(~3 rarr ~10) ドッキングスコア タンパク質ー化合物結合自由エネルギー(ΔG)は改善せず

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 2: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

2

page3

Structure-based drug screening

蛋白質ー化合物相互作用パネルの解析

-標的蛋白質構造が既知の場合ー

ランダムな実験(HTSなど)ではヒットは1万化合物に1化合物しかない

ドッキング計算だけでヒット化合物を見つけるのはドッキングソフトの精度が悪いので難しい

いろいろな工夫をして精度をカバーする

計算スクリーニングではヒット率(計算で予測して購入した化合物に対する実際に実験してヒットする化合物の割合)は1~10になる

page4

group

file_name mts mts_score SUPPLIER

c001 0006240-01 1 -20627 Ambinter

c001 0020411-01 3 -20674 Ambinter

c001 0013395-01 4 -20611 Ambinter

c001 0020413-01 5 -20663 Ambinter

c001 0013566-01 6 -20617 Ambinter

c001 0002135-01 7 -20683 Ambinter

c001 0020501-01 8 -20617 Ambinter

c001 0022138-01 9 -2091 Ambinter

c001 0022583-01 10 -20709 Ambinter

c001 0021187-01 11 -20647 Ambinter

c002 0103033-01 2 02702 Aronis

データベースエンリッチメントカーブスクリーニングの評価方法

購入化合物数(ないし個数)

ヒッ

ト化

合物

数(

ない

し個

数)

薬物スクリーニング

薬物スクリーニングで順位づけした化合物を上位から何購入したら本来データベースに含まれていたヒット化合物を何を見つけられたかを示す

良い

悪い

ヒット率

ヒット率=ヒット数購入化合物数x100()

3

page5

ROC(ロック)カーブReciever Operating Characteristic Curve

スクリーニングの評価方法

Folase positive (擬陽性)

Tru

e p

osi

tive

(真陽

性)

購入化合物は計算において「陽性」(ヒット)と判定されたものである

購入化合物においてはずれ(擬陽性)とヒット(true positive)をプロットしたものがROCカーブである

良い

悪い

少数のスコア上位化合物を購入する場合ヒットが多くはずれは少ないので図左はしにプロットされる

ROCカーブは縦横軸の定義が各種あり様々なものが存在する

一般にデータベース中のヒット化合物数が

ヒット化合物数 << データベース化合物

であればデータベースエンリッチメントカーブはほぼROCカーブに一致する

ROCは数学的だがデータベースエンリッ

チメントカーブは横軸が経費そのものなので後者が便利な場合が多い

page6

In silico薬物スクリーニングの標的依存性タンパク質によって成績はバラバラ

GLWarren et al J Med Chem (2006) 495912-5931

4

page7 GLWarren et al J Med Chem (2006) 495912-5931

In silico薬物スクリーニングのソフトウェア依存性ソフトによって成績はバラバラ

page8

計算機スクリーニングでは通常標的蛋白質に一番強く結合する化合物を選び出すしかし実際には「どの蛋白質にも強く結合する化合物」や「どの蛋白質にも結合しない化合物」が存在し蛋白質と活性化合物のペアを見出すことは難しい

しかし1つの化合物に着目すると一番結合しやすい蛋白質は比較的容易に見出される

そこで多数の蛋白質と化合物をドッキングさせ各化合物に対してどの蛋白質が結合しやすいかを調べ標的蛋白質に選択的に結合する化合物をヒット化合物として選ぶ

このようにすると従来よりはるかに高いヒット率で活性化合物を選出できる

既知医薬品探索の例では計算予測上位1の化合物を選ぶとその中に既知の医薬品がランダムスクリーニングに比較して平均40倍の確率で含まれる程度の結果を得ることが出来た

ドッキング ne スクリーニング計算

薬物ドッキングスクリーニング

5

化合物 compound

標的蛋白質 Target protein

化合物 compound

標的蛋白質 Target protein

副作用

Side effect 副作用

Side effect

副作用

Side effect

副作用

Side effect

6

page11

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page12

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

7

page13

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

ヒット化合物

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page14

In silico screeningの開発(Multiple target screening)

標的に効いて副作用の少ない化合物を予測できる

ヒット率(活性化合物が予測によって見つかる確率)は世界標準ソフトの約10倍を達成

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

8

page15

分子設計に必要なこと

(0)スクリーニングなどにより活性化合物を得る

(1)タンパク質と活性化合物の正確な複合体構造を知る X線構造解析NMR実験分子シミュレーション計算

(3)化合物を改変する(人間の知恵によるアートの世界) 3-① 「合成できる化合物」で 3-② 水に溶け吸収できる化合物でなければならない 3-③ KinaseGPCRの場合はOff-targetに作用しないこと

(4) 合成アッセイ実験

(2)タンパク質と活性化合物の正確な結合活性を知る

page16

化合物ライブラリー

sievgene

(1)化合物の標的蛋白質へのふるいわけ

標的 ポケット1 ポケット2 ポケット3

(2)ふるいわけられた化合物集合に対する通常のin silicoスクリーニング

Multiple target screeningの流れ

0

20

40

60

80

100

0

10

20

30

40

50

60

70

80

90

100

Number of compounds ()

Hit r

atio

n ()

0

20

40

60

80

100

0 10 20 30 40 50 60 70 80 90 100

Number of Compounds ()

Hit r

atio

()

MTS法

生のdocking scoreを用いたとき

Score=55 Score=32 Score=21

9

page17

Docking score modification

-application to in-silico screeningー

① 相互作用行列の情報でスコアの精度を向上させる

② 実験データをフィードバックすることで計算機スクリーニングの精度を向上させる

既に得られた実験情報(どれがヒット化合物か)を利用して

計算スクリーニングの精度を高める

この方法だとヒット率は10~50にまで高まる

page18

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

i

i

i

ai

a

i

i

i

bi

b

i

i

ai

a

i

i

i

bi

bb

a

Nc

s

sNc

s

s

Nc

s

sNc

s

s

R

22 )()(

))((

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとるノイズを低減するには類似蛋白質と化合物iとのドッキングスコアを類似度に応じた重みをつけて平均することで可能になる

似たタンパク質は似た化合物を結合するだろう

10

page19

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとる

ドッキングスコアは他のタンパク質へのドッキングスコアの重み付平均で精度を向上できる

似たタンパク質は似た化合物を結合するだろう

ドッキングスコア~タンパク質ー化合物結合自由エネルギー(ΔG)

page20

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

11

page21

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

page22

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

医薬品探索のヒット率は改善(~3 rarr ~10) ドッキングスコア タンパク質ー化合物結合自由エネルギー(ΔG)は改善せず

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 3: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

3

page5

ROC(ロック)カーブReciever Operating Characteristic Curve

スクリーニングの評価方法

Folase positive (擬陽性)

Tru

e p

osi

tive

(真陽

性)

購入化合物は計算において「陽性」(ヒット)と判定されたものである

購入化合物においてはずれ(擬陽性)とヒット(true positive)をプロットしたものがROCカーブである

良い

悪い

少数のスコア上位化合物を購入する場合ヒットが多くはずれは少ないので図左はしにプロットされる

ROCカーブは縦横軸の定義が各種あり様々なものが存在する

一般にデータベース中のヒット化合物数が

ヒット化合物数 << データベース化合物

であればデータベースエンリッチメントカーブはほぼROCカーブに一致する

ROCは数学的だがデータベースエンリッ

チメントカーブは横軸が経費そのものなので後者が便利な場合が多い

page6

In silico薬物スクリーニングの標的依存性タンパク質によって成績はバラバラ

GLWarren et al J Med Chem (2006) 495912-5931

4

page7 GLWarren et al J Med Chem (2006) 495912-5931

In silico薬物スクリーニングのソフトウェア依存性ソフトによって成績はバラバラ

page8

計算機スクリーニングでは通常標的蛋白質に一番強く結合する化合物を選び出すしかし実際には「どの蛋白質にも強く結合する化合物」や「どの蛋白質にも結合しない化合物」が存在し蛋白質と活性化合物のペアを見出すことは難しい

しかし1つの化合物に着目すると一番結合しやすい蛋白質は比較的容易に見出される

そこで多数の蛋白質と化合物をドッキングさせ各化合物に対してどの蛋白質が結合しやすいかを調べ標的蛋白質に選択的に結合する化合物をヒット化合物として選ぶ

このようにすると従来よりはるかに高いヒット率で活性化合物を選出できる

既知医薬品探索の例では計算予測上位1の化合物を選ぶとその中に既知の医薬品がランダムスクリーニングに比較して平均40倍の確率で含まれる程度の結果を得ることが出来た

ドッキング ne スクリーニング計算

薬物ドッキングスクリーニング

5

化合物 compound

標的蛋白質 Target protein

化合物 compound

標的蛋白質 Target protein

副作用

Side effect 副作用

Side effect

副作用

Side effect

副作用

Side effect

6

page11

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page12

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

7

page13

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

ヒット化合物

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page14

In silico screeningの開発(Multiple target screening)

標的に効いて副作用の少ない化合物を予測できる

ヒット率(活性化合物が予測によって見つかる確率)は世界標準ソフトの約10倍を達成

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

8

page15

分子設計に必要なこと

(0)スクリーニングなどにより活性化合物を得る

(1)タンパク質と活性化合物の正確な複合体構造を知る X線構造解析NMR実験分子シミュレーション計算

(3)化合物を改変する(人間の知恵によるアートの世界) 3-① 「合成できる化合物」で 3-② 水に溶け吸収できる化合物でなければならない 3-③ KinaseGPCRの場合はOff-targetに作用しないこと

(4) 合成アッセイ実験

(2)タンパク質と活性化合物の正確な結合活性を知る

page16

化合物ライブラリー

sievgene

(1)化合物の標的蛋白質へのふるいわけ

標的 ポケット1 ポケット2 ポケット3

(2)ふるいわけられた化合物集合に対する通常のin silicoスクリーニング

Multiple target screeningの流れ

0

20

40

60

80

100

0

10

20

30

40

50

60

70

80

90

100

Number of compounds ()

Hit r

atio

n ()

0

20

40

60

80

100

0 10 20 30 40 50 60 70 80 90 100

Number of Compounds ()

Hit r

atio

()

MTS法

生のdocking scoreを用いたとき

Score=55 Score=32 Score=21

9

page17

Docking score modification

-application to in-silico screeningー

① 相互作用行列の情報でスコアの精度を向上させる

② 実験データをフィードバックすることで計算機スクリーニングの精度を向上させる

既に得られた実験情報(どれがヒット化合物か)を利用して

計算スクリーニングの精度を高める

この方法だとヒット率は10~50にまで高まる

page18

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

i

i

i

ai

a

i

i

i

bi

b

i

i

ai

a

i

i

i

bi

bb

a

Nc

s

sNc

s

s

Nc

s

sNc

s

s

R

22 )()(

))((

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとるノイズを低減するには類似蛋白質と化合物iとのドッキングスコアを類似度に応じた重みをつけて平均することで可能になる

似たタンパク質は似た化合物を結合するだろう

10

page19

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとる

ドッキングスコアは他のタンパク質へのドッキングスコアの重み付平均で精度を向上できる

似たタンパク質は似た化合物を結合するだろう

ドッキングスコア~タンパク質ー化合物結合自由エネルギー(ΔG)

page20

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

11

page21

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

page22

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

医薬品探索のヒット率は改善(~3 rarr ~10) ドッキングスコア タンパク質ー化合物結合自由エネルギー(ΔG)は改善せず

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 4: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

4

page7 GLWarren et al J Med Chem (2006) 495912-5931

In silico薬物スクリーニングのソフトウェア依存性ソフトによって成績はバラバラ

page8

計算機スクリーニングでは通常標的蛋白質に一番強く結合する化合物を選び出すしかし実際には「どの蛋白質にも強く結合する化合物」や「どの蛋白質にも結合しない化合物」が存在し蛋白質と活性化合物のペアを見出すことは難しい

しかし1つの化合物に着目すると一番結合しやすい蛋白質は比較的容易に見出される

そこで多数の蛋白質と化合物をドッキングさせ各化合物に対してどの蛋白質が結合しやすいかを調べ標的蛋白質に選択的に結合する化合物をヒット化合物として選ぶ

このようにすると従来よりはるかに高いヒット率で活性化合物を選出できる

既知医薬品探索の例では計算予測上位1の化合物を選ぶとその中に既知の医薬品がランダムスクリーニングに比較して平均40倍の確率で含まれる程度の結果を得ることが出来た

ドッキング ne スクリーニング計算

薬物ドッキングスクリーニング

5

化合物 compound

標的蛋白質 Target protein

化合物 compound

標的蛋白質 Target protein

副作用

Side effect 副作用

Side effect

副作用

Side effect

副作用

Side effect

6

page11

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page12

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

7

page13

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

ヒット化合物

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page14

In silico screeningの開発(Multiple target screening)

標的に効いて副作用の少ない化合物を予測できる

ヒット率(活性化合物が予測によって見つかる確率)は世界標準ソフトの約10倍を達成

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

8

page15

分子設計に必要なこと

(0)スクリーニングなどにより活性化合物を得る

(1)タンパク質と活性化合物の正確な複合体構造を知る X線構造解析NMR実験分子シミュレーション計算

(3)化合物を改変する(人間の知恵によるアートの世界) 3-① 「合成できる化合物」で 3-② 水に溶け吸収できる化合物でなければならない 3-③ KinaseGPCRの場合はOff-targetに作用しないこと

(4) 合成アッセイ実験

(2)タンパク質と活性化合物の正確な結合活性を知る

page16

化合物ライブラリー

sievgene

(1)化合物の標的蛋白質へのふるいわけ

標的 ポケット1 ポケット2 ポケット3

(2)ふるいわけられた化合物集合に対する通常のin silicoスクリーニング

Multiple target screeningの流れ

0

20

40

60

80

100

0

10

20

30

40

50

60

70

80

90

100

Number of compounds ()

Hit r

atio

n ()

0

20

40

60

80

100

0 10 20 30 40 50 60 70 80 90 100

Number of Compounds ()

Hit r

atio

()

MTS法

生のdocking scoreを用いたとき

Score=55 Score=32 Score=21

9

page17

Docking score modification

-application to in-silico screeningー

① 相互作用行列の情報でスコアの精度を向上させる

② 実験データをフィードバックすることで計算機スクリーニングの精度を向上させる

既に得られた実験情報(どれがヒット化合物か)を利用して

計算スクリーニングの精度を高める

この方法だとヒット率は10~50にまで高まる

page18

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

i

i

i

ai

a

i

i

i

bi

b

i

i

ai

a

i

i

i

bi

bb

a

Nc

s

sNc

s

s

Nc

s

sNc

s

s

R

22 )()(

))((

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとるノイズを低減するには類似蛋白質と化合物iとのドッキングスコアを類似度に応じた重みをつけて平均することで可能になる

似たタンパク質は似た化合物を結合するだろう

10

page19

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとる

ドッキングスコアは他のタンパク質へのドッキングスコアの重み付平均で精度を向上できる

似たタンパク質は似た化合物を結合するだろう

ドッキングスコア~タンパク質ー化合物結合自由エネルギー(ΔG)

page20

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

11

page21

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

page22

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

医薬品探索のヒット率は改善(~3 rarr ~10) ドッキングスコア タンパク質ー化合物結合自由エネルギー(ΔG)は改善せず

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 5: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

5

化合物 compound

標的蛋白質 Target protein

化合物 compound

標的蛋白質 Target protein

副作用

Side effect 副作用

Side effect

副作用

Side effect

副作用

Side effect

6

page11

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page12

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

7

page13

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

ヒット化合物

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page14

In silico screeningの開発(Multiple target screening)

標的に効いて副作用の少ない化合物を予測できる

ヒット率(活性化合物が予測によって見つかる確率)は世界標準ソフトの約10倍を達成

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

8

page15

分子設計に必要なこと

(0)スクリーニングなどにより活性化合物を得る

(1)タンパク質と活性化合物の正確な複合体構造を知る X線構造解析NMR実験分子シミュレーション計算

(3)化合物を改変する(人間の知恵によるアートの世界) 3-① 「合成できる化合物」で 3-② 水に溶け吸収できる化合物でなければならない 3-③ KinaseGPCRの場合はOff-targetに作用しないこと

(4) 合成アッセイ実験

(2)タンパク質と活性化合物の正確な結合活性を知る

page16

化合物ライブラリー

sievgene

(1)化合物の標的蛋白質へのふるいわけ

標的 ポケット1 ポケット2 ポケット3

(2)ふるいわけられた化合物集合に対する通常のin silicoスクリーニング

Multiple target screeningの流れ

0

20

40

60

80

100

0

10

20

30

40

50

60

70

80

90

100

Number of compounds ()

Hit r

atio

n ()

0

20

40

60

80

100

0 10 20 30 40 50 60 70 80 90 100

Number of Compounds ()

Hit r

atio

()

MTS法

生のdocking scoreを用いたとき

Score=55 Score=32 Score=21

9

page17

Docking score modification

-application to in-silico screeningー

① 相互作用行列の情報でスコアの精度を向上させる

② 実験データをフィードバックすることで計算機スクリーニングの精度を向上させる

既に得られた実験情報(どれがヒット化合物か)を利用して

計算スクリーニングの精度を高める

この方法だとヒット率は10~50にまで高まる

page18

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

i

i

i

ai

a

i

i

i

bi

b

i

i

ai

a

i

i

i

bi

bb

a

Nc

s

sNc

s

s

Nc

s

sNc

s

s

R

22 )()(

))((

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとるノイズを低減するには類似蛋白質と化合物iとのドッキングスコアを類似度に応じた重みをつけて平均することで可能になる

似たタンパク質は似た化合物を結合するだろう

10

page19

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとる

ドッキングスコアは他のタンパク質へのドッキングスコアの重み付平均で精度を向上できる

似たタンパク質は似た化合物を結合するだろう

ドッキングスコア~タンパク質ー化合物結合自由エネルギー(ΔG)

page20

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

11

page21

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

page22

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

医薬品探索のヒット率は改善(~3 rarr ~10) ドッキングスコア タンパク質ー化合物結合自由エネルギー(ΔG)は改善せず

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 6: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

6

page11

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page12

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

7

page13

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

ヒット化合物

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page14

In silico screeningの開発(Multiple target screening)

標的に効いて副作用の少ない化合物を予測できる

ヒット率(活性化合物が予測によって見つかる確率)は世界標準ソフトの約10倍を達成

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

8

page15

分子設計に必要なこと

(0)スクリーニングなどにより活性化合物を得る

(1)タンパク質と活性化合物の正確な複合体構造を知る X線構造解析NMR実験分子シミュレーション計算

(3)化合物を改変する(人間の知恵によるアートの世界) 3-① 「合成できる化合物」で 3-② 水に溶け吸収できる化合物でなければならない 3-③ KinaseGPCRの場合はOff-targetに作用しないこと

(4) 合成アッセイ実験

(2)タンパク質と活性化合物の正確な結合活性を知る

page16

化合物ライブラリー

sievgene

(1)化合物の標的蛋白質へのふるいわけ

標的 ポケット1 ポケット2 ポケット3

(2)ふるいわけられた化合物集合に対する通常のin silicoスクリーニング

Multiple target screeningの流れ

0

20

40

60

80

100

0

10

20

30

40

50

60

70

80

90

100

Number of compounds ()

Hit r

atio

n ()

0

20

40

60

80

100

0 10 20 30 40 50 60 70 80 90 100

Number of Compounds ()

Hit r

atio

()

MTS法

生のdocking scoreを用いたとき

Score=55 Score=32 Score=21

9

page17

Docking score modification

-application to in-silico screeningー

① 相互作用行列の情報でスコアの精度を向上させる

② 実験データをフィードバックすることで計算機スクリーニングの精度を向上させる

既に得られた実験情報(どれがヒット化合物か)を利用して

計算スクリーニングの精度を高める

この方法だとヒット率は10~50にまで高まる

page18

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

i

i

i

ai

a

i

i

i

bi

b

i

i

ai

a

i

i

i

bi

bb

a

Nc

s

sNc

s

s

Nc

s

sNc

s

s

R

22 )()(

))((

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとるノイズを低減するには類似蛋白質と化合物iとのドッキングスコアを類似度に応じた重みをつけて平均することで可能になる

似たタンパク質は似た化合物を結合するだろう

10

page19

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとる

ドッキングスコアは他のタンパク質へのドッキングスコアの重み付平均で精度を向上できる

似たタンパク質は似た化合物を結合するだろう

ドッキングスコア~タンパク質ー化合物結合自由エネルギー(ΔG)

page20

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

11

page21

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

page22

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

医薬品探索のヒット率は改善(~3 rarr ~10) ドッキングスコア タンパク質ー化合物結合自由エネルギー(ΔG)は改善せず

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 7: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

7

page13

In silico screening手法開発(Multiple target screening)

1 2 3 4 5 6 7 8 9 10 111 1 12 8 3 1 6 4 2 4 4 62 9 11 9 2 2 1 5 3 3 1 53 10 10 10 12 3 5 6 5 2 5 44 11 9 5 1 6 4 2 1 1 3 35 4 8 7 11 5 3 7 6 11 2 26 3 1 6 4 4 12 1 4 10 6 17 8 2 2 5 9 2 8 7 9 7 128 12 5 11 6 8 11 9 8 8 8 119 2 7 3 10 7 10 10 12 12 9 10

10 7 3 12 7 12 9 11 9 7 10 911 6 4 4 8 10 8 12 10 6 11 8

化合物ライブラリー

蛋白

質ラ

イブ

ラリ

1つの化合物を

標的蛋白質蛋白質+それ以外の200種類の蛋白質にドッキングし

結合力を見積もる

標的蛋白質

ヒット化合物

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

page14

In silico screeningの開発(Multiple target screening)

標的に効いて副作用の少ない化合物を予測できる

ヒット率(活性化合物が予測によって見つかる確率)は世界標準ソフトの約10倍を達成

複数の蛋白質の中で標的に一番強く結合する化合物を選ぶ

8

page15

分子設計に必要なこと

(0)スクリーニングなどにより活性化合物を得る

(1)タンパク質と活性化合物の正確な複合体構造を知る X線構造解析NMR実験分子シミュレーション計算

(3)化合物を改変する(人間の知恵によるアートの世界) 3-① 「合成できる化合物」で 3-② 水に溶け吸収できる化合物でなければならない 3-③ KinaseGPCRの場合はOff-targetに作用しないこと

(4) 合成アッセイ実験

(2)タンパク質と活性化合物の正確な結合活性を知る

page16

化合物ライブラリー

sievgene

(1)化合物の標的蛋白質へのふるいわけ

標的 ポケット1 ポケット2 ポケット3

(2)ふるいわけられた化合物集合に対する通常のin silicoスクリーニング

Multiple target screeningの流れ

0

20

40

60

80

100

0

10

20

30

40

50

60

70

80

90

100

Number of compounds ()

Hit r

atio

n ()

0

20

40

60

80

100

0 10 20 30 40 50 60 70 80 90 100

Number of Compounds ()

Hit r

atio

()

MTS法

生のdocking scoreを用いたとき

Score=55 Score=32 Score=21

9

page17

Docking score modification

-application to in-silico screeningー

① 相互作用行列の情報でスコアの精度を向上させる

② 実験データをフィードバックすることで計算機スクリーニングの精度を向上させる

既に得られた実験情報(どれがヒット化合物か)を利用して

計算スクリーニングの精度を高める

この方法だとヒット率は10~50にまで高まる

page18

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

i

i

i

ai

a

i

i

i

bi

b

i

i

ai

a

i

i

i

bi

bb

a

Nc

s

sNc

s

s

Nc

s

sNc

s

s

R

22 )()(

))((

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとるノイズを低減するには類似蛋白質と化合物iとのドッキングスコアを類似度に応じた重みをつけて平均することで可能になる

似たタンパク質は似た化合物を結合するだろう

10

page19

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとる

ドッキングスコアは他のタンパク質へのドッキングスコアの重み付平均で精度を向上できる

似たタンパク質は似た化合物を結合するだろう

ドッキングスコア~タンパク質ー化合物結合自由エネルギー(ΔG)

page20

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

11

page21

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

page22

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

医薬品探索のヒット率は改善(~3 rarr ~10) ドッキングスコア タンパク質ー化合物結合自由エネルギー(ΔG)は改善せず

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 8: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

8

page15

分子設計に必要なこと

(0)スクリーニングなどにより活性化合物を得る

(1)タンパク質と活性化合物の正確な複合体構造を知る X線構造解析NMR実験分子シミュレーション計算

(3)化合物を改変する(人間の知恵によるアートの世界) 3-① 「合成できる化合物」で 3-② 水に溶け吸収できる化合物でなければならない 3-③ KinaseGPCRの場合はOff-targetに作用しないこと

(4) 合成アッセイ実験

(2)タンパク質と活性化合物の正確な結合活性を知る

page16

化合物ライブラリー

sievgene

(1)化合物の標的蛋白質へのふるいわけ

標的 ポケット1 ポケット2 ポケット3

(2)ふるいわけられた化合物集合に対する通常のin silicoスクリーニング

Multiple target screeningの流れ

0

20

40

60

80

100

0

10

20

30

40

50

60

70

80

90

100

Number of compounds ()

Hit r

atio

n ()

0

20

40

60

80

100

0 10 20 30 40 50 60 70 80 90 100

Number of Compounds ()

Hit r

atio

()

MTS法

生のdocking scoreを用いたとき

Score=55 Score=32 Score=21

9

page17

Docking score modification

-application to in-silico screeningー

① 相互作用行列の情報でスコアの精度を向上させる

② 実験データをフィードバックすることで計算機スクリーニングの精度を向上させる

既に得られた実験情報(どれがヒット化合物か)を利用して

計算スクリーニングの精度を高める

この方法だとヒット率は10~50にまで高まる

page18

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

i

i

i

ai

a

i

i

i

bi

b

i

i

ai

a

i

i

i

bi

bb

a

Nc

s

sNc

s

s

Nc

s

sNc

s

s

R

22 )()(

))((

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとるノイズを低減するには類似蛋白質と化合物iとのドッキングスコアを類似度に応じた重みをつけて平均することで可能になる

似たタンパク質は似た化合物を結合するだろう

10

page19

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとる

ドッキングスコアは他のタンパク質へのドッキングスコアの重み付平均で精度を向上できる

似たタンパク質は似た化合物を結合するだろう

ドッキングスコア~タンパク質ー化合物結合自由エネルギー(ΔG)

page20

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

11

page21

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

page22

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

医薬品探索のヒット率は改善(~3 rarr ~10) ドッキングスコア タンパク質ー化合物結合自由エネルギー(ΔG)は改善せず

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 9: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

9

page17

Docking score modification

-application to in-silico screeningー

① 相互作用行列の情報でスコアの精度を向上させる

② 実験データをフィードバックすることで計算機スクリーニングの精度を向上させる

既に得られた実験情報(どれがヒット化合物か)を利用して

計算スクリーニングの精度を高める

この方法だとヒット率は10~50にまで高まる

page18

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

i

i

i

ai

a

i

i

i

bi

b

i

i

ai

a

i

i

i

bi

bb

a

Nc

s

sNc

s

s

Nc

s

sNc

s

s

R

22 )()(

))((

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとるノイズを低減するには類似蛋白質と化合物iとのドッキングスコアを類似度に応じた重みをつけて平均することで可能になる

似たタンパク質は似た化合物を結合するだろう

10

page19

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとる

ドッキングスコアは他のタンパク質へのドッキングスコアの重み付平均で精度を向上できる

似たタンパク質は似た化合物を結合するだろう

ドッキングスコア~タンパク質ー化合物結合自由エネルギー(ΔG)

page20

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

11

page21

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

page22

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

医薬品探索のヒット率は改善(~3 rarr ~10) ドッキングスコア タンパク質ー化合物結合自由エネルギー(ΔG)は改善せず

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 10: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

10

page19

スコアの修正 Direct Score Modification (DSM)法

b

b

a

b

b

a

i

bi

anew

R

Rs

s

Sai docking score of a-th protein and i-th compound

たんぱく質aと化合物iのドッキングスコアは蛋白質aに類似した蛋白質bと化合物iのドッキングスコアに近い値をとる

ドッキングスコアは他のタンパク質へのドッキングスコアの重み付平均で精度を向上できる

似たタンパク質は似た化合物を結合するだろう

ドッキングスコア~タンパク質ー化合物結合自由エネルギー(ΔG)

page20

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

11

page21

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

page22

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

医薬品探索のヒット率は改善(~3 rarr ~10) ドッキングスコア タンパク質ー化合物結合自由エネルギー(ΔG)は改善せず

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 11: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

11

page21

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

page22

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning Score Modification (MSM)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

ドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

MTS法でスクリーニング

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

医薬品探索のヒット率は改善(~3 rarr ~10) ドッキングスコア タンパク質ー化合物結合自由エネルギー(ΔG)は改善せず

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 12: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

12

page23

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

original

DSM

ml-DSM

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hi

ts ()

original

MDS

ml-MDS

180蛋白質使用 24蛋白質使用

標的蛋白質近傍の類似蛋白質の数とDSM法でのデータベースエンリッチメントの関係

類似の蛋白質が多数あれば数に比例してエンリッチメントは向上する

DSMMSM法の結果

DSMは100蛋白質以上使用すると有効MSMは24蛋白質でも有効(MSM>DSM)

page24

MTSの結果とMSM-MTSの結果

MTSの結果 MSM-MTSの結果

MSM-MTSの結果はヒット率が高いだけでなく標的蛋白質の種類の違い構造の違いに対してロバストな結果を与えるので使いやすい

COX-2 inhibitorの探索 5cox (apo)4cox (holo)6cox(holo)

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 13: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

13

page25

iiijij SS )(

スコアの補正スコアの順位の代わりにMASCスコア(スコアの偏差値)を導入する

Vigers GPA and Rizzi JP Multiple active site

corrections for docking and virtual screening J

Med Chem 2004 47 80-89

σ スコア

Srsquo

Srsquo補正後のスコア偏差値に相当する(Z score)

μ

同一化合物(i)を複数の蛋白質にドッキングさせ

化合物iが蛋白質jに結合

するときのスコアが標準値からどれだけずれているか偏差値Srsquoijを求める

1つの化合物に着目したとき標的蛋白質に対して飛びぬけたスコアを示す化合物がヒット化合物である

page26

Method Database enrichment at 5 compound

Database enrichment at 10 compound

MTS 2580 3480

MASC 3410 5080

Raw 1620 2680

MTS+MASC 5634 6549

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

MTS法(緑)とMASCスコア(青)の比較 蛋白質ー化合物相互作用行列

MTS法 MASCスコア法

和集合

標的によってMTS法が優れている場合もMASCスコアが優れている場合もある

実際にはMTS+MASCの和集合をとってスクリーニングに用いている

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 14: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

14

page27

リガンド複合体の構造予測

リード最適化の段階ではなんらかの蛋白質ー化合物複合体の3D構造が決定されていることがしばしばある

ドッキングソフトでの複合体モデリングは不正確だが実験値を利用すれば分子のモデリングをしながら複合体の予測がある程度可能になる

page28

RMSDlt1A

1AltRMSDlt2A

2AltRMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

sievgene複合体の構造が分かっているときの再現性

V40 平均ドッキング時間2秒 平均ヒット率27倍 RMSD lt 2Å56 RMSD lt3Å 66 V41 平均ドッキング時間13秒 平均ヒット率30倍 RMSD lt 2Å60 RMSD lt3Å 69 高速モード 平均ドッキング時間03秒 平均ヒット率20倍 RMSD lt 2Å55 RMSD lt3Å 65

世界の一般的な商用ソフトと同レベルの精度速度は10-100倍高速

この範囲が正解

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 15: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

15

page29

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

1mrkrmsd=077Aring

1licrmsd=160Aring 1kjprmsd=293Aring

SievgenemyPresto現実のドッキングソフトの精度

In cross docking

test

~25 of

predicted

complexes show

RMSD lt 20Aring

実際の構造の予測精度は25

スコアが1番良い構造を選ぶ

page30

蛋白質A+リガンドB

蛋白質Arsquo+リガンドC

Cross docking

docking

Self docking

もっともらしい構造

蛋白質AにおいてリガンドBが結合していた位置にリガンドCが結合している状態がもっともらしい

予測構造1

予測構造2

予測構造3

レファレンス座標 より現実的なCross dockingテスト

複合体モデリングの精密化ドッキング結果の選択

Maximum Volume Overlap法

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 16: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

16

page31

1結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

2結晶構造との重なりを考慮

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

もっともらしい構造

予測構造1

予測構造2

結晶構造データを利用したドッキング結果の精密化

ドッキングのスコアではなく別の化合物の複合体構造と重なりの大きなドッキング予測構造を採用すると正しい複合体構造を得やすい

RMSD<2A 60 RMSDlt2A 71

Original dokcing score

RMSDlt1A

RMSDlt2A

RMSDlt3A

RMSDgt3A

RMSDlt2A 25

page32

標的タンパク質3D構造

化合物をドッキング

タンパク質のi番目の残基と化合物が接触しているか(1)いないか(0)をfingerprintとするタンパク質がN残基含んでいればN次元ベクトルとなる=SIFt

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 17: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

17

page33

S

N

O

HO

H

CH3

SIFt

0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0

0 1 0 0

0 0

0 1

SIFT=タンパク質ー化合物複合体の

立体構造(ポーズ)を1次元の数列に直す方法

アミノ酸配列に対し化合物と接触するものは「1」接触しないものは「0」とするとポーズは数列(ベクトル)となる

1次元の数字の列は扱いが簡単

page34

SIFtの例SIFtで化合物をクラスタリングし分類することができる

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 18: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

18

合計

化合物A 0 1 1 0 1

化合物B 0 1 1 0 1

AcupB 0 1 1 0 1 3

AcapB 0 1 1 0 1 3 類似度=1

合計

化合物A 0 1 1 0 1

化合物B 1 0 0 0 0

AcupB 1 1 1 0 1 4

AcapB 0 0 0 0 0 0 類似度=0

合計

化合物A 0 1 1 0 1

化合物B 0 1 0 1 1

AcupB 0 1 1 1 1 4

AcapB 0 1 0 0 1 2 類似度=05

ベクトルデータの距離と類似度

谷本インデックス

ベクトルの ユークリッド距離

マハラノビス距離

マンハッタン距離など

定義は多数ある

類似度のインデックスも多数

D(AB)=radicΣ(Ai-Bi)^2

タンパク質ー化合物複合体(ポーズ)がベクトルになった=簡単に立体構造の類似性も議論できる

page36

既知化合物を用いたヒット化合物探索ができる

既知活性化合物をドッキングしSIFtを作成

データベースの化合物のSIFtを作成

既知化合物のSIFtとDBの化合物のSIFtの類似度を谷本インデックスなどで評価し類似化合物を検索する

SIFtでのTc

ヒット化合物

ヒット率

ドッキングスクリーニングより高い

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 19: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

19

page37

活性化合物1 活性化合物2 活性化合物3

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

CoLBA法 既知活性化合物の共通ポーズから正しいポーズを推定広川貴次

page38

CoLBA法広川貴次(molprofAIST)

①相互作用類似尺度異なる2分子のポーズabが似ているとかどういうことか

標的蛋白質のi番目の残基との

HB水素結合数

HC疎水性接触数

をP(i)としヒストグラムPの間の類似性Sを定義

最終的に重みwをつけて

ポーズab間の類似度とする

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 20: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

20

page39

CoLBA法

②エネルギー順位スコア

ポーズaのスコアは化合物Aの

ポーズのベストスコアからの差スコアに置き換える

リガンドABのポーズab間

のエネルギー順位スコアをそれぞれの差分スコアの平均とおく

Sab

ESab

スコア上位

スコア悪い

ポーズにてない ポーズ似ている

スコアもよくポーズにも共通性が見られる 化合物ABの共通ポーズ

正しいポーズが見つかれば

ファーマコフォアサーチの要領で効率良くヒット化合物を探索できる

③a bポーズペアを分布図にする

page40

スコア1位化合物

スコア2位化合物

スコア3位化合物

スコア1位

ドッキング

ポーズ

スコア2位

ドッキング

ポーズ

スコア3位

ドッキング

ポーズ

ファーマコグラム法 ドッキングスコア上位化合物から薬理作用団位置推定

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 21: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

21

page41

ファーマコグラム法藤田折田(アステラス製薬)

多数のドッキング結果で ベンゼン環など特徴的なフラグメント の分布を空間をメッシュに切って 記録する

局在傾向の見られるフラグメントの種類と位置を同定する => ファーマコフォアを作る

ドッキング結果からファーマコフォアを満たすものを選択する

page42

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

同じ分子の多数のドッキングポーズとスコアを比較することで

もっともらしい構造を選抜できる

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 22: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

22

page43

着目するポーズ

着目したポーズからの距離(RMSD)

着目したポーズからの距離(RMSD)

エネ

ルギ

エネ

ルギ

複数のポーズのうちもっともらしいものをどう選ぶか

のポーズは最安定でない

のポーズは最安定

page44

予備知識なしに正しいタンパク質ーリガンド複合体構造を求める方法

ドッキングスコア prop log(正しい座標とのRMSD)

ドッキングスコア propしない log(不正な座標とのRMSD)

化合物jのドッキングポーズが多数あるとする特定のポーズiに対しその他のポーズのRMSDを計算しドッキングスコアlog(RMSD)の相関係数(Ri)を計算する

PSRi = maxRi - Ri

ポーズiを参照座標に選んだときの相関係数が大PSRi ~0(ポーズiはもっともらしい)

ポーズiを参照座標に選んだときの相関係数が小PSRi は大

PSRi

赤正しいhArr青不正

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 23: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

23

Feature selection-based consensus scoring (FSCS) 寺本福西(NEC)

活性化合物が存在し1つでも良いので蛋白質―化合物複合体の結晶構造が解けているとする

この活性化合物の自由エネルギー面(PMF)は横軸を正解複合体構造からのずれ(RMSD)にとるとファネル型をしていると仮定する

通常ドッキングスコアの精度はさほど良くないのできれいなファネル型のPMFは得られないそこで

複数(5-6種類)のスコア関数を用い

FSCS = Σ w(i)score(i)

というコンセンサスをとって新しいスコア関数を導入する

FSCS = Σ w(i)score(i) このとき係数wはRMSDに対するFSCSによるPMFがファネル型になるように決定するこれは線形回帰式でもよいしサポートベクターマシンで決めても良い

実際にやってみるとFSCSによってきれいなファネル型になる場合が結構ある

ならない場合もある

RMSD

スコア

この新しいスコアでスクリーニングすると

ヒット率が向上した

FSCSもドッキングポーズのアンサンブルの発生のさせ方に結果が強く依存する

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 24: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

24

page47

0

20

40

60

80

100

0 20 40 60 80 100

Num

ber

of hits

()

Number of compounds ()

Consensus docking-pose selection (CDPS) method

)()1()(min)( ALADAScore x

Npose

ADAD

AL

Npose

x

x

1

2)))()((

)(

Na

a

Nb

b

Nres

ibond

b

ixbond

b

i

Nres

iatom

a

ixatom

a

ix MrefAMMrefAMAD1 1 1

22

1

))()(1())(()(

ファーマコグラム法と同様にスクリーニング上位化合物の原子(結合)の分布をレファレンスとし化合物の原子(結合)分布の一致度をスコアとする さらに化合物の複数のポーズを用いポーズが空間的に局在しているかどうかをスコアに反映する

全スコア

原子結合の分布の一致度

ポーズの空間分布の広がり度合い

(局在するものほど結合が強い

ポーズが分散しているものは結合が弱い)

適用結果CDPS()補正前()

page48

Ligand-based drug screening 化合物の類似性を利用した既知活性化合物の類似化合物

探索によるスクリーニング

既にヒット化合物がある文献で知られている

などの場合により優れた(活性の強い副作用の少ない)

ヒットリード化合物を化合物データベースから見つけてくる方法

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 25: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

25

page49

化合物の類似性

化合物の類似性を比較するには化合物の特徴を示す複数の数値(分子記述子)を与えそのベクトル間の距離により類似度を計算するのが代表的なやり方である

分子記述子

質量原子数電荷慣性半径HOMO-LUMO分子軌道エネルギーグラフ特性量(細谷インデックスWienerインデックス)など

OHO

O

O

3453 2278 -1245 0149 333 1 4 0hellip

TGS法(myPresto)検索速度1300万分子時間

page50

OHO

O

O

1 C-C-O-C-O

2 C-C-C-C

3 C-(C=O)-C

4 C-C-O-H

HO

N O

O

O

HO

OH

O

O

S N

HO

HO

化合物の類似性MACCS Keyなどのやりかたある部分構造があるかないか

化合物A

1 2 3 4

A 1 1 1 1

B 0 1 0 1

C 0 1 0 1

D 0 1 0 1

化合物B

化合物C

化合物D

数原子からなる部分構造を100-300種類用意する

これらの構造を含むか含まないかいくつ含むかを数え上げる

1化合物に100-300次元のベクトルデータが与えられる

このベクトル間の距離を化合物の類似性と定義する

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 26: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

26

page51

分子に含まれる原子基を5つのfeatureに分類し(donar acceptor acid base

hydrohobe)さらに分子内での各featureの距離をfeature間の結合の数で10段階に分類する分子から15とおりのfeatureの組み合わせを選び各featureの組み合わせと距離の出現頻度をこの150(=15x10)次元のベクトルに記録する

CATS記述子分子内で水素結合をする部分などの距離を「特徴」とする方法

page52

ドッキングによる蛋白質間化合物間の相同性の導入と分類

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

化合物ライブラリー(chemical compound library)

蛋白

質ラ

イブ

ラリ

ー(p

rote

in p

ock

et l

ibra

ry)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

異なるタンパク質でも同じ化合物を結合すれば「類似タンパク質」

類似化合物

Similar compounds

低選択性化合物

類似ポケット

Similar pockets

低選択性ポケット

Low selectivity

化合物探索や高選択性の分子標的薬を見つけるための定量的な基礎を作る

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 27: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

27

page53

受容体ポケットiと化合物集合の各元とのドッキングスコアvi = (s1i s2

i s3i helliphellipsN

i)

M

k

j

k

i

k

jiij ssvvD1

22 )()(

M

k

j

k

i

k

ij ssD1

受容体ポケットの集合P=p1 p2 p3 hellip pM

化合物の集合X=x1 x2 hellip xN

距離相同性選択性の定義

受容体ポケットi-j間の距離の定義

又は

(添え字を交換することで化合物の距離相同性選択性の定義にも使える)

化合物がN個あるときタンパク質にN個のスコアを対応させ

2つのタンパク質間の距離をN次元空間の2点間の距離で定義する

2つのタンパク質間の相同性はN次元空間でのベクトルの内積で表現する

スコア1

スコ

ア2

距離

相同性 タンパク質1

タンパク質2

ユークリッド距離一般化ユークリッド距離マンハッタン距離マハラノビス距離などが使えるが結果に大差なし

page54

Cluster Proteins Feature Content in Content in cluster database

Cluster 1 1abe1 1abe2 5app1 5app2 1abf1 Sugar-binding 70(7) 53(7)

1abf2 2gbp 1lst 1lah 1ebg

Cluster 2 1tni 1tng 1tnl 1tnh 1f0s Serine protease 20(4) 83(11)

1hfc 1atl 1f0r 1nqp 1mrg

1xid 1hyt 1f3d 1xie 1ai5

2ack 3erd 1a28 2ada 1dog

Cluster 3 1b9v 1a4q 2qwk 1a4g 1a42 Neuraminidase 263(5) 38(5)

1ejn 2tmn 1snc 1ivb 1hsb Hydrolase 263(5) 128(17)

1aqw 1glp 3tpl 1fl3 1mdr

1cps 1cbx 1pbd 1hsl

Cluster 4 1tlp 1lna 1tmn 5er1 1rne HIV protease 19(4) 45(6)

1pso 1ets 1gbr 1htf1 1htf2 Acid protease 286(6) 45(6)

1byg 1byb 1hos 1hdc 1dd7

1ida 1epo 1apt 1eed 1apu

2ctc

Cluster 5 1pph 1mts 1ppc 3cla 1d0l Endonuclease 160(4) 30(4)

1srj 1rob 1mmq 1jap 2aad Serine protease 240(6) 83(11)

1rnt 1fki 4est 1pma 2pk4

2fox 1mup 6rnt 1tyl 1nco

1rds 1cdg 1fkg 1nis 1aco

Cluster 6 5cpp 1phd 2cpp 1png 1dr1 Oxidoreductase 458(11) 121(16)

1coy 1cvu 3ert 4lbd 1dg5

1aoe 1ckp 1poc 1lic 1dhf

1epb 1cbs 2ifb 1fen 1qbu

1hpv 4phv 2cnt 1d3h

Cluster 7 1com 1c1e 1okl 1c5c 1yee Catalytic antibody 231(3) 22(3)

1b58 7tim 1c83 3cpa 1lcp Oxidoreductase 231(3) 121(16)

1qpq 2cmd 1mld

化合物ドッキングによる受容体ポケットのクラスター解析

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 28: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

28

page55

Docking score index method

-in silico screening method based on known active

compounds-

ドッキング計算を利用したLigand-based drug screening

化合物の類似性を利用した既知活性化合物の類似化合物探索によるスクリーニング

page56

1 2 3 4 5 6 7 8 9 10 11 121 2 3 4 5 6 78 9

1011 12

(chemical compound library)

(pro

tein

po

cket

lib

rary

)

構造の異なる分子であっても同じタンパク質に結合すれば「類似の化合物」

ベクトルデータを主成分分析するとデータを可視化できるし

誤差を低減することで精度も上がる

score

=standard value+

C1(deviation 1)

+c2(deviation 2)

+c3(deviation 3)

+c4helliphelliphellip

既知ヒット化合物 予想されるヒット化合物

ドッキングによる化合物間の相同性の導入

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 29: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

29

page57

化合物ライブラリー

ドッキングソフト

(1)化合物の標的蛋白質へのふるいわけ

標的 蛋白質1 蛋白質2 蛋白質3

(2)ふるいわけられた化合物をスコア順に並べなおす

Multiple target screening法

Score=55 Score=32 Score=21

性別 身長 血液型

男 170 A型

COOH

O CH3

O

ベンゼン環

メチル基

カルボン酸

ニトロ基

1 1 1 0

蛋白質1 蛋白質2 蛋白質3 蛋白質4

-31 -14 -04 -21

Docking score index法

犯人

DSI

分子骨格

ヒット化合物

page58

DSI法でのスクリーニング

化合物空間を用いたMIFの活性化合物の表現

MIFの構造

MIFの活性化合物

実験的にMIFのHIT化合物とNON-HIT化合物を取得共同研究田辺製薬

化合物の空間におけるHIT化合物とNON-HIT化合物の分布をPCAで図示し比較する

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 30: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

30

page59

相互作用行列の主成分解析

化合物の空間

MIFの活性化合物不活性化合物の主成分解析

活性化合物

既知活性化合物

不活性化合物

PCAにより化合物空間を張ると

活性化合物と不活性化合物の存在する空間は局在化している

標的タンパク質の構造が未知でもHIT探索が可能

HIT化合物探索やFocusedライブラリーの設計に応用可能

MIFの構造を用いずに他の25種類

のタンパク質とのタンパク質ー低分子ドッキングの解析を行なった

第1-2軸の空間

第3-4軸の空間

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

生のデータ

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 31: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

31

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x1

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

スムージング

隣り合うデータの平均をとっていく

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングは繰り返し行える

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 32: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

32

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

スムージングした結果と元の信号の比較

2次元3次元のデータでも適用可能 たとえばマルチカノニカルMDのエネルギー分布など各種ヒストグラム

ドッキング計算でのグリッドポテンシャルなど実験データ以外の各種データに使うことができる ドッキング計算でのグリッドポテンシャルの平滑化はinduced-fitの考慮になる

スムージング x1 x2

X1rsquo

x1 x2 x3

X1rsquo X2rsquo

X1rsquorsquo

元のデータ フーリエ変換 パワースペクトル

フィルター (高周波成分を低減する)

逆フーリエ変換 ノイズを低減したデータ

スムージングはフーリエ変換フィルターの1種 (フィルターに多項式を用いた畳み込み積分を使った場合に相当する)

フーリエ変換フィルター

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 33: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

33

元データ

2次元フーリエ変換

ノイズに当たる 高周波数成分 を除去

逆フーリエ変換

指紋

66

主成分分析PCA

主成分分析法は 多数のデータを分類する教師なし学習法であって データの共分散行列を対角化することで基底ベクトル系を得る

各データを基底ベクトルの空間に射影することでデータが主成分空間の点としてあらわされる方法である 基底ベクトルによって表現される情報は直交している また対角化の過程において軸の方向(符号)は意味を持たない

共分散行列の対角化において各基底ベクトルの固有値はその固有ベクトルが表現できるデータ量を表している

したがって多次元データを主成分分析した場合固有値の大きい基底ベクトルを少数選ぶことで多次元データを低次元データに圧縮することができる

結果はフーリエ変換に似ている

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 34: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

34

67

主成分分析は日常的に自然の感覚として行っている

蛯原友里 押切もえ ジャイアント馬場 仲間由紀恵

朝青龍 徳澤直子 本上まなみ ガッツ石松

顔の「輪郭」を分類してみよう画像データは膨大な数値データのかたまりだが果たして処理できるのか

68

なんだかこんな感じだ

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 35: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

35

69

正解間違いといった教師信号なしに本能的に分類できるrarr教師なし学習法 空間の真ん中に平均像を置き おおまかな特徴に応じてデータを配置する

横長 平均 縦長

逆三角形

三角形

横長ー縦長という情報と ーという情報は 互いを表現できない「直交」した情報 独立した(直交した)情報で分類する これがPCAである

顔の輪郭を

主成分分析するのは

フーリエ解析するのと

ほぼ同じ結果になる

主成分分析とフーリエ解析の定義は全く異なる

しかし

主成分分析(PCA)での

第一主成分

第二主成分

第三主成分

はフーリエ解析での

sin(x)

sin(2x)

sin(3x)

などのフーリエ成分とだいたい

同じになる

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 36: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

36

page71

MIFの活性化合物不活性化合物の主成分解析(DSI method)

既知HIT化合物を中心に化合物を選択するとRS法と同等性能のdatabase

enrichmentが得られる

rarr 有用なFocused Libraryが作れる

DSI法全蛋白質(MIF含む)

DSI法25蛋白質MIFなし

MASC法全蛋白質(全蛋白質)

MASC法26蛋白質

DSI法では標的蛋白質を用いても用いなくても同等の結果が得られる

page72

GPCRの活性化合物不活性化合物への応用

購入化合物(約1万5千化合物)のうち活性化合物32化合物(IC50 lt 10μM)と残りの不活性化合物1000化合物(合計1033化合物)及び特許化合物を142タンパクに対してドッキング計算しPCA解析を行った

GPCRでの検証アステラス製薬

特許化合物()を中心にしてスクリーニング

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of h

its(

)

10m_4axis

30m_4axis

30m_6axis

-16

-14

-12

-10

-8

-6

-4

-2

0

2

4

6

-10 -5 0 5 10

PCA 1

PC

A 2

Negative

特許

Active(30m+10m)

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 37: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

37

主成分分析と情報エントロピーを用いたノイズ低減方法

データを主成分解析 これはフーリエ変換ににている 大ざっぱな情報(元データの多くを表現する)から 詳細情報(ノイズに相当する)までの成分に分解する

PCAでの寄与の低い成分を中心

にデータを誤差範囲内で修正する

このとき復元後のデータの情報エントロピーを最大化するようにする

主成分からのデータの復元

Chemical Physics177993 85-90 Y Fukunishi T Kasai K Kuwata

-25

-2

-15

-1

-05

0

05

1

15

2

25

0 5 10 15 20 25 30 35

情報エントロピー

情報エントロピー ノイズ成分 -3385

情報エントロピー-3049 情報エントロピー-2003

情報エントロピー=Σpi log(pi) = intp(x)log(p(x))dx

Piは事象の起こる確率や頻度総和が1になるように規格化する Σpi = intp(x) dx = 1

薬物ドッキングスクリーニングのときドッキングスコアに適用しノイズ低減を行うことでヒット率を高めることができる

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 38: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

38

フーリエ変換 パワースペクトルのフィルターリング 逆フーリエ変換

元データ ノイズ低減後のデータ

主成分分析

各成分のフィルター (復元後データのエントロピー最大化)

逆変換

主成分回帰 (PCR)

スムージング

PLS回帰 回帰後のデータに与える成分を 分析(フーリエ変換PCAにほぼ類似)

Non-linear PLS カーネルPLS SVMなど

Y = a + c1 x1 + c2 x2 + c3 x3 +helliphellip

Y = a + c1 x1 + c2 x2 + c3 x3 +hellip + d1x1x1 + d2 x1x2 + d3x2x2 +hellip

フーリエ成分主成分に類似

回帰分析

データ整形

回帰分析モデル構築予測

page76

b

b

a

i

b

i

anew Mss

スコアの修正 Machine-learning DSI (ML-DSI)法

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12

既知活性化合物が存在する場合ドッキングスコアを他のドッキングスコアの線形結合で補正する

機械学習法により最適なデータベースエンリッチメントを与えるように

主成分軸の選択とドッキングスコアの線形結合係数を調整する

線形結合係数の調整

ドッキングスコアの修正

データベースエンリッチメントの計算

データベースエンリッチメントが最適化されるまで反復する

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

DSI法でスクリーニング

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 39: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

39

page77

protein set A

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of hits

()

DSI

FR-DSI

ML-DSI

protein set E

0

20

40

60

80

100

0 20 40 60 80 100Number of compounds ()

Num

ber

of h

its

()

DSI

FR-DSI

ML-DSI

180蛋白質使用 24蛋白質使用

DSIFS-DSIML-DSI法の結果

ML-DSI法では上位1化合物を選択した場合約70の活性化合物が選択される

page78

MTS法の結果 DSI法の結果

コンセンサスをとる

ヒット化合物候補

標的構造と既知活性化合物がある場合のMTS法とDSI法の結果の統合

X線結晶構造 MDシミュレーションをした構造

MTSDSI和集合(cup)積集合(cap)

積集合が最もヒット率は高い

分子構造の多様性では和集合が高い

目的に応じて両者を使い分ける

(構造のホッピング新規骨格を入手したいか活性を伸ばすことに重点を置くか)

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 40: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

40

page79

手法 対象化合物 購入化合物数 ヒット数 ヒット率 Enrichment

Random screening 10万 10万 7 001 x1

Glide (Schrodinger) 40万 700 0 0 x0

myPresto 100万 900 35 360 x460

100万化合物中にはヒット化合物が~100程度あると予想されるがMTSDSIではそれらがだいたい予想の範囲に入っていると考えられる

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの900を購入活性測定

実証実験AIST塩野義製薬(TACE)

数十化合物を予測rarr数化合物がヒット(ヒット率10)の場合

それ以上のヒット化合物を得るためには結局ランダムスクリーニングをしないといけない

JBIRC

塩野義製薬

page80

酵素阻害剤

108個の化合物のアッセイ(1次100μMでの活性)の測定結果

100阻害 23個 (21)

50以上阻害 11個 (50以上阻害は合計で31以上)

50未満阻害 34個

MTSでの予測化合物 DSIでの予測化合物

共通集合(3000化合物)

うちただちに購入できるもの108個を購入活性測定

実証実験AIST創薬バリューチェーン

JBIRC

京都大学

大阪大学

化合物を類似性でクラスタリング代表化合物を選抜

創薬バリューチェーン坂田恒昭井上豪他 関西を中心に大学企業の有志で結成した仮想創薬受託研究機関

その他1次ヒットでヒット率10-50の実施例が複数例あり

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 41: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

41

81

Noise Reduction Method for Molecular Interaction Energy Application to in Silico

Drug Screening and in Silico Target Protein Screening

Yoshifumi Fukunishidagger Satoru KubotaDagger and Haruki Nakamura J Chem Inf Model 46 2071-2084 (2006)

副作用の予測

蛋白質構造を基にドッキング計算で標的蛋白質を探すと余り当たらない これは薬物スクリーニングの精度に比べて相当悪い

ドッキングによる標的蛋白質の探索 薬物スクリーニング

page82

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds ()

No

of li

gand

s (

)

薬物を代謝するCYP(P450)は体内に数十種類ある2つの薬物が同時に同じCYPで代謝されると代謝が遅れて薬の濃度が高まるなどの「薬物間相互作用」が生じる

DSI法による副作用予測

P450での代謝はタンパク質との相互作用

標的発見率

薬物がどのCYPで代謝されるかをDSI法で予測できた

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 42: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

42

83

副作用の予測 Similarity Ensemble Approach (SEA)

Large-scale prediction and testing of drug activity on side-effect targets

Eugen Lounkine Michael J Keiser Steven Whitebread Dmitri Mikhailov Jacques Hamon Jeremy L Jenkins

Paul Lavan4 Eckhard Weber4 Allison K Doak3 Serge Coˆteacute4 Brian K Shoichet3 amp Laszlo Urban1

2 1 J U N E 2 0 1 2 | VO L 4 8 6 | N AT U R E | 3 6 1

ChEMBLには150万種類の活性化合物の 1万蛋白質との相互作用が収録されている

ldquo似ている2つの蛋白質は似た化合物を結合しやすいldquo化合物類似性で標的を探す

page84

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Output layer

Kernel layer K(xkx)

DSIの代わりになる手法サポートベクターマシンSupport vector machine

化合物 rarr X1 x2 x3 x4 hellipXd feature vector

Hit(f(x)gt0)かnon-hit(f(x)lt0)か 化合物にfeature vectorを割

りあてニューラルネットワークに相当するベクトルの内積などの計算で判別関数fを計算することで判定する

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 43: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

43

page85

g(x)

X= X1 X2 X3 Xk helliphellip Xd Input layer

w1 wk wd

f(x)

Kernel layer K(xkx)

化合物 rarr ラーメンチャーシューアイスフルーツ feature vector

旨いか不味いか

非線形応答 チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=NG ラーメンパフェ=NG

単層(パーセプトロン)なら チャーシューラーメン=OK フルーツパフェ=OK フルーツラーメン=OK ラーメンパフェ=OK

DSIの代わりになる手法サポートベクターマシンSupport vector machine

page86

Support vector machine

wtw

f

Feature vectorの空間 射影された高次元のfeature vectorの空間

active

inactive

DSIの代わりになる手法サポートベクターマシンSupport vector machine

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 44: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

44

page87

g(x)

Input

f(x)

Output

Kernel

X X1 Xk

f(x) f(x1) f(xk)

Support vectors

f(x)f(x1) f(x)f(xk)

Input vector

Support vector machine DSIの代わりになる手法サポートベクターマシンSupport vector machine

page88

m

k

s

kk bxxKwxg

xgsignxf

1

)()(

))(()(

Support vector machine

xは入力ベクトル wkおよびb は識別関数を決定するパラメータxks はSV mはSVの数であるK はベクトルxks およびx を引数とする関数でカーネル関数と呼ばれる

)2

exp()(2

21

21

xxxxK

δ はガウシアン型カーネル関数の拡がりを決定するパラメータでユーザが事前に値を定義する

DSIの代わりになる手法サポートベクターマシンSupport vector machine

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 45: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

45

page89

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

タバコを吸うと癌になる確率

Featureタバコを吸う(吸わない)

Active 癌になる

たばこを吸うと癌になる確率は

癌になった人がタバコを吸っていた割合

人口に対する癌患者数

喫煙率

調べやすい統計データから調べにくい確率を求める手法

page90

分子の構造からその一般的な性質を知る手法ベイズ統計法

)(

)()|()|(

featureP

activePactivefeaturePfeatureactiveP

)(

)()|(

)|()|()|( 21

featureP

activePactivefeatureP

activefeaturePactivefeaturePfeatureactiveP

n

「ある部分構造をもつ」など 右辺はデータベースから計算可能

複数のfeatureが1分子に適用できる場合

(ただし各featureの寄与は結果に対し独立に作用するとする)

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 46: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

46

page91

In silicoスクリーニング

2D記述子 計算

Dockingスコア計算

上位の結果を選択

Re-ranking

上位化合物の特徴抽出(ベイズ統計法)

AEKlon et al J Med Chem (2004)

472743-2749 0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds()

Num

ber

of

hits

()

P180_org

P180_SVM

機械学習法のin silicoスクリーニングへの応用

蛋白質ー化合物

相互作用行列

主成分分析

DSI法

(kNN) DSI-SVM

FlexXの結果

Sievgene(福西)

page92

DS I

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

MT S

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

No of c ompounds()

No

of

hit

s(

)

DB enrich by MMPBSA

0

20

40

60

80

100

0 20 40 60 80 100

No of compounds()

No o

f hits(

)

MMPBSA by NEC佐久間

大規模スクリーニングの後の化合物順位付け場面で違う手法の効果

PGDSについて200万化合物をMTS+DSIでスクリーニング100化合物を購入20ヒットを得た

後で購入化合物のスクリーニング結果を整理してみるとMMPBSAの活性評価が優れていることが分かる

DSIはヒット率は高いが類似化合物探索なので活性の高い分子を選ぶわけではないMTS法は用いたタンパク質数までしか効果がない(上位1を選ぶのには効果的)MMPBSAは最後に絞った1万化合物の順位付けに強い

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 47: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

47

page93

実験でヒットがでたら次のスクリーニング計算の準備をする

OHO O

OHO

NH2

S

O

HO

OH

O

O

Cl

Cl

Cl

O

O

O

N

MeMe

N

N

N

Me

Me

Cl

分子の類似性でヒット化合物をグループ分けする 数十は

擬陽性

捨てる

グループ1機械学習DSIへかける

グループ2機械学習DSIへかける グループ1amp2機械学習MTSへかける

共通集合をとる 共通集合をとる

page94

Evaluation of chemical compound library

化合物データベースの評価化合物空間を描いてみる

-we can evaluate the diversity of a series of compounds or

combinatorial library by the PCA of affinity matrix-

蛋白質ー化合物相互作用行列を用いて主成分解析によってヒット化合物探索が可能なことが示された

これは同時に類似の化合物を分類できることを示している

したがってコンビナトリアルに合成される化合物ライブラリーの多様性の評価などライブラリーの多様性指向性の評価に用いることができる

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 48: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

48

page95

DSI法による化合物空間の例 類似の化合物が空間中で固まっている(クラスター)のが分かる

創薬では幅広く探索することも必要なのでまんべんなく広く分子の分布した集団を作成したい

小さい分子 大きな分子

疎水的

親水的

page96

Small-World Phenomena in Chemical Library Networks Application to

Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

市販化合物の作る世界

ごく一部(10万化合物程度)から多数の誘導体が合成されている

一部の原料となる試薬は原料そのままで売られている

rarr Small-world network

市販化合物を類似度の高いもの同士を線で結んで図にした

数の多さ

一人ぼっちの化合物

類似化合物が多い

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 49: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

49

page97

-30

-20

-10

00

10

20

30

-4 -3 -2 -1 0 1 2 3 4

PC1

PC

2Act

Combi_in

Inactive

Combi_act

Sanofi

化合物A= a0 a1 a2 a3 a4 helliphellip

化合物B= b0 b1 b2 b3 b4helliphellip

コンビナトリアル合成への応用

N種類原料xM種類原料=NM種類の分子を作る場合

コンビナトリアル合成で生成する化合物ライブラリーを事前にDSI法で評価することができる

例はV1b受容体に対す

るコンビナトリアル合成の例

page98

Small-World Phenomena in Chemical Library Networks Application to Fragment-Based Drug Discovery

Naoki Tanaka Kazuki Ohno Tatsuya Niimi Ayako Moritomo Kenichi Mori and Masaya Orita

J Chem Inf Model 2009 49 2677ndash2686

化合物を組み合わせて合成展開する場合 (コンビナトリアル合成) 化合物のパーツの組み合わせ方で 出来上がり化合物群の多様性が変わる

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 50: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

50

page99

薬理活性をもつ金属錯体の評価

ラピスラズリ

金属錯体は医薬品として最も古くから

使われてきた

しかし現代ではその毒性からごく少数派に過ぎない

金属錯体の薬もあるがその扱いは計算でも可能

O

S

Au

P

O

O

O

O

O

O

O

O

page100

N

N

B N

NN

NZn

S

N

b-lactamase inhibitor

N

N

N

Pt

N

N

OH

Br

F

H

HO

O

O

Kinase inhibitor

N N

Ru

C

O

NO

O

H

Glycogen synthase kinase 3 inhibitor

O

N

O

PtCl

ClH3N

H3N

Cl

STAT3 inhibitor

Cathepsin B inhibitor

N N

N N

N N

N N

Cu Cu

Chemokine receptor (GPCR)

antagonist

薬理作用をもつ金属錯体の占める化合物空間

金属錯体の占める空間は意外に

Drug-likeになっている

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 51: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

51

page101

蛋白質のMD計算によるモデリング多数の構造を発生すると適当な構造が含まれる

ensemble docking タンパク質は揺らぐ

タンパク質の立体構造ごとに異なるスクリーニング結果が得られる

darr

どのタンパク質構造(スクリーニング結果)を選べば良いのか

darr

本当のヒットでなくても良い今までの何かの医薬品をドッキングしてみて「薬っぽい化合物」を結合する構造がヒットの出る「良い構造」である

darr

その結果MD計算で複数の蛋白質構造を準備することで完全なホモロジーモデリングでもヒット率12程度(GPCR 2標的両方とも)を出せた

page102

多数のスクリーニング結果から信頼性の高い計算結果を抽出する方法を開発する

ー計算結果の信頼性尺度の開発ー

Structure-based in-silico drug screeningでは

標的タンパク質構造に結合する物質を探索するしかし標的蛋白質構造は計算によって様々な形がサンプルされるし現実構造は揺らいでいる

そのため計算に用いる構造の数だけスクリーニング結果が得られる

おおよそ多数の構造に対し

極めて良好なスクリーニング結果が得られる場合は10以下

まあまあ良好なスクリーニング結果が得られる場合は50

悪いスクリーニング結果が得られる場合が40

といったところである

信頼性の高いスクリーニング結果を得る手法の開発とは別に

多数のスクリーニング結果から信頼できる結果を選ぶ手法が必要

データ提供

和田(富士通)

酒匂(塩野義製薬)

膜蛋白質GPCR

μオピオイド受容体

構造毎の多数の

スクリーニング結果

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 52: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

52

page103

page104

蛋白質の結晶構造

多数の蛋白質構造

タンパク質の分子動力学シミュレーション1-3nsec程度

それぞれの構造に対して薬物スクリーニング計算

計算結果1 計算結果2 計算結果3 計算結果4

良い結果1割 まあまあ良い結果5割 悪い結果4割

作業の流れ

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 53: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

53

page105

qvalue_MTS

moe prime

1 2 3 4 5 6 7 8 9 10

ini 792 633 476 626 565 505 643 477 355 633 493

min 543 480 501 656 644 692 607 477 516 719 623

2100 ps 766 694 618 591 561 600 601 457 650 734 592

2300 ps 667 632 352 572 502 492 828 349 667 487 603

2500 ps 688 711 519 662 648 362 756 547 658 639 597

2700 ps 488 603 445 627 658 475 630 612 609 541 580

2900 ps 742 648 567 622 719 569 536 572 624 373 507

3100 ps 877 654 709 572 601 637 673 533 530 586 463

3300 ps 737 688 579 526 568 591 652 543 412 646 603

3500 ps 647 404 368 578 580 582 571 532 557 490 606

3700 ps 769 619 489 561 575 373 700 609 662 325 552

3900 ps 758 643 546 450 522 493 696 473 633 449 604

モデリングされた多数の構造に対するスクリーニングテストでのΜ受容体でのAUC(q値)

塩野義製薬酒匂氏提供 非常に良い結果

富士通和田氏提供

Universal active probe (UAP)の導入によるスクリーニング結果の選択

ドッキングスクリーニングは蛋白質構造が多数あればその数だけ結果を生成できる 蛋白質構造はMDシミュレーションでいくらでも生成できる 問題はどのスクリーニング結果を選ぶかである 標的蛋白質には結合しないはずのdrug-likeな化合物の集団を作成した(UAP) これをスクリーニング計算に混ぜておく すると標的に対する真の化合物がヒットする割合はUAPが発見される割合に比例する結果となった つまり標的の活性化合物が未知であってもUAPを目印にもっともらしいスクリーニング結果を選ぶことができる

106

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 54: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

54

Decoy set Active compounds UAPs

Compound library

Target protein structures

Structure-based Drug screening

Screening result for each structure

AUC of Active compounds

AUC of Active compounds

AUC of UAPs

AUC of UAPs

Protein structure 1

Protein structure 2

Compare

Compare

107

108

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Data with thehighest AUC_UAP

Data with thelowest AUC_UAP

Number of compounds ()

Nu

mb

er o

f h

its(

)

(a)

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Highest UAPenrichment curve

Lowest UAPenrichment curve

Number of compounds ()

Nu

mb

er o

f h

its(

)

(b)

UAPがスクリーニング結果の上位にくる

UAPがスクリーニング結果の下位にくる

真の活性化合物がスクリーニング結果の上位にくる

真の活性化合物がスクリーニング結果の下位にくる

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 55: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

55

109

COX-2 ACE AMPC

factor-Xa

(FXA)thrombin(1pxx

2pks 2pu2 2r9x 2w26

2zgp 3ens 4cox 5cox

6cox)など

テストに用いた標的タンパク質水中のMDシミュレーションで120構造を発生した

y = 05559x + 13048 Rsup2 = 04799

0

10

20

30

40

50

60

70

80

0 10 20 30 40 50 60 70 80 90 100

min

botom avg top avg 10 3179 10 7642884 20 33005 20 7340842 30 3490333 30 7246901 50 3619133 50 6935661

真の活性化合物が発見される ヒット率(AUC)

UA

Pが

発見

され

ヒッ

ト率

(A

UC

)

110

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 56: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

56

UAP Correlation coefficient ( R )平均

R for lig0 decoy R for c001 R for DUD

UAP_GPCR 06295 06981 05295 05834

UAP_DUD 05151 06173 03622 04477

UAP_PDB 04165 07468 06161 06347

UAP_min 06927 07582 06190 06386

UAP_avg 06608 07297 05723 06072

UAP_max 06040 06753 05001 05529

各デコイセット各UAPでの性能(真のAUCとAUC_UAPとの相関係数R)

UAP_minのコンセンサスが優れている

単純には3種類のUAPを混ぜた平均でも良い

UAPのヒット率と真のヒット化合物のヒット率の相関係数(R)

R=05~07と比較的良い結果になった

111

page112

生理活性ペプチドからの低分子探索のための類似化合物探索

myPrestoMD-MVO (molecular dynamics maximum volume overlap)

myPrestoのドッキングソフトsievgeneは低分子用に開発されておりペ

プチドのドッキングがうまくいかないその結果ペプチドをシードとしたDSI法でのヒット率はランダムスクリーニングよりは高いが通常の低分子シードの場合より低下せざるをえない

生理活性ペプチドは発見もしやすく実験も簡単

しかしペプチドは一般に

飲めば胃腸で分解され吸収されない

注射すれば1分程度で血液中で分解される

だから生理活性ペプチドを見出した場合同じ作用をする低分子を探して置き換えないといけない(ペプチドミメティクス)

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 57: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

57

page113

Molecular dynamics maximum volume overlap (MD-MVO)法

既知活性化合物

化合物データベース

MVO法のポ

テンシャルをアンブレラポテンシャルに用いる

スコアは分子の重なりをとる

MDによる分子の重ね合わせとスコア評価

ヒット候補化合物 分子重ね合わせと配座探索がMDで同時に行える

page114

分子A 分子B 分子C その他(蛋白質水)

分子A 系内 MVO MVO 系間

分子B MVO 系内 MVO 系間

分子C MVO MVO 系内 系間

その他(蛋白質水)

系間 系間 系間 系内

NA

i

j

B

i

A

j

B

i

A

j

B

i

A

NB

j

zzyyxxcjiwBAS1

222

1

))()()((exp()()(

thr

B

i

A

i

thr

B

j

A

i

qqq

qqqjiw

0

1)(

MD-MVO法での計算分子シミュレーションによって2つの異なる分子の体積電荷の重なりの大きいものを類似化合物とする

分子内相互作用は普通に計算し

分子間相互作用は分子の重なりを

拘束ポテンシャルに用いる

分子の重なりは

原子を電荷で分類し

同種原子の体積重なり

を計算する

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 58: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

58

page115

MD-MVO法 ROCS

AUC ヒット率 AUC ヒット率

COX2 1cx2 858 286 528 231

1pxx 985 500 645 308

3pgh 853 333 648 308

4cox 740 333 685 154

HIV 1aid 598 50 292 45

1bv7 933 400 758 364

1hte 703 50 593 136

1mes 882 350 770 364

Average 819 288 615 239

上位 MD-MVO ChemFinder

COX2 9 3820 980

HIV 22 5140 4750

他の手法ROCS ChemFinderとの比較

MD-MVOが優れている

0

20

40

60

80

100

0 20 40 60 80 100

Number of selected compounds ()

Num

ber

of h

it c

ompo

unds

()

MD-MVOの結果

ROCS(OpenEye)の結果

page116

sievgeneMVOの概要ドッキングと同時に化合物類似性も考慮する

入力分子DBより 配座の発生 蛋白質への結合と同時に

既知リガンド座標との重ね合わせ

相互作用の見積もり

最適な複合体モデルの選択

①タンパク質‐化合物間の

疎水性相互作用vdW力クーロン力を見積もり

②化合物‐既知リガンド間の

原子の種類ごとの原子座標の重なりを見積もり

総合スコア = ① + ②

タンパク質との相互作用が最適で

かつ既知リガンドの座標と近い複合体構造

を選択する

既知活性化合物との

タンパク質ーリガンド複合体

静電荷のパターンを自分の好みに合わせて変更するなどした 仮想分子でも良い(薬物デザインrarr似た化合物を探す)

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 59: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

59

①既知GPCR構造を元にした半自動GPCRモデリング手法によるμオピオ

イド受容体の動的モデリング

②多数のGPCR構造からの効

率的アンサンブルドッキングスクリーニング手法で既知化合物やDrug-like化合物がヒッ

トしやすい最適モデル構造を選択

③生理活性ペプチド(上記例では緑色 エンドモルフィン)

に置き換わる低分子化合物(白赤青色)の探索 Scaffold Hopping

最新200万種の化合物ライブラリ(LigandBox)から348 の非ペプチド化合物を選択 して実験 rarr IC50 = 025 μM 043 μM を示す化合物など多数の有望な候補化合物を取得

10化合物に対して細胞機能評価実験

rarr 4ヶのアゴニスト2ヶのアンタゴニストを同定

μオピオイド受容体ペプチド複合体の構造モデルを考慮して新規化合物の有機合成展開

rarr IC50が1μMより強い活性化合物を5化合物取得(最も強い阻害活性IC50 = 0087 μM)

Fukunishi amp Nakamura J Mol

Graph Model 27 628-636 (2008) Wada et al J Chem Inf Model 51 2398-2407 (2011)

ペプチド性リガンドから非ペプチド性薬物の開発 鎮痛効果のあるペプチド(エンドモルフィン) から非ペプチド性薬物を開発する実証研究(塩野義製薬と共同研究)

モデル

底のAsp

アミンを 結合Asp

Φを保持Phe

アミンを 結合Asp

Φを保持Phe

底のAsp

モデル X線構造 (4dkl)

X線構造 (4dkl)

計算モデル構造と X線構造解析の比較

薬物結合ポケット周辺での原子のずれは約25Å

薬物結合に重要なアミノ酸残基の位置は再現されていた

結果

(1) UAP法を用いた正確なモデル作成

(2) MD-MVO法を用

いたペプチドミメティクス探索

(3) 新規活性化合物発見

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 60: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

60

NH2

O

NH

O

NH

O

NH

O

NH2

OH

CH3

F

Frakefamide(0323)

N

N

CH3

NH

S

O

F

Tifluadom(0304)

N

C H3

F

O H

N

N

C H2

C H3

CH3

O

DPI-3290(0266)

C lH

N

O

N

CH3

CH3

OH

C l

Loperamide (025415nM)

CH3N

NO

OH

COO H

COO H

COO H

Fentanyl(022813nM)

O H

N

O H

OH

CH3

C lH 3H2

O

Morphine (022210nM)

0211 250nM

EM-1

H_20

(019720nM)

JOM-6

0186 430nM

O

O

N

NH

N

O

Cl

N

HN

NH

H2N NH2

O

O

O

O

HO

HN

0326 86nM

0314 666nM

0245 457nM

0320 391nM

0309 740M

EM-1との類似度 活性値(nM)

結果

page120

Fragment Screening by Replica Generation (FSRG) method In Silico Fragment Screening

ldquoレプリカ分子rdquoを生成して行う 超低分子量化合物の計算機スクリーニング

page120

Y Fukunishi Tadaaki Mashimo Masaya Orita Kazuki Ohno Haruki

Nakamura In silico fragment screening by replica generation (FSRG)

method for fragment-based drug design Journal of Chemical Information

and Modeling 49 925-933 (2009)

大きな分子は多様性があり化合物空間が広くなりすぎて探索しきれない

小さな分子なら多様性に限りがあり全てのバリエーションをテストすることも可能

ただし小さい分子(フラグメント)は活性も弱いのでヒットを見つけてから分子をかなり大きく伸ばす

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 61: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

61

page121 page121

fragment-based drug development(FBDD)とは

通常の lead generation Fragment-based drug development

分子フラグメントを対象

The MW is lt 300 Da (rule of 3)

化合物が小さい

ldquodrug likerdquoな化合物を対象

The MW is lt 500 Da (rule of 5)

化合物が大きい

ヒット率は低いが (001)ヒットの活性は強い

ヒット率は高いが (1)ヒットの活性は弱い

ヒットフラグメントに

側鎖をつけたり2つのフラグメントを連結する Lead optimization

不必要な部分を除き

必要な側鎖を追加する

page122

なぜ FBDDがいいのか

MWlt160Da MWlt500Da (Rule of 5) For FBDD MW lt 300 Da

化合物空間が広すぎて探索不可能

化合物空間の広さ(多様さ)が問題だ

分子量 小さい

大きい

分子量 lt 500Daで実現可能な分子の種類は 1060

(太陽系の原子の数と同じ)

分子量 lt 160Daで実現可能な分子の種類は 107

FBDD

なんとか化合物空間全域をだいたい探索できる

1000万でも実験するにはまだ多い

計算機で絞り込む必要がある

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 62: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

62

page123

FBDDの可能性 断片の組み合わせで無数の分子が生成できる

市販のフラグメントは 600000種類

これらの組み合わせで億単位の化合物を生み出せる

億を越える分子の

バリエーションが

得られる

市販化合物はたかだか数百万種類

page124

F

FF

N

N

Br

O2S

H2N

Cl

Cl

HN

-O

O

N

O

Cl

Me-O O

O

Me

-O

O

Me

O

Me SO2

HN N+

O-

O

O

O2SN

Me

OH

HN

O

N

O2S Me

OO

Me

FO

O-

SO2

Me

O

S

O

-O

Me

COX2阻害剤とフラグメント

標的蛋白質 COX2でのテスト計算

9 active compounds of COX2 were prepared

これらの阻害剤を2分割して ldquoactive fragmentsrdquoを用意する

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 63: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

63

page125

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

() random

Coe_12

DUD_12

Coe_34

DUD_34

Whole

whole_DUD

結果In silico screening by the MTS method 通常のスコア関数

Docking score = (van der Waals interactio) + (Accessible surface term)

+ (Coulombic interaction) + (Hydrogen bonding interaction)

Active compound

Fragment set A

Fragment set B

計算では小さな ldquoactive fragmentldquoは見出せない

大き目のldquoactive compoundsrdquoは見出せる

page126

S

N

O

HO

H

R

XCH3

X

H2CX

N

NH

X

N

NH

X

Original fragment

Replica_1

Side chain 1

N

NH

X

Side chain 3

Side chain 2

Side chain 5 Side chain 6

Side chain 4

S

N

O

HO

H

CH3

replicas of fragmentの準備

6種類の側鎖を準備しこれらを元のフラグメントに導入して

レプリカを6種類作成する

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 64: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

64

page127

Cl

Cl

HN

-O

O

R

-O

O

Cl

Cl

HN

R

HN

-O

O

O

R

Cl

Cl

HN

R

O

Fragment set A Fragment set B

replicas of fragmentーrdquoレプリカldquo分子の準備

We prepare the replicas for fragment set A and set B

page128

0

20

40

60

80

100

0 20 40 60 80 100

Number of compounds ()

Num

ber

of h

its

()

random

DUD_12

Coe_12

DUD_34

Coe_34

結果In silico screening results by the MTS method

電荷無視 + レプリカフラグメント生成法

Fragment set A

Fragment set B

Docking score = (van der Waals interaction) + (Accessible surface term)

replica fragmentのヒット率は非常に改善した

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 65: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

65

page129

フラグメントライブラリー (100000 fragments)

レプリカフラグメントライブラリー (6 x 100000 fragments)

XCH3

X H2CX

N

NH

X

N

NH

X

N

NH

X

1 2 3 4 5 6 7 8 9 10 11 1212 3 4 5 6 78 9

1011 12 13

[ Replica fragment library ]

[ p

rote

in p

ock

et

lib

ra

ry

]

側鎖セット

レプリカ生成

In-silico screening

(MTS 法) Active fragments

Lead compounds

化学合成

(fragment evolution

linking etc)

標的蛋白質

原子電荷無視

FSRG 人工的にフラグメントを大きくした仮想分子を発生してドッキングスクリーニングを行うヒットが出たら原料のフラグメントをヒットとする

MTS 法

FSRG 法の流れ

page130

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S=

S=

分子構造をグラフであらわすmyPrestosubstructure_search

S 隣接行列

SxS=

1 0 1

0 2 0

1 0 1

1歩あるいて

たどりつける原子 2歩あるいて

たどりつける原子と

その経路の数

SxSxS= 3歩あるいて

たどりつける原子と

その経路の数

1 ndash 2

2 - 3

1 -2

2- 3

2-4

1-5

原子i と原子jがどれだけ離れているか特定の分子構造の存在 分子形状の計算などに用いられる

電子回路設計などあらゆる回路経路の問題に適用される

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 66: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

66

page131

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

電子回路のシミュレーションにも用いる

電子がどの素子を出発し

何ステップめでどの素子に到達

するかを行列の積で計算できる

2

4

1

3 5

6

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

S4=

分子構造の中で結合をたどれる

最長の長さは重要な指標の1つ

行列の積で簡単に計算できる

page132

同じ構造を含む分子を探す (部分グラフ同型問題)

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 67: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

67

2

4

1

3 5

1

2

30 1 0

1 0 1

0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 0 1 0 0

0 1 0 0 0

0 0 0 1 0

0 1 0 0 1

1 0 1 1 0

0 1 0 0 0

0 1 0 0 0

1 0 0 0 0

0 1 0

1 0 1

0 1 0

t

S=

M=

A=

A(AM)t = S

Ullmanの定理

S サブグラフの隣接行列 M 分子の隣接行列 A サブグラフから分子への対応行列 (横列には1か所のみ1がある)

分子構造の一致は行列計算で高速に行える

H

N

H

C

O

1

4

3

5

22

1

3

4

5

H

N

H

CH

O

2

1

2

1

3

2

1

3

4

2

1

3

4

5

探索する分子構造の原子を並べ替えた

i+1番目の原子は1~i番目の原子までのいずれかに連結しているようにした

1番の原子は出現頻度の少ない原子(ハロゲンrarrSrarrNrarrOrarrCrarrH)を選ぶ

二重結合芳香族結合が

扱えるようにした

最初に2原子ペアを探索し入力分子から見つけ出したパターンを記録

その中から3原子組を探索その結果から4原子組を探索するようにした

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり

Page 68: Energetic Conformational Analysis of Proteins - …fukunishi/img/Fukunishi_Drug...2 page3 Structure-based drug screening と 蛋白質ー化合物相互作用パネルの解析 -標的蛋白質構造が既知の場合ー

68

活性化合物なし 活性化合物1個 活性化合物複数

タンパク質構造なし タンパク質構造あり タンパク質ー化合物複合体あり

タンパク質水中MDrarr 複数タンパク質構造

UAPで使えるタンパク質構造選択 (1~10タンパク質構造)

MTS 機械学習MTS

タンパク質構造あり

機械学習DSI

積集合(cap)をとる UAP使用時各構造に対する和集合(cup)をとる

sievgeneMVO MD-MVO

類似化合物探索

Substructure-search

薬物スクリーニング手法まとめ データ 中間処理 スクリーニング結果

化合物DBLigandBox 物性部分構造の有無などで条件を絞ることあり