keggデータベースを 用いたai - biosciencedbc.jp · 2018-01-18 ·...

25
KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ Licensed under a Creative Commons表示4.0国際ライセンス (c)2017 山西芳裕(九州大学生体防御医学研究所)

Upload: others

Post on 15-Jul-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

KEGGデータベースを用いたAI創薬

山西芳裕

九州大学生体防御医学研究所

科学技術振興機構さきがけ

Licensed under a Creative Commons表示4.0国際ライセンス(c)2017 山西芳裕(九州大学生体防御医学研究所)

Page 2: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

近年の新薬開発は低迷

薬の開発コストは平均1000億円、10年以上

大半が失敗

体内動態が悪い

大量生産が困難

人で有効性が不十分

想定外の深刻な毒性

*http://www.fda.gov, **http://www.phrma.org

開発費用承認された新薬の数

Page 3: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

ドラッグリポジショニング(DR)

薬 再配置する(違う病気に)

既承認薬や過去に医薬品開発に失敗した化合物の新しい効能を発見し、別の疾患の治療薬として開発

ヒトでの安全性や体内動態が確認され、製造法も確立

高速・低コスト・低リスク

Page 4: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

医薬品開発の流れ

1. 創薬標的の同定

2. 大規模化合物スクリーニング

3. 化学構造最適化

4. 薬物動態試験

5. 非臨床試験

6. 第1相臨床試験(安全性の検証)

7. 第2、3相臨床試験(効果の検証)

8. 申請

従来(10〜17年)

ドラッグリポジショニング(3〜10年)

1. 創薬標的の同定

2. 既存薬スクリーニング

3. 化合構造最適化

4. 薬物動態試験

5. 非臨床試験

6. 第1相臨床試験(安全性の検証)

7. 第2、3相臨床試験(効果の検証)

8. 申請

スキップ

(Nature Reviews Drug Discovery, 3, 673-683, 2004)

早く、安く、安全な薬を患者さんに届けることができる

Page 5: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

実例

シルデナフィル(バイアグラ)

狭心症治療薬 → 男性機能障害の薬

→ 肺高血圧症の薬

ミノキシジル(リアップ、ロゲイン)

高血圧治療薬 → 発毛薬

問題:これまでは偶然の発見に大きく依存していた。

Page 6: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

本研究では医薬ビッグデータに基づくドラッグリポジショニングを提案

オブジェクト データの例

薬物 薬理資料、臨床情報、化学構造、副作用報告、治療標的タンパク質、オフターゲット、薬物応答遺伝子発現情報、既知の効能など

低分子化合物 化学構造、化合物・タンパク質間相互作用、生理活性情報など

遺伝子タンパク質

アミノ酸配列、3次元立体構造、機能モチーフ、パスウェイ、タンパク質間相互作用、分子機能、病理学的役割など

疾患 臨床情報、レセプト、電子カルテ、病因遺伝子、環境因子、バイオマーカー、合併症情報、患者の遺伝子発現情報、異常パスウェイなど

Page 7: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

KEGGのデータをフル活用

オブジェクト データの例

薬物 薬理資料、臨床情報、化学構造、副作用報告、治療標的タンパク質、オフターゲット、薬物応答遺伝子発現情報、既知の効能など

低分子化合物 化学構造、化合物・タンパク質間相互作用、生理活性情報など

遺伝子タンパク質

アミノ酸配列、3次元立体構造、機能モチーフ、パスウェイ、タンパク質間相互作用、分子機能、病理学的役割など

疾患 臨床情報、レセプト、電子カルテ、病因遺伝子、環境因子、バイオマーカー、合併症情報、患者の遺伝子発現情報、異常パスウェイなど

KEGG DRUG

Page 8: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

KEGGのデータをフル活用

オブジェクト データの例

薬物 薬理資料、臨床情報、化学構造、副作用報告、治療標的タンパク質、オフターゲット、薬物応答遺伝子発現情報、既知の効能など

低分子化合物 化学構造、化合物・タンパク質間相互作用、生理活性情報など

遺伝子タンパク質

アミノ酸配列、3次元立体構造、機能モチーフ、パスウェイ、タンパク質間相互作用、分子機能、病理学的役割など

疾患 臨床情報、レセプト、電子カルテ、病因遺伝子、環境因子、バイオマーカー、合併症情報、患者の遺伝子発現情報、異常パスウェイなど

KEGG COMPOUND, KEGG BRITE

Page 9: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

KEGGのデータをフル活用

オブジェクト データの例

薬物 薬理資料、臨床情報、化学構造、副作用報告、治療標的タンパク質、オフターゲット、薬物応答遺伝子発現情報、既知の効能など

低分子化合物 化学構造、化合物・タンパク質間相互作用、生理活性情報など

遺伝子タンパク質

アミノ酸配列、3次元立体構造、機能モチーフ、パスウェイ、タンパク質間相互作用、分子機能、病理学的役割など

疾患 臨床情報、レセプト、電子カルテ、病因遺伝子、環境因子、バイオマーカー、合併症情報、患者の遺伝子発現情報、異常パスウェイなど

KEGG GENES, KEGG PATHWAY

Page 10: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

KEGGのデータをフル活用

オブジェクト データの例

薬物 薬理資料、臨床情報、化学構造、副作用報告、治療標的タンパク質、オフターゲット、薬物応答遺伝子発現情報、既知の効能など

低分子化合物 化学構造、化合物・タンパク質間相互作用、生理活性情報など

遺伝子タンパク質

アミノ酸配列、3次元立体構造、機能モチーフ、パスウェイ、タンパク質間相互作用、分子機能、病理学的役割など

疾患 臨床情報、レセプト、電子カルテ、病因遺伝子、環境因子、バイオマーカー、合併症情報、患者の遺伝子発現情報、異常パスウェイなど

KEGG DISEASE

Page 11: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

薬と病気の関連を予測する機械学習法(人工知能の基盤技術)を開発

薬1 病気1

病気2

病気3

すでに知られている効果

コンピュータ上で予測する新しい効果

薬2

薬3

薬4

セレンディピティから脱却したい!

f (x,y) =wTf(x,y)

DRのためのAI創薬

Page 12: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

多様な疾患の分子レベルでの理解が進んできた

病因遺伝子

発現異常遺伝子

疾患関連パスウェイ

診断マーカー

環境因子

共通する分子的特徴

疾患A 疾患B

Page 13: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

多くの薬はタンパク質と相互作用し、疾患に対する効能を発揮する

薬の影響

期待する作用

副作用

薬の分子

治療標的タンパク質(ターゲット)相互作用

(阻害・活性化)

ある副作用は、別の疾患の患者にとっては効能になる場合がある。

Targeted Proteins Drugs Side-effects

Molecular scale Phenotypic scale

Component 1 Component 3Component 2

Targeted proteins

Dru

gs

Dr u

gsA

C

B

Targeted Proteins Drugs Side-effects

Molecular scale Phenotypic scale

Component 1 Component 3Component 2

Targeted proteins

Dru

gs

Dru

gs

A

C

B

Targeted Proteins Drugs Side-effects

Molecular scale Phenotypic scale

Component 1 Component 3Component 2

Targeted proteins

Dru

gs

Dru

gs

A

C

B

それ以外のタンパク質(オフターゲット)

Page 14: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

提案手法の目的

様々な医薬ビッグデータから薬物・タンパク質・疾患ネットワークを大規模予測する

x1

x2

x3

y1

y2

y3

薬(8千個) 疾患(2千個)

既知の関連エッジ

未知の関連エッジ(本研究で予測する)

タンパク質(3万個)

z1

z2

z3

適応可能疾患の予測と共に、作用機序まで示唆する

Page 15: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

タンパク質etc.

薬物・化合物の化学構造

etc. ゲノム空間ケミカル空間

ケモゲノミクス法

フェノミクス法

人体へのフェノタイプ

薬理空間

頭痛、吐き気、気分高揚、血圧の変化、疾患マーカーの変動、etc.

Targeted Proteins Drugs Side-effects

Molecular scale Phenotypic scale

Component 1 Component 3Component 2

Targeted proteins

Dru

gs

Dru

gs

A

C

B

Targeted Proteins Drugs Side-effects

Molecular scale Phenotypic scale

Component 1 Component 3Component 2

Targeted proteins

Dru

gs

Dru

gs

A

C

B

Targeted Proteins Drugs Side-effects

Molecular scale Phenotypic scale

Component 1 Component 3Component 2

Targeted proteins

Dru

gs

Dru

gsA

C

B

Targeted Proteins Drugs Side-effects

Molecular scale Phenotypic scale

Component 1 Component 3Component 2

Targeted proteins

Dru

gs

Dru

gs

A

C

B

転写空間

薬物応答遺伝子発現 トランスクリプトミクス法

ゲノムワイドな薬物・タンパク質間相互作用予測

問題:既承認薬でも標的分子が不明なものが6割以上

Page 16: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

ケモゲノミクスの手法方針:化学構造が似ている薬は同様のタンパク質に相互作用すると予測

(Nagamine et al, Bioinformatics, 2007; Yamanishi et al, Bioinformatics, 2008; Faulon et al., Bioinformatics, 2008;

Jacob et al, Bioinformatics, 2008, Keiser et al, Nature, 2009; Yabuuchi et al, Mol Sys Bio, 2011)

タンパク質のアミノ酸配列・ドメイン

の類似度

possible chemical substructures

薬の部分化学構造プロファイル

の類似度

475,692 KCF-S substructures(Kotera et al, BMC Syst. Biol., 2013)

kchem(xi,x j )

for i, j =1, 2,...,nx

kgeno(zi,z j )

for i, j =1, 2,...,nz

2012年度「 理論分子生物学」 講義予定表

! ゲノ ム解析、 ポスト ・ ゲノ ム解析とバイオインフォマティ クス

! 配列アライメ ント 、 ダイナミ ッ クプログラミ ング法

! ホモロジー検索、 FASTA、 BLASTアルゴリズム

! マルチプルアライメ ント 、 系統樹解析

! 配列モチーフ

! 二次構造予測、 膜貫通部位予測、 立体構造予測

! 遺伝子の機能アノ テーショ ン、 比較ゲノ ム解析

! ネッ ト ワーク解析

! 分子生物学データベース

! 演習

! http ://goto.kuicr.kyoto-u.ac. jp/lecture/b ioinfo.htm l

1

配列アライメ ント

! 配列アライメ ント ( sequence alig nment)

! 2 つのタンパク質または遺伝子の配列を並べて、進化的な関連があるかどう かを調べること

! 2 つの遺伝子が進化的に関連があるか? ! 異なる生物種間で同じ機能を持つ遺伝子

! 一つの生物種内で類似した機能を持つ遺伝子

真正細菌

古細菌

真核生物

原生生物

植物

菌類

動物

分子レベル( 配列レベル) の情報: 16S rRNA

生物種の系統関係

a

a1 a2

遺伝子重複

a1 a2 a1 a2

種分岐

ホモログ( Homolog) 進化的な起源を同じ く する遺伝子

オーソログ( Ortholog) 種分岐の際に同じ遺伝子だったもの 通常同じ機能を持つ

パラログ( Paralog) 遺伝子重複によってできた類似遺伝子 通常異なる機能を持つ

ゼノ ログ( Xenolog) 水平移動によって得られた類似遺伝子

a

a1 a1’

種分岐

種1 種2

オーソログとパラログ

配列アライメ ント

! 配列アライメ ント ! 2 つのタンパク質または遺伝子の配列を並べて、ホモログ( 相同) かどう かを調べること

! 実際には類似性を調べる

! 文字の一致( マッチ) 、 不一致( ミ スマッチ) 、挿入、 欠失を考慮する

! アライメ ント のキーポイント は ! アライメ ント の種類

! アライメ ント の方法・ アルゴリズム

! アライメ ント を評価するためのスコア

! スコアの重要性を評価するための統計的基準

! グローバルアライメ ント

! 配列全体を並べる

! ローカルアライメ ント

! 局所的によく 似た部分を探す

LGPSSKQTGKGW-SRIWDN!

| +| ||| |+ |!

LN-ITKSAGKGAIMRLGDA!

-------TGKG--------!

||| !

-------AGKG--------!

マッチ( + , |) ミ スマッチ ギャップ・ 挿入( -)

配列アライメ ント の種類

Local sequence alighnment kernel (Saigo et al, Bioinformatics, 2004)

Generalized

Jaccard index

Page 17: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

タンパク質etc.

薬物・化合物の化学構造

etc. ゲノム空間ケミカル空間

ケモゲノミクス法

フェノミクス法薬理空間

頭痛、吐き気、気分高揚、血圧の変化、疾患マーカーの変動、etc.

Targeted Proteins Drugs Side-effects

Molecular scale Phenotypic scale

Component 1 Component 3Component 2

Targeted proteins

Dru

gs

Dru

gs

A

C

B

Targeted Proteins Drugs Side-effects

Molecular scale Phenotypic scale

Component 1 Component 3Component 2

Targeted proteins

Dru

gs

Dru

gs

A

C

B

Targeted Proteins Drugs Side-effects

Molecular scale Phenotypic scale

Component 1 Component 3Component 2

Targeted proteins

Dru

gs

Dru

gs

A

C

B

Targeted Proteins Drugs Side-effects

Molecular scale Phenotypic scale

Component 1 Component 3Component 2

Targeted proteins

Dru

gs

Dru

gs

A

C

B

転写空間

薬物応答遺伝子発現 トランスクリプトミクス法

提案手法

人体へのフェノタイプ

Page 18: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

トランスクリプトミクス法方針:薬物応答遺伝子発現パターンが似ている薬(化合物)は同様のタンパク質に相互作用すると予測

(Isker et al, Mol Syst Biol, 2013; Wong et al, Plos Comp Bio, 2013;

Hizukuri et al, BMC Med Genomics, 2015; Iwata et al, Sci Rep, 2017)

x = (x1, x2, , x22276 )T

各薬物に対して、薬物応答の遺伝子発現比

(コントロールに対する)プロファイル

LINCS(16268化合物、77細胞、22276遺伝子)

化合物の種類

細胞の種類

相関係数

Page 19: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

高い閾値:類似構造の薬物が多いデータ低い閾値:多様な構造の薬物だけのデータ

ベンチマークデータでの性能評価:化学構造多様性を考慮

トランスクリプトミクス法の性能は化学構造に依存しない

ベンチマークデータの化学構造多様性

Page 20: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

遺伝子発現変動から薬物が作用するパスウェイが分かる

Regulated

genes

Gene

s

In a pathway i k

Not in a pathway r - i l - k

Total r l

hypergeometric test

query

compound

gene expression profile

cell line

down-regulated genes

up-regulated genes

163 biological pathways

in KEGG

inactivated

pathway

activated

pathway

P-value

Page 21: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

AT

C薬効分類クラスを表すラベル

同定パスウェイと薬効分類との関係

活性化

不活性化

薬の相対頻度

薬の相対頻度

Page 22: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

薬物の適応可能疾患の新規予測

8270個の薬物(日本・欧米での既承認薬)に対して、標的タンパク質(酵素、GPCR、イオンチャネルなど)を推定

1325個の疾患(がん、神経変性疾患、免疫系疾患、精神疾患など)に対する効能を予測

Page 23: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

トランスクリプトミクス法による予測例

フェノチアジン(抗精神病薬)

新しい適応疾患: 前立腺がん

推定タンパク質: AR (androgen receptor)

Phenothiazine Similar compound in the learning set

Enzalutamide

Page 24: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

予測されたARの阻害効果は実験的に確認できた

(Iwata et al, Sci Rep, 2017)

Page 25: KEGGデータベースを 用いたAI - biosciencedbc.jp · 2018-01-18 · KEGGデータベースを 用いたAI創薬 山西芳裕 九州大学生体防御医学研究所 科学技術振興機構さきがけ

まとめ

機械学習によるデータ駆動型アプローチで、医薬品候補化合物の潜在的な標的タンパク質や適応可能疾患の予測が可能。

異なるデータに基づく予測結果は補完し合う。

既承認薬だけでなく、どんな化合物でも適用可能。