37th mtg in nibio

32
2014/10/24 37回統合DBミーティング Integrated MTG in NIBIO 1

Upload: maori-ito

Post on 11-Jul-2015

125 views

Category:

Science


3 download

TRANSCRIPT

Page 1: 37th mtg in NIBIO

2014/10/24

第37回統合DBミーティングIntegrated MTG in NIBIO

1

Page 2: 37th mtg in NIBIO

本日の予定

• Sagace

– アクセス解析

– 進捗報告

• 医薬基盤研内のデータのRDF化

– 副作用を起点としたデータ統合について

• 分子生物学会のブース展示

– 展示内容の相談

2

Page 3: 37th mtg in NIBIO

進捗報告

• 医薬品のファセットを追加

• NBDCへ連絡• 副作用情報データベースの名前の変更の依頼→済

– Metabolomics.jpの重複エントリの修正

– KEGG Drugの日本語版の追加

3

Page 4: 37th mtg in NIBIO

医薬基盤研内のデータのRDF化

• 進捗報告

– 副作用を起点としたNIBIO内外のデータ統合を開始

– ICD10のRDFデータの調査,修正

– 内臓関連のRDFデータの調査

– 遺伝子発現のデータとの統合の検討

4

Page 5: 37th mtg in NIBIO

副作用起点のNIBIO内外のDB統合

• クエリ例

–副作用(例:頭痛)が報告されている医薬品(化合物)のうち,NIBIOのデータに該当するものを取得。

• 臨床データと非臨床データの統合

5

医薬品(化合物)

副作用 NIBIOのデータ

Page 6: 37th mtg in NIBIO

化合物を含むNIBIOのデータ

• Open TG-GATEs

– 肝障害,腎障害を引き起こすされる医薬品をラットや人の細胞に曝露した実験データ(RDF化しているのは実験条件)

• 希少疾病用医薬品– 日本国内で希少疾病用医薬品と指定された品目の一覧

• 化合物情報– Open TG-GATEs,希少疾病用医薬品ともに,もともと付与されているCAS番号をもとにDrugbankのIDを付与

6

医薬品(化合物)

NIBIOのデータ

Page 7: 37th mtg in NIBIO

統合先のデータベース

• SIDER (Side Effect Resource)

– 公的文書や添付文書をもとに作成した副作用データベース

– ある医薬品で報告された副作用について,副作用発生の割合,含まれる化合物の情報,参照元の文書を調べられる

• Drugbank

– 医薬品やそのターゲット情報を包括的に調べられるデータベース

– 今回はデータを繋ぐIDに使用

7

医薬品(化合物)

副作用

Page 8: 37th mtg in NIBIO

調査

• SIDER, Drugbank

–オリジナルのデータベースにはRDFが無い

• 大手のLODプロジェクトを参照

– Bio2RDF

– Chem2Bio2RDF

• drugbankIDでのデータ統合のため,今回はこちらを使用

8

Page 9: 37th mtg in NIBIO

• SPARQL クエリを参照

9

Chem2Bio2RDF

http://chem2bio2rdf.wikispaces.com/

Page 10: 37th mtg in NIBIO

• SIDERとdrugbankの記述を確認

10

サンプルのクエリを確認

http://chem2bio2rdf.wikispaces.com/Chem2Bio2RDF+Virtuoso

Page 11: 37th mtg in NIBIO

• クエリを書いて動作を確認

11

Chem2BIO2RDF SPARQL Endpoint

http://cheminfov.informatics.indiana.edu:8890/sparql

Page 12: 37th mtg in NIBIO

12

?sider

sider:cid

sider:umls_id

?compound

?side_effect

?sider_id

?drug

drugbank:CID

sider:side_effect

?drugbank_id

drugbank:DBID

?compound_cid

compound:CID

“headache”

Page 13: 37th mtg in NIBIO

検索結果

• 無事にデータ取得可能

13

Page 14: 37th mtg in NIBIO

関連データのダウンロード

14http://cheminfov.informatics.indiana.edu:8080/dow

nload/

SERVICEクエリが

使用できなかったため,sider,pubchem,drug

bankのデータをダ

ウンロードし,加工した。

Page 15: 37th mtg in NIBIO

前データ処理

• ダウンロードデータは大きいデータだったので,事前にデータ処理を行い,動作の高速化とクエリの簡略化を実施

15

sider_URI

sider:cid

sider:umls_id

compound

side_effect

sider_id

drug_URI

drugbank:CID

sider:side_effect

?drugbank_id

chem_drugbank:DBID

compound_cid

compound:CID

Open_TG_GATEs_Data

OrphanDrug_Data

dbowl:drugbank_ID

Page 16: 37th mtg in NIBIO

処理済データをアップロード

• トリプルストアに入れてデータ統合

16

http://10.100.0.34:8081/owlim-workbench-webapp-5.3.1/data/import

Page 17: 37th mtg in NIBIO

17

動作を確認

Chem2Bio2RDF 由来のデータ

NIBIO由来のデータ

Page 18: 37th mtg in NIBIO

実行結果

18

Page 19: 37th mtg in NIBIO

アプリケーション化

• SPARQL endpoint URI を指定,クエリを投げるのみ

• 多くの SPARQL endpointの場合,URIの後にクエリが書かれている。

– E.g. http://” SPARQL endpoint URI

“/sparql?query=select+*+where%0D%0A%7B

%3Fs+%3Fp+%3Fo.%7D%0D%0ALIMIT+10

&_implicit=false&implicit=true&_equivalent=fal

se&_form=%2Fsparql

19

Page 20: 37th mtg in NIBIO

20

SPARQL Endpoint URL

SPARQL クエリ

フォーマットの指定(トリプルストアによる)

Page 21: 37th mtg in NIBIO

デモ

• 副作用 -> PHP program [ Python

(SPARQL-> JSON) ] -> HTML• PHP,JavaScriptのみでも実装可能とのこと

21

Page 22: 37th mtg in NIBIO

Open TG-GATEsデータとの統合について

• 遺伝子発現のデータとの統合を検討

– 現状,ToxyGATEsはKyoto Cabinetを使用

– 懸念事項

– データ量が膨大なため,トリプルストアで処理できる量かどうか

– Control vs各実験の遺伝子発現量のP値をRDF化,あるいは異なる方法で取得

• 疾患分類,臓器別分類による結果表示の検討

– 後述

22

Page 23: 37th mtg in NIBIO

希少疾病用医薬品のデータとの統合について

• Drugbank,特許関連,文献データとの統合の検討

–国内外のデータ比較

23

Page 24: 37th mtg in NIBIO

ICD10のRDFデータの調査

• BioPortal由来のデータ– ttl形式– UMLSのID参照もあり(SIDERのID)– 森田さんとの調査でデータの欠陥やバージョンの混合が判明

• WHO由来のデータ– xml形式– 2010年(現時点での最新版)

• 化合物データとの統合を念頭にICD10のRDF利用を検討– BioPortal由来のデータのほうが妥当?

24

Page 25: 37th mtg in NIBIO

内臓関連のデータ

• SIDERのUMLS ID→OMIM– Bio2RDFのSPARQL Endpoint経由で臓器名は取得可能• 副作用と紐付けられる臓器名は125

– ただし,階層構造はなし

• 疾患コンパス– http://lodc.med-ontology.jp/

– ウェブ上にRDFは無い– BodyPart3DのIDをRDF化している可能性– BodyPart3Dには階層構造あり,より詳細なデータと臓器の可視化が可能

25

Page 26: 37th mtg in NIBIO

今後の予定

• 遺伝子発現量のデータとの統合の模索

• ICD10の最新版RDFの作成

–上記利用による疾患の階層構造を踏まえたNIBIOのデータ取得

• 内臓関連のデータの調査

26

Page 27: 37th mtg in NIBIO

分子生物学会11月25日(火)〜27日(木)@パシフィコ横浜

• 創薬・疾患研究のためのビッグデータ探索– 当日までの準備

• チラシ,ポスター,アンケートの作成• デモの準備,論文の印刷

– チラシ• スケジュール:11月7日までに作成(各自),8日〜14日の週に意見交換・修正,17日〜の週に印刷(伊藤)

• 提案:両面刷り,従来の説明に追加して,プロジェクトの概要やよく聞かれる質問の Q and A 集を用意– TargetMine(Chenさん)– Toxygates(五十嵐さん)– Sagace(伊藤)– 医薬基盤研内のデータベース(深川さん)

27

Page 28: 37th mtg in NIBIO

分子生物学会11月25日(火)〜27日(木)@パシフィコ横浜

– ポスター

• スケジュール:チラシに準ずる。

• 相談:例年だと各DBの紹介とSagace

• 創薬・疾患研究のためのビッグデータ探索というタイトルならば,Sagace, TargetMine, ToxyGATEs,

RDF化したNIBIOのDBの紹介,今後の予定の方が妥当?

28

Page 29: 37th mtg in NIBIO

分子生物学会11月25日(火)〜27日(木)@パシフィコ横浜

• アンケート

• 10月中に質問項目の修正(メンバー)– http://bit.ly/1wnQJRX

• 質問項目(昨年度)– 体験したデモ

– 使ったことのあるデータベース

– 今後必要とするサービスの要望

– ご質問・ご感想

• 昨年度の反省点より– 使ったことのあるデータベースの回答がほとんど無かった。

29

Page 30: 37th mtg in NIBIO

分子生物学会11月25日(火)〜27日(木)@パシフィコ横浜

• デモ

• 昨年度の反省より– 各データベースやサービスの一般的な説明の不足

– デモ用の準備の必要性

• 提案– 次回のMTGまで

» DB開発者によるチュートリアルの作成,またはおすすめ操作の説明

– 次回のMTG時

» 各サービスのひととおりの操作の把握

» 各サービスの操作の難しい点,注目点の共有

30

Page 31: 37th mtg in NIBIO

分子生物学会11月25日(火)〜27日(木)@パシフィコ横浜

• スケジュール案

• お願い• シフトを作成するので,OKな日&時間帯,NGな日&時間帯(多い方)を教えて下さい。

31

10/25〜31 11/4〜7 11/10〜14 11/17〜21

チラシ 草案意見交換・修正

印刷

ポスター 草案意見交換・修正

印刷

アンケート 修正 印刷

デモ チュートリアル作成最終確認・内部でのQA

Page 32: 37th mtg in NIBIO

今後の予定

• 次回

– 11月17日〜の週

• BioHackathon 2014

– 11月9日(日)〜14日(金)

• 分子生物学会

– 11月25日(火)〜27日(木)

32