40th mtg in nibio
TRANSCRIPT
2015/1/30
第40回統合DBミーティングIntegrated MTG in NIBIO
1
本日の予定
• Sagace– アクセス解析
– 進捗報告
– 新規追加DBについて
• 医薬基盤研内のデータのRDF化
– 副作用データ→化合物→発現上昇/下降遺伝子の取得について
– Open TG-GATEsのRDFのSchema修正について
2
進捗報告
• PDBjでマークアップされたRDFa Liteを
検索結果に表示(開発版)
3
新規追加候補DB
• Genetics Home Reference
• がん研究データベース
• 化学物質の有毒性評価書
• VaDE
• 病理コア画像
• NBRP-Rat
• じん肺データベース
• 腰痛データベース
4
医薬基盤研内のデータのRDF化
• 「***という副作用が報告された医薬品において,ラット/マウスに投与後,発現が上昇した遺伝子/下降した遺伝子」
• 上記を実行するアプリケーションを作成
5
SIDERのSchema (抜粋)
6
Open TG-GATEsのSchema(抜粋)
7
データの統合
8
イメージ図
9
実際に行ったこと
• 遺伝子発現のデータはOpen TG-GATEsのRDFに直接紐付けられていなかった。
• 実験条件を以下に固定– Repeat, Rat, in vivo, Liver, Middle, 15 day
• 遺伝子発現の上昇・下降条件を固定し,Toxygatesで使用しているプログラム経由で取得。– 条件:p-valueが小さい上位50位のうち
– log2foldの値 > 2 :上昇
– log2foldの値 < -2 :下降
10
Open TG-GATEsのSchema(抜粋)
11
SPARQLで確認
SELECT distinct ?gene ?compound
WHERE {
#from Open TG-GATEs
?exp dbowl:pubchem ?pubchem;
toxico:compound_name ?compound;
toxico:up_regulated_gene ?gene.
#from SIDER
?drug sider_vocab:pubchem-compound-id ?pubchem;
sider_vocab:side-effect ?side.
?side dcterms:title “headache"@en.
}
12
アプリケーション化
• PHPで実装
• 副作用の文字をクエリとして受け取り,その文字列をそのまま,SPARQLに投げる。
• JSONで結果を受け取り,その結果をパースして表示する。
13
SELECT distinct ?gene ?compound
WHERE {
#from Open TG-GATEs
?exp dbowl:pubchem ?pubchem;
toxico:compound_name ?compound;
toxico:up_regulated_gene ?gene.
#from SIDER
?drug sider_vocab:pubchem-compound-id ?pubchem;
sider_vocab:side-effect ?side.
?side dcterms:title "'.$keyword.'"@en.
}
デモ
14
Open TG-GATEsのSchema
の修正• 現在のRDFの問題点
– 実験条件とサンプルの情報が1つのRDFにまとめられている。
– 外部のRDFとの親和性が低い。• RDFのSchemaが分からないと統合しにくい。
– 文法上の間違いがある。
• 目標
– 修正して,ダウンロード可能な状態にする。
– アプリケーションでも利用しやすい状態にする。
15
16
Schemaの修正(素案)
今後の予定
• 次回 2月20日(金) or 27日(金)
• 国内版 BioHackathon
– 2月2日〜6日
17