rna-seqデータから 知識データベース(lskb)を …rna-seq fdr±2 400 annotation filter...
TRANSCRIPT
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
World Fusion Co., LTD
RNA-seqデータから 知識データベース(LSKB)をフル活用した
創薬ターゲット探索
1
第12回 Class Aデータ解析セミナー ~ これからのNGSデータ解析技術 ~
2015年9月8日(火)
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
この講演の内容
• LSKBとは
• Expressionアノテーターの紹介
• LSKB機能を用いた解析例
2
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Comprehensive Network in LSKB
Benefits of using LSKB:
- Relevant information from multiple data sources simultaneously
- Effortless extraction of highly specific data
- Significant time-savings
4
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved. 5
LSKB Text-mining DB overview
DB construction
LSKB Database
Dictionary
Reference
Keyword
Annotation
Public database
FDA
ChEMBL
UniProt
NCBI
・・・
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved. 6
LSKB Text-mining DB overview
DB construction
LSKB Database
Dictionary
Analyzed data
Text-mining
Gene
Protein
Chemical
Disease
Tissue
Literature DB
MEDLINE
Text-mining
Engine
Text-mining
※MEDLINE data for 20years
※Category in Medline
・Title
・Abstract
・MeSH Heading List
・Gene Symbol List
・Keyword List
Taxonomy
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Chemicals in
Dictionary
Drugbank
Chemical database
FDA
PDB
ZINC
ChEMBL
PubChem
Public Data source
Dictionary
Literature
Keywords
Annotation
Non-Redundant
Structures
Structure Search Keyword Search
PDB Ligand
ZINC
ChEMBL
Chem in
Literature
PubChem
Import by customer
Mol. Framework
7
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Chemical detail
Compound
Structure
Activity Info. Assay Info.
IUPAC Name
Patent Info.
Target Protein/Gene
Another active compounds
information
Drug
Classification
8
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Pharmacological
Action
Structure Info.
PDB
Binding Protein
Active conformation
Chemical detail
9
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Unique Structure Search in LSKB
• Exact Match
• Similarity Search
• Substructure Search
• Molecular Framework Search
-> Target Prediction
10
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Molecular Framework Search
Query
PDE4 Inhibitor
APEX Nuclease Inhibitor
Lysyl-tRNA synthetase inhibitor
Tyrosine-protein kinase ITK/TSK Inhibitor
PTP1B Inhibitor
framework
11
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Target Prediction
Ligand-based Target Prediction Methods in LSKB: – Compound similarity - known as active to targets
– Select with molecular framework filters
– Weighed average (by similarity) as predicted activity
– The data is built from “binding” assays with defined values, based on:
• 1.4 M compounds
• 5500 protein targets
• 5M interactions
• Regular updates continually enhance predictive accuracy
– Increasing # of compounds/proteins/interactions
12
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Ex1) Antifungal Active Compound: Arasertaconazole
Predicted Value
The Evidence
Predicted ADME-related target
13
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Disease
Known/unknown
therapeutic target
Gene/Protein
14
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
“New” Disease information
Go to Clinicaltrials.gov 当該疾患の臨床開発状況が調べられます。
リストされた疾患関連タンパク質情報は、LSKBのバッチ検索に
送ることができ、まとめて活性化合物を探すことが可能です。 15
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Disease related Gene
MedGen/OMIM
は当該疾患関連のみ表示され、Filter操作可能です。
MedGene/OMIMで
の関連遺伝子および、Referenceの共
起をもとにリストされます。
16
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Disease related Protein
MedGen/OMIM
は当該疾患関連のみ表示され、Filter操作可能です。
TTD, Reference,
MedGene/OMIMでの関
連タンパク質をもとにリストされ、関連PDB および
アッセイ情報が得られます。
17
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Disease related Drug ATCから紐づく疾患およびTTDの記
載をもとにリストされます。
18
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Disease related SNP
SNPから 他の全
ての関連疾患(OMIM)が表示されます。
dbSNP の文献記載および OMIM をもとにリストされます。
19
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Related Disease in Gene information - Rare Disease tag-
20
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Target Prioritization
Valuable information by easy Operation
21
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Target Prioritization
Pathway & GO
New interest Gene list ABCB1 ABCB11 ABCG2 SLC22A8 …
Target Prioritization
22
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Annotated Transporters by Target Prioritization
https://lskb.w-fusion.com/lskbdemo/WfGate?key=20150710-08-10-19-987 23
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Getting Related Information in an Intuitive Manner
• Filter by:
– Human Proteins
– PDB Information (3D structure)
– Activities
– SNP Information
– Related Diseases
• Links to Proteins/Genes/Activities/Chemicals
24
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Expressionアノテーター
Microarray, RNA-seq解析結果から
疾患・表現型関連・薬物標的等の遺伝子を絞り込み
25
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Human Transcript
RNA-Seq
FDR<0.05, Fold change>±2
400
Annotation filter
?
Microarray, RNA-seq解析で
有意差検定やアノテーション情報により絞り込んだ遺伝子から さらに着目する遺伝子を絞り込む“新しい”方法を提供
Expressionアノテーターとは
Mouse, Rat, Zebrafish etc
Transcript
RNA-Seq
FDR<0.05, Fold change>±2
500
400
Human Ortholog Gene
Annotation filter
? 26
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
この過程でタンパク質と活性
化合物の情報を付与する
遺伝子と関係がある活性化合物を取得 ⇒化合物による活性制御が可能な遺伝子(タンパク)を特定
1, 実測されたアッセイ情報を用いて遺伝子の化合物標的としての評価を迅速化 2, in vitro assayに用いる化合物の探索を通じてGene-Phenotype間の相関解析 3,情報の少ない遺伝子・タンパクの機能を結合化合物の作用から推定 Human Transcript
RNA-Seq
FDR<0.05, Fold change>±2
400
Annotation filter
?
RNA-Seq
FDR<0.05, Fold change>±2
500
400
Human Ortholog Gene
Annotation filter
?
Expressionアノテーターとは
Mouse, Rat, Zebrafish etc
Transcript
27
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Pathway & GO
アノテーション情報付与
28
RNA-seq Microarry 解析データ
Expressionアノテーターとは
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
GENEID(Human)
ENTRY_NAME(HUMAN)
GO term; biological_process
GO term; cellular_component
GO term; molecular_function
OMIM Disease;#hits
OMIM Disease;ID_and_description
Pathway;#hits
Pathway;ID_and_description
UNIPROT_PRIMARY_ACC(HUMAN)
UNIPROT_ACC(HUMAN)
PubChem BioAssay;#Assays
PubChem BioAssay;#Compounds
ChEMBL Assay;Target_ID_and_Name
ChEMBL Assay;#Activities
ChEMBL Assay;#Inhibitors(pAct>5)
ChEMBL Assay;#Binders(pAct>5)
PDB associated with Entry Name;#PDBIDs
PDB associated with Entry Name;#Ligands
#References
Clinvar(hg19);#hits
Clinvar(hg19);IDs
Clinvar(hg38);#hits
Clinvar(hg38);IDs
Basic annotation
Additional annotation +
統計解析後元データ
Expressionアノテーター 付与アノテーション
Feature ID Transcript ID
Control- 1
Control- 2
Control- 3
Control- 4
SSC- 1
SSC- 2
SSC- 3
SSC- 4
ControlMeans
SSCMeans
Foldchange FDR
ADAMDEC1_2 ENST00000256412 0 1 0 2 257 291 300 251 0.75 274.75 272.79 2.34E-28IGLV3-1_1 ENST00000390319 5 0 2 0 843 969 628 601 1.75 760.25 307.57 1.67E-27CXCL10_1 ENST00000306602 1 2 0 5 652 386 638 895 2 642.75 266.40 2.04E-27IGHG1_1 ENST00000390542 4 7 4 1 685 602 538 353 4 544.5 108.33 1.52E-26ADCYAP1_1 ENST00000579794 0 6 0 4 335 407 281 231 2.5 313.5 104.33 6.28E-24MS4A7_5 ENST00000358246 0 3 2 4 249 251 196 308 2.25 251 93.23 1.52E-23SFRP4_1 ENST00000436072 14 40 74 76 5720 3891 2041 3810 51 3865.5 66.72 3.36E-23IGHG1_2 ENST00000390548 2 8 3 3 1442 782 253 703 4 795 164.84 2.05E-22CD163_10 ENST00000537626 5 17 10 14 435 471 362 444 11.5 428 31.86 9.77E-22IGHG1_3 ENST00000390549 7 4 0 5 780 630 566 1043 4 754.75 143.65 1.24E-21EPYC_2 ENST00000261172 1 1 2 5 863 360 205 671 2.25 524.75 190.66 3.24E-21IGHGP_1 ENST00000390555 1 7 2 3 719 411 180 542 3.25 463 120.74 3.74E-21IGHG3_1 ENST00000390551 3 9 1 3 2030 664 428 1655 4 1194.3 251.08 5.33E-21AC093850.2_1 ENST00000415479 0 1 0 0 248 114 98 211 0.25 167.75 400.48 4.65E-20FDCSP_1 ENST00000317987 0 6 1 2 154 174 213 198 2.25 184.75 69.62 5.47E-20MSR1_1 ENST00000381998 30 104 54 148 5322 4169 2022 3392 84 3726.3 38.93 6.09E-20LBP_1 ENST00000217407 0 11 10 8 398 331 405 458 7.25 398 49.42 1.48E-19SERPINE1_2 ENST00000223095 9 87 10 55 3950 3271 3143 3699 40.25 3515.8 81.77 3.15E-19IGKV3-11_1 ENST00000483158 2 3 9 4 296 287 164 203 4.5 237.5 43.09 3.51E-19TNC_14 ENST00000341037 74 170 103 189 2577 3624 3420 2510 134 3032.8 19.12 5.38E-19CXCL13_1 ENST00000286758 0 1 0 2 200 131 82 145 0.75 139.5 138.83 5.85E-19S100A8_3 ENST00000368733 653 1681 750 1022 22876 55552 48343 18164 1026.5 36234 28.98 4.25E-18IGHV3-23_1 ENST00000390609 1 0 0 0 96 85 83 101 0.25 91.25 210.05 4.31E-18MMP1_1 ENST00000315274 0 0 0 2 990 169 167 870 0.5 549 790.73 1.28E-17COMP_4 ENST00000222271 6 43 15 32 804 672 613 584 24 668.25 25.03 2.08E-17COL8A1_7 ENST00000261037 103 203 144 281 5770 3616 3181 5038 182.75 4401.3 20.53 2.09E-17IGHG2_1 ENST00000390545 5 0 4 3 780 627 167 340 3 478.5 114.86 6.04E-17LUM_2 ENST00000266718 2066 6771 4757 7592 140119 99226 72521 111993 5296.5 105965 17.72 6.95E-17KRT6C_1 ENST00000252250 294 1741 397 1712 56646 201387 171021 38213 1036 116817 100.30 8.72E-17TNFSF4_3 ENST00000281834 26 76 12 41 3414 1767 1178 2822 38.75 2295.3 50.49 1.53E-16THBS1_1 ENST00000260356 759 2103 1163 2721 68203 30753 32420 64881 1686.5 49064 25.87 2.06E-16C1QB_3 ENST00000509305 21 110 104 94 3834 1948 1330 2898 82.25 2502.5 27.74 2.37E-16OAS2_2 ENST00000392583 14 32 45 59 668 1065 1077 608 37.5 854.5 19.55 3.64E-16
29
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Additional annotation = Protein-Ligand function
UNIPROTPubChem
BioAssay
PubChem
BioAssay
ChEMBL
Assay
ChEMBL
Assay;#Acti
vities
ChEMBL
Assay;#Inhibit
ors(pAct>5)
ChEMBL
Assay;#Binde
rs(pAct>5)
PDBIDsPDB#Li
gands
PFAM
Domains
#Referen
ces
Clinvar(hg
19);IDs
Clinvar(hg
38);IDs
K9JA46;P
07900;Q8
6SX1
11 3539
CHEMBL3
880 Heat
shock
protein
570 259 82 166 153 PF00183 Hsp90 protein;PF02518 Histidine kinase-, DNA gyrase B-, and HSP90-like ATPase;PF00183 Hsp90 protein;PF02518 Histidine kinase-, DNA gyrase B-, and HSP90-like ATPase;PF02518 Histidine kinase-, DNA gyrase B-, and HSP90-like ATPase1898rs2676040
09
rs2676040
09
Inhibitors
実験上このタンパク質へ阻害
活性を持つ化合物の数
Binders=
実験上このタンパク質へ結合
活性を持つ化合物の数
タンパク質の働きを制御できる化合物を知る
Additional annotationの構成要素
1, 化合物-タンパク間の実測されたアッセイ情報を参照
2,活性値に基づいたフィルタリングを挟むことも可能
Expressionアノテーター 使用方法
30
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
早期のびまん型強皮症(diffuse SSc) RNA-Seq
サンプル レイノー 症状を伴わない早期のびまん型強皮症(diffuse SSc)発症患者4名の病変前腕皮膚および健常人4名の正常皮膚からRNA シーケンサー Illumina HiSeq 2000 リード 50 bp paired-end
レイノー症状: 冷たいものに触れると手指が蒼白~紫色になる症状
出典:難病情報センター:http://www.nanbyou.or.jp/entry/75
強皮症( scleroderma ) 全身の皮膚が硬くなる他、内臓にも病変を発症する原因不明の慢性疾患である。 古典的五大膠原病のひとつ。 病因 全身性強皮症では3つの異常が病因と深く関連していると考えられている。 (1)線維芽細胞の活性化(その結果、膠原線維が多量に産生され、皮膚や内臓の硬化が生じる)、 (2)血管障害(その結果、レイノー症状や指尖部の潰瘍などが生じる)、 (3)免疫異常(その結果、自己抗体が産生される)。
解析例
32
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
有意差検定(EdgeR)
発現解析 発現解析
解析ステップ
マッピング
Fastq
マッピング
Fastq
Expression アノテーター
FDR<0.05, Fold change>±2
1693
Annotation filter
?
Diffuse SSc (n=4) Control (n=4)
UP:918
Down:478
CLC Genomics
Workbench
解析例
GO
pathway
33
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
解析結果1 Top 10 Gene ontology (GO) enrichment analysis
Accession GO Term Count P-value
5515 protein binding 327 1.06E-74
8201 heparin binding 34 4.44E-28
5509 calcium ion binding 62 2.83E-25
4872 receptor activity 36 8.25E-24
5201 extracellular matrix structural constituent 21 8.56E-22
5102 receptor binding 38 2.64E-20
5178 integrin binding 22 1.41E-17
8009 chemokine activity 16 1.05E-16
5518 collagen binding 16 4.65E-15
Accession GO Term Count P-value
6954 inflammatory response 71 3.65E-55 30198 extracellular matrix organization 68 2.10E-52
6955 immune response 70 3.33E-52 45087 innate immune response 88 1.24E-46
7165 signal transduction 103 1.26E-46 7155 cell adhesion 68 3.70E-42
22617 extracellular matrix disassembly 35 5.56E-33 6935 chemotaxis 31 3.62E-27
30574 collagen catabolic process 26 1.04E-26 7267 cell-cell signaling 39 1.75E-25
Accession GO Term Count P-value
5576 extracellular region 195 4.30E-112 5615 extracellular space 167 6.71E-99 5886 plasma membrane 257 2.39E-82
70062 extracellular vesicular exosome 195 3.56E-62
5887 integral component of plasma membrane
107 1.67E-45
31012 extracellular matrix 48 2.35E-42
16021 integral component of membrane 190 6.90E-37
5578 proteinaceous extracellular matrix 45 4.93E-33
9986 cell surface 60 4.62E-32
5829 cytosol 140 9.31E-30
●Cellular Component
● Biological Process
● Molecular Function
解析例
34
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
解析結果2 Reactome Pathway
BSID Name Count No of
Genes in Pathway
730306 Assembly of collagen fibrils and other multimeric structures 21 55
730309 Collagen degradation 12 39
771578 FCGR activation 11 36
645288 Collagen formation 26 88
645289 Collagen biosynthesis and modifying enzymes 19 65
106359 Chemokine receptors bind chemokines 16 60
106406 Initial triggering of complement 11 42
119557 PD-1 signaling 8 31
106110 Integrin cell surface interactions 17 66
106405 Complement cascade 15 60
187104 Interferon alpha/beta signaling 17 69
730310 Elastic fibre formation 10 41
105697 NCAM1 interactions 9 37
576262 Extracellular matrix organization 63 266
106407 Creation of C4 and C2 activators 8 35
解析例
35
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
GO解析ならびにPathway解析の結果、コ
ラーゲン合成系と分解系に関連する遺伝子
群が変動しているとことが推測された。
それに着目して、化合物による活性制御が
可能な遺伝子(タンパク)を特定をおこなった。
解析例
36
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
コラーゲン合成系と分解系に 関連している 変動遺伝子遺伝子リスト
ChEMBL AssayでpAct >= 5のInhibtor
遺伝子ごとに活性値を伴った化合物情報が表示される
pAct=活性値の-log
解析例
37
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
コラーゲン合成系と分解系に関連する発現変動遺伝子
ChEMBL Assay
Entrez GeneID Gene Symbol UniProt Entry
Name Target ID and Name #Activities
#Inhibitors (pAct>5)
#Binders (pAct>5)
4312 MMP1 MMP1_HUMAN CHEMBL332 Matrix metalloproteinase-1
6350 2102 18
1514 CTSL CATL1_HUMAN CHEMBL3837 Cathepsin L
2185 1009 0
4319 MMP10 MMP10_HUMAN CHEMBL4270 Matrix metalloproteinase 10
48 12 0
4067 LYN LYN_HUMAN CHEMBL3905 Tyrosine-protein kinase Lyn
2868 175 42
4317 MMP8 MMP8_HUMAN CHEMBL4588 Matrix metalloproteinase 8
1357 870 0
1508 CTSB CATB_HUMAN CHEMBL4072 Cathepsin B
2010 726 2
8754 ADAM9 ADAM9_HUMAN CHEMBL5982 ADAM9
49 33 0
1520 CTSS CATS_HUMAN CHEMBL2954 Cathepsin S
2202 1478 48
4314 MMP3 MMP3_HUMAN CHEMBL283 Matrix metalloproteinase 3
2815 1574 3
4320 MMP11 MMP11_HUMAN CHEMBL2867 Matrix metalloproteinase 11
9 5 0
1513 CTSK CATK_HUMAN CHEMBL268 Cathepsin K
2202 1464 0
解析例
化合物アッセイ情報がある遺伝子:11
MMP Family:5
38
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Gene ID Symbol Gene Name Fold
change FDR
4312 MMP1 matrix metallopeptidase 1 (interstitial collagenase) 790.73 1.28E-17
4314 MMP3 matrix metallopeptidase 3 (stromelysin 1, progelatinase) 14.32 8.01E-03
4317 MMP8 matrix metallopeptidase 8 (neutrophil collagenase) 9.09 4.47E-03
4319 MMP10 matrix metallopeptidase 10 (stromelysin 2) 12.79 3.97E-04
4320 MMP11 matrix metallopeptidase 11 (stromelysin 3) 7.53 1.79E-02
MMP (マトリックスメタロプロテアーゼ)
diffuse SScで発現↑していたMMP
変動が大いMMP1 をターゲット化合物と
MMPマルチターゲット化合物の
探索を行った
解析例
39
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
MMP1は、interstitial collagenase とも呼ばれる 各種癌や 変形性関節症の標的にもなりうるタンパク質
解析例
40
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
MMP1は、interstitial collagenase とも呼ばれる 各種癌や 変形性関節症の標的にもなりうるタンパク質
MMP1 (diffuse SScで発現↑)の活性
を阻害する化合物のリスト
購入可能な化合物:40
Drug:13
解析例
41
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
MMPをターゲットとする化合物
SSCにおいて発現が上昇したMMPを
マルチターゲットとシングルターゲッ
トの阻害活性化合物を探索可能
解析例
42
遺伝子ごとに活性値が表示される
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
Cell based assay
-Inhibitor Compound
-Activator Compound
Significant Gene 1, 実測されたアッセイ情報を用いて 遺伝子の化合物標的としての評価を迅速化
2, in vitro assayに用いる化合物の探索を 通じてGene-Phenotype間の相関解析
3,情報の少ない遺伝子・タンパクの機能を 結合化合物の作用から推定
遺伝子(protein)-活性化合物の関係を参照可能とすることで
Active chemical
related gene
Annotation filter
まとめ
43
Copyright (C) 2015 World Fusion Co.,LTD. All Rights Reserved.
今回ご紹介した製品
44
・LSKB 多様な情報を連携した知識データベースで、疾患、遺伝子、タンパク質やこれらのリストからの検索 あるいは構造検索を出発に、短いステップで有用な情報を提示することを可能にしたシステム
・Disease Explorer 調べたい疾患の概要、関連遺伝子や変異情報、治療標的タンパク質や化合物情報まで一覧表示。
・Expressionアノテーター 遺伝子のアノテーションのみでなく、タンパク質、疾患、Pathway、GO、ドメイン、PDB化合物、阻害、結合化合物と活性値などの情報を一度に閲覧できることが特徴。
・CLC Genomics Workbench CLCbio社のGenomics Workbenchは初歩的な遺伝子解析ツールから次世代シーケンスデータ解析ツールまでを網羅したデスクトップ型解析ソフトウェア。