ngsデータのエンリッチメント解析による生物学的 ......licensed under cc-by 4.0...
TRANSCRIPT
Licensed under CC-BY 4.0 ©2018 Takeru Nakazato (DBCLS)
日本科学未来館平成 30年 10月 5日
トーゴーの日シンポジウム 2018
従来の Gene Ontology (GO) や pathway による生物学的解釈は分子や細胞レベルでの解釈であった。他に臓器や疾患という観点からの生物学的解釈も試みたい。そこで MeSH の用語を用いることとした。
MeSH keywordsCategory
Diseases
Chemicalsand drugs
Anatomy
Diabetes MellitusDiabetes Mellitus, Type 1Diabetes Mellitus, Type 2
Autoimmune DiseasesInsulin Resistance
ObesityInsulin
AdiponectinPancreas
SpleenAdipocytes
1型 2型
10e-1010e-0910e-0810e-0710e-0610e-0510e-0410e-0310e-020.05
0.100.200.300.400.500.751
p-value
MeSH は遺伝子でなく文献に付与されたキーワード集なので、各遺伝子について関連文献を収集し、そこから MeSH の語を抽出することにより Gene-MeSH ペアを作成している。
MeSH によるアノテーションの結果例。本図は同じ手法を OMIM の各疾患に対して行い、1 型 /2 型糖尿病について図示したもの。
NGS データの検索DDBJ Search → ポスター 3発現データ検索 AOE → ポスター 5
遺伝子発現リファレンスRefEx → ポスター 4
NGS 解析というと、リードをどううまくつなぎ、遺伝子として組み上げ、どのくらいの発現量であったか、という点について、バイオインフォマティクスの課題として議論され、多くの手法が提案されてきた。もちろん、その点は非常に重要なのだが、実際のデータを解析するにあたっては、得られた(たとえば発現がある条件で上昇した、というような)遺伝子リストに対し、生物学的な意味づけを行うことが必要不可欠である。これまで、BLAST をかけて遺伝子名を対応づける他、Gene Ontology や Pathway に対応づけての生物学的な意味づけが行われてきた。
得られた MeSH によるアノテーション情報やそこから作成するなどした各種遺伝子リストを用いたエンリッチメント解析を行うためのウェブサービスを構築中である。画像は現在よく使われているエンリッチメント解析のウェブサービスである Metascape の画面。
既存のウェブサービス Gendoo では、個々の関連度を並べるにすぎなかった。これは、遺伝子と MeSH 用語について文献数である/ ないの 2×2 表を作成し、p-value をあらかじめ計算してあったためである。逆につどつど遺伝子リストについて計算するのは非常に時間がかかる。さらに上記の表で遺伝子 / 用語がともにない(右下)の数字が非常に大きくなるのにこのスコアリングでよいか、というのも検討課題である。また、MeSH は階層構造をとっているので、それを反映したスコアリングも行いたい。BLAST
ドメインサーチGene OntologyPathwayゲノム上の位置...
生物学的機能は ?実験条件との関連は ?
文献数
RNA-Seq データ解析のフロー アノテーションからエンリッチメント解析へ新たな切り口での「生物学的解釈」
分子 細胞 組織/臓器 個体
MEDLINE収載の文献をインデキシングするためのキーワード集 (controlled vocabulary)
15分野 (Disease, Chemicals and Drugs, Anatomy, ...)階層構造により語を整理NLM (National Library of Medicine) により管理
http://www.nlm.nih.gov/mesh/
MeSH (Medical Subject Headings)
~23,000語
MeSH terms
参考文献
近年、NGS解析が盛んに行われており、ライフサイエンス統合データベースセンター(DBCLS)でも公共NGSデータ検索サービスDBCLS SRAなどを開発してきた。NGS
解析というと、マッピングや発現定量などが注目されがちだが、得られた遺伝子リストについて生物学的解釈を行うことも必要不可欠である。DBCLSでは、各遺伝子について疾患や化合物の側面から特徴づけを行うGendooシステムを開発してきた(http://gendoo.dbcls.jp/)。各遺伝子について、関連文献に付与されたMeSH terms
を抽出してスコアリングすることにより特徴づけを行っている。従来、生物学的な解釈としてGene Ontologyやパスウェイを用いてのエンリッチメント解析が行われているが、今回、 我々はGendooシステムを拡張し、新たに疾患や化合物の側面からエンリッチメント解析を行えるよう改良を行った。これまでは個々の遺伝子の特徴を並べているにすぎなかったが、本改良により遺伝子リストとしての特徴を示すことが可能となる。
NGSデータのエンリッチメント解析による生物学的解釈
情報・システム研究機構 (ROIS) データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター (DBCLS)
特徴抽出パイプライン
課題:スコアリング
PMID
Gene-MeSHPairs
Gene-PMIDPairs
PMID
Gene ID
Gene ID
PMID
Gene ID
PubMedSearch
Step 3: 各遺伝子に対応する MeSH のついた論文を抽出
Step 1: Entrez Geneの Bibliographyセクションより、 論文の PMID (PubMed ID) を抽出
Scoringp-value
RefSeq ID
MeSH keyword
Step 2: MEDLINE中の文献でGene ID の記載のある論文を抽出
SRA
Mappingde novo assemble
Quality check
Database search
Downloadown data
発現定量
Gendoo: Functional profiling of gene and disease features using MeSH vocabulary
Nakazato T., Bono H., Matsuda H., Takagi T.,
Nucleic Acids Research, 37 (Suppl. 2) (Web Server issue), 2009
doi:10.1093/nar/gkp483
統計処理
遺伝子リスト
生物学的意味は???
Hidemasa Bono
坊農 秀雅仲里 猛留Takeru Nakazato
@chalkless
撮影可
Creative Commons Licence( 表示 ) のもと、再利用可