ngsデータのエンリッチメント解析による生物学的 ......licensed under cc-by 4.0...

1
Licensed under CC-BY 4.0 ©2018 Takeru Nakazato (DBCLS) 日本科学未来館 平成 30 10 5 トーゴーの日シンポジウム 2018 従来の Gene Ontology (GO) pathway による生物学的解釈は 分子や細胞レベルでの解釈であった。他に臓器や疾患という観点 からの生物学的解釈も試みたい。そこで MeSH の用語を用いる こととした。 MeSH keywords Category Diseases Chemicals and drugs Anatomy Diabetes Mellitus Diabetes Mellitus, Type 1 Diabetes Mellitus, Type 2 Autoimmune Diseases Insulin Resistance Obesity Insulin Adiponectin Pancreas Spleen Adipocytes 1型 2型 10e-10 10e-09 10e-08 10e-07 10e-06 10e-05 10e-04 10e-03 10e-02 0.05 0.10 0.20 0.30 0.40 0.50 0.75 1 p-value MeSH は遺伝子でなく文献に付与されたキーワード集なので、各 遺伝子について関連文献を収集し、そこから MeSH の語を抽出 することにより Gene-MeSH ペアを作成している。 MeSH によるアノテーションの結果例。本図は同じ手法を OMIM の各疾患に対して行い、1 型 /2 型糖尿病について図示したもの。 NGS データの検索 DDBJ Search → ポスター 3 発現データ検索 AOE → ポスター 5 遺伝子発現リファレンス RefEx → ポスター 4 NGS 解析というと、リードをどううまくつなぎ、遺伝子として 組み上げ、どのくらいの発現量であったか、という点について、 バイオインフォマティクスの課題として議論され、多くの手法が 提案されてきた。もちろん、その点は非常に重要なのだが、実際 のデータを解析するにあたっては、得られた(たとえば発現があ る条件で上昇した、というような)遺伝子リストに対し、生物学 的な意味づけを行うことが必要不可欠である。 これまで、BLAST をかけて遺伝子名を対応づける他、Gene Ontology や Pathway に対応づけての生物学的な意味づけが行わ れてきた。 得られた MeSH によるアノテーション情報やそこから作成する などした各種遺伝子リストを用いたエンリッチメント解析を行う ためのウェブサービスを構築中である。 画像は現在よく使われているエンリッチメント解析のウェブサー ビスである Metascape の画面。 既存のウェブサービス Gendoo では、個々 の関連度を並べるにすぎなかった。これは、 遺伝子と MeSH 用語について文献数である / ないの 2×2 表を作成し、p-value をあら かじめ計算してあったためである。逆につ どつど遺伝子リストについて計算するのは 非常に時間がかかる。さらに上記の表で遺 伝子 / 用語がともにない(右下)の数字が 非常に大きくなるのにこのスコアリングで よいか、というのも検討課題である。 また、MeSH は階層構造をとっているので、 それを反映したスコアリングも行いたい。 BLAST ドメインサーチ Gene Ontology Pathway ゲノム上の位置 ... 生物学的機能は ? 実験条件との関連は ? 文献数 RNA-Seq データ解析のフロー アノテーションからエンリッチメント解析へ 新たな切り口での「生物学的解釈」 分子 細胞 組織/臓器 個体 MEDLINE 収載の文献をインデキシングするための キーワード集 (controlled vocabulary) 15 分野 (Disease, Chemicals and Drugs, Anatomy, ...) 階層構造により語を整理 NLM (National Library of Medicine) により管理 http://www.nlm.nih.gov/mesh/ MeSH (Medical Subject Headings) ~23,000 MeSH terms 参考文献 近年、NGS 解析が盛んに行われており、ライフサイエンス統合データベースセンター(DBCLS )でも公共NGS データ検索サービスDBCLS SRAなどを開発してきた。NGS 解析というと、マッピングや発現定量などが注目されがちだが、得られた遺伝子リストについて生物学的解釈を行うことも必要不可欠である。DBCLSでは、各遺伝子 について疾患や化合物の側面から特徴づけを行うGendoo システムを開発してきた(http://gendoo.dbcls.jp/ )。各遺伝子について、関連文献に付与されたMeSH terms を抽出してスコアリングすることにより特徴づけを行っている。従来、生物学的な解釈としてGene Ontology やパスウェイを用いてのエンリッチメント解析が行われ ているが、今回、 我々はGendoo システムを拡張し、新たに疾患や化合物の側面からエンリッチメント解析を行えるよう改良を行った。これまでは個々の遺伝子の特 徴を並べているにすぎなかったが、本改良により遺伝子リストとしての特徴を示すことが可能となる。 NGS データのエンリッチメント解析による生物学的解釈 情報・システム研究機構 (ROIS) データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター (DBCLS) 特徴抽出パイプライン 課題:スコアリング PMID Gene-MeSH Pairs Gene-PMID Pairs PMID Gene ID Gene ID PMID Gene ID PubMed Search Step 3: 各遺伝子に対応する MeSH のついた論文を抽出 Step 1: Entrez Gene Bibliography セクションより、 論文の PMID (PubMed ID) を抽出 Scoring p-value RefSeq ID MeSH keyword Step 2: MEDLINE 中の文献で Gene ID の記載のある論文を抽出 SRA Mapping de novo assemble Quality check Database search Download own data 発現定量 Gendoo: Functional profiling of gene and disease features using MeSH vocabulary Nakazato T., Bono H., Matsuda H., Takagi T., Nucleic Acids Research, 37 (Suppl. 2) (Web Server issue), 2009 doi:10.1093/nar/gkp483 統計処理 遺伝子リスト 生物学的意味は??? Hidemasa Bono 坊農 秀雅 仲里 猛留 Takeru Nakazato [email protected] @chalkless 撮影 Creative Commons Licence ( 表示 ) のもと、再利用可

Upload: others

Post on 03-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: NGSデータのエンリッチメント解析による生物学的 ......Licensed under CC-BY 4.0 ©2018 Takeru Nakazato (DBCLS) 日本科学未来館 平成30 年10 月5 日 トーゴーの日シンポジウム2018

Licensed under CC-BY 4.0 ©2018 Takeru Nakazato (DBCLS)

日本科学未来館平成 30年 10月 5日

トーゴーの日シンポジウム 2018

従来の Gene Ontology (GO) や pathway による生物学的解釈は分子や細胞レベルでの解釈であった。他に臓器や疾患という観点からの生物学的解釈も試みたい。そこで MeSH の用語を用いることとした。

MeSH keywordsCategory

Diseases

Chemicalsand drugs

Anatomy

Diabetes MellitusDiabetes Mellitus, Type 1Diabetes Mellitus, Type 2

Autoimmune DiseasesInsulin Resistance

ObesityInsulin

AdiponectinPancreas

SpleenAdipocytes

1型 2型

10e-1010e-0910e-0810e-0710e-0610e-0510e-0410e-0310e-020.05

0.100.200.300.400.500.751

p-value

MeSH は遺伝子でなく文献に付与されたキーワード集なので、各遺伝子について関連文献を収集し、そこから MeSH の語を抽出することにより Gene-MeSH ペアを作成している。

MeSH によるアノテーションの結果例。本図は同じ手法を OMIM の各疾患に対して行い、1 型 /2 型糖尿病について図示したもの。

NGS データの検索DDBJ Search → ポスター 3発現データ検索 AOE → ポスター 5

遺伝子発現リファレンスRefEx → ポスター 4

NGS 解析というと、リードをどううまくつなぎ、遺伝子として組み上げ、どのくらいの発現量であったか、という点について、バイオインフォマティクスの課題として議論され、多くの手法が提案されてきた。もちろん、その点は非常に重要なのだが、実際のデータを解析するにあたっては、得られた(たとえば発現がある条件で上昇した、というような)遺伝子リストに対し、生物学的な意味づけを行うことが必要不可欠である。これまで、BLAST をかけて遺伝子名を対応づける他、Gene Ontology や Pathway に対応づけての生物学的な意味づけが行われてきた。

得られた MeSH によるアノテーション情報やそこから作成するなどした各種遺伝子リストを用いたエンリッチメント解析を行うためのウェブサービスを構築中である。画像は現在よく使われているエンリッチメント解析のウェブサービスである Metascape の画面。

既存のウェブサービス Gendoo では、個々の関連度を並べるにすぎなかった。これは、遺伝子と MeSH 用語について文献数である/ ないの 2×2 表を作成し、p-value をあらかじめ計算してあったためである。逆につどつど遺伝子リストについて計算するのは非常に時間がかかる。さらに上記の表で遺伝子 / 用語がともにない(右下)の数字が非常に大きくなるのにこのスコアリングでよいか、というのも検討課題である。また、MeSH は階層構造をとっているので、それを反映したスコアリングも行いたい。BLAST

ドメインサーチGene OntologyPathwayゲノム上の位置...

生物学的機能は ?実験条件との関連は ?

文献数

RNA-Seq データ解析のフロー アノテーションからエンリッチメント解析へ新たな切り口での「生物学的解釈」

分子 細胞 組織/臓器 個体

MEDLINE収載の文献をインデキシングするためのキーワード集 (controlled vocabulary)

15分野 (Disease, Chemicals and Drugs, Anatomy, ...)階層構造により語を整理NLM (National Library of Medicine) により管理

http://www.nlm.nih.gov/mesh/

MeSH (Medical Subject Headings)

~23,000語

MeSH terms

参考文献

近年、NGS解析が盛んに行われており、ライフサイエンス統合データベースセンター(DBCLS)でも公共NGSデータ検索サービスDBCLS SRAなどを開発してきた。NGS

解析というと、マッピングや発現定量などが注目されがちだが、得られた遺伝子リストについて生物学的解釈を行うことも必要不可欠である。DBCLSでは、各遺伝子について疾患や化合物の側面から特徴づけを行うGendooシステムを開発してきた(http://gendoo.dbcls.jp/)。各遺伝子について、関連文献に付与されたMeSH terms

を抽出してスコアリングすることにより特徴づけを行っている。従来、生物学的な解釈としてGene Ontologyやパスウェイを用いてのエンリッチメント解析が行われているが、今回、 我々はGendooシステムを拡張し、新たに疾患や化合物の側面からエンリッチメント解析を行えるよう改良を行った。これまでは個々の遺伝子の特徴を並べているにすぎなかったが、本改良により遺伝子リストとしての特徴を示すことが可能となる。

NGSデータのエンリッチメント解析による生物学的解釈

情報・システム研究機構 (ROIS) データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター (DBCLS)

特徴抽出パイプライン

課題:スコアリング

PMID

Gene-MeSHPairs

Gene-PMIDPairs

PMID

Gene ID

Gene ID

PMID

Gene ID

PubMedSearch

Step 3: 各遺伝子に対応する MeSH のついた論文を抽出

Step 1: Entrez Geneの Bibliographyセクションより、 論文の PMID (PubMed ID) を抽出

Scoringp-value

RefSeq ID

MeSH keyword

Step 2: MEDLINE中の文献でGene ID の記載のある論文を抽出

SRA

Mappingde novo assemble

Quality check

Database search

Downloadown data

発現定量

Gendoo: Functional profiling of gene and disease features using MeSH vocabulary

Nakazato T., Bono H., Matsuda H., Takagi T.,

Nucleic Acids Research, 37 (Suppl. 2) (Web Server issue), 2009

doi:10.1093/nar/gkp483

統計処理

遺伝子リスト

生物学的意味は???

Hidemasa Bono

坊農 秀雅仲里 猛留Takeru Nakazato

[email protected]

@chalkless

撮影可

Creative Commons Licence( 表示 ) のもと、再利用可