microbedb.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis campylobacterinfection...

21
MicrobeDB.jp version 3の活用法 December 3, 2019 42本分⼦⽣物学会年会 「生命科学のデータベース活用法2019森宙史 Hiroshi Mori 国立遺伝学研究所 情報研究系

Upload: others

Post on 05-Apr-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

MicrobeDB.jp version3の活用法

December3,2019第42回⽇本分⼦⽣物学会年会

「生命科学のデータベース活用法2019」

森宙史

HiroshiMori国立遺伝学研究所

情報研究系

Page 2: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

http://microbedb.jp/

2011年から公開している原核生物を主とした微生物の統合データベース (DB)

Page 3: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

MicrobeDB.jp v.3 project membersNational Institute of Genetics: (Genome, Metagenome, Ontology)

Ken Kurokawa, Yasukazu Nakamura, Hiroshi Mori, Takatomo Fujisawa, Eli Kaminuma (TMDU), Koichi Higashi

National Institute of Basic Biology: (Ortholog)Ikuo Uchiyama, Hirokazu Chiba (DBCLS), Hiroyo Nishide

Tokyo Institute of Technology: (Metagenome)Takuji Yamada, Zenichi Nakagawa

Chiba University: (Fungal & Bacterial culture collection info.)Hiroki Takahashi, Takashi Yaguchi

Technical adviser:DBCLS (especially Shuichi Kawashima, Toshiaki Katayama)

Funding

Page 4: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

• 遺伝子と系統のリンク• その系統はどのような遺伝子機能が特徴的か?

• 遺伝子と表現型のリンク• ある表現型を担う遺伝子の候補は?

• 遺伝子と環境のリンク• その環境で生息するために必要な遺伝子機能は?

• 系統と環境のリンク• その環境で多い系統は?

既存のデータにこれらのリンクを付与し、リンクから微生物に関する新たな知見を得られるDBを目指す

微生物統合DB MicrobeDB.jpの基本的な開発方針

Page 5: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

integrateslotsofdatarelatedtomicrobes.Especially,weintegratesthemicrobialdatathatcanbelinkedtogenomes. since2011

Ortholog:MBGD

Genome:RefSeq

CultureCollection:NBRC/JCM

Metadata:INSDCDRA

Metagenome:INSDCDRA

Taxonomy:NCBITaxonomy

http://microbedb.jp/

Gene Taxon Environment

Redcolor indicatesourcollaborators.Togopicture gallerybyDBCLS is licensedunder aCreative Commons Attribution 2.1Japan license(c)

中身は基本的にRDFデータ

Page 6: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

0

200,000

400,000

600,000

800,000

1,000,000

1,200,000

1,400,000

1,600,000

1,800,000

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019

INSDCDRA/ERA/SRAで公開されたマイクロバイオームサンプル数(積算・2019年9月時点)

(現在は180万)

Page 7: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

Metagenome/MicrobesEnvironmentalOntology(MEO)Ver.0.9.2

Thing

Component Environment State Position

atmosphere geosphere hydrosphere human activity association

organism association

soilwater

:

acidicartificial

:

・air:

•forest•plain:

・sea•lake:

・rumen•rhizosphere

・bioreactor•natto

:意味・概念をDB内で統一してオントロジーとして語彙を定義

2401Classes

Page 8: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

HumanMicrobiomeAssociatedDiseaseOntology (HMADO)

HumanMicrobiomeAssociatedDisease

Digestivesystemdisease

Cardiovascularsystemdisease

Nervoussystemdisease

Integumentarysystemdisease 13classes

Intestinal diseaseStomachdiseasePancreasdiseaseLiverdiseaseMouthdisease

HeartdiseaseBloodvesselsdisease

BraindiseaseMentaldisorder

Skindisease23classes

aggressiveperiodontitisCampylobacter infectionCeliacdiseasecholeraChronicgastroduodenitiscirrhosis

AtherosclerosisBacillaryangiomatosisBacteremiainfectiveendocarditismyocardialinfarction

Alzheimer'sdiseaseEncephalitisMeningoencephalitismultiplesclerosismyastheniagravisParkinson'sdisease

acneatopicdermatitisBuruliulcerDermatitiseczema

268classes

感染症なのか否かなど、微生物群集が関係するヒトの病気の分類

Page 9: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

Data category NumberofentryGenomemetadata(from RefSeq) 290,208genomesCulturecollectionstraindatafromJCM/NBRC(RDF-Portal) 38,414strains

Microbiomemetadata(fromINSDCDRA) 1,631,611samples

Microbiometaxonomiccompositiondata 96,766samplesMicrobiomefunctionalcompositiondata 4,784samples

MicrobeDB.jp version 3 data

Ver.2(2014)と比べてゲノムは約20倍、メタゲノムは約10倍の数に

Page 10: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

BWA-MEM

Meta16S/Metagenome

discriminationbyPARTIE

MeGAP3 (MicrobeDB.jp ver.3のパイプライン)

MetaProdigal

ccKEGG

Page 11: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

サンプル数

マイクロバイオーム 約 1,600,000ヒト 約 420,000マウス 約 95,000土壌 約 240,000水環境 約 200,000人工環境 約 140,000植物共生 約 120,000

INSDCDRA/ERA/SRAで公開されたマイクロバイオームサンプル数(2019年9月時点)

Page 12: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

INSDCDRA/ERA/SRAで公開された疾患患者のマイクロバイオームサンプル数(2019年9月時点)

サンプル数が1000以上ある疾患が右表の18疾患(肥満と未熟児を除く)

大多数が16SrRNA遺伝子のアンプリコン解析

疾患名 (HMADO) サンプルサイズ

IBD 37,094皮膚炎 13,219にきび 7,488喘息 6,178乾癬 5,151大腸炎 4,453嚢胞性線維症 4,040アレルギー 3,902下痢 2,684大腸がん 2,085細菌性膣炎 2,030

アテローム性動脈硬化 1,968赤痢 1,918パーキンソン病 1,760腺がん 1,742統合失調症 1,712歯周炎 1,555虫歯 1,370

Page 13: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary
Page 14: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary
Page 15: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary
Page 16: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

ここからversion3の新機能(12月中に切り替わります)

Page 17: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

MEO:soil由来マイクロバイオームサンプルの絞り込み検索

Page 18: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

HMADO:cancer由来マイクロバイオームサンプルの絞り込み検索

Page 19: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

Japanese由来マイクロバイオームサンプルの絞り込み検索

Ethnicity:Japanese

Page 20: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

MicrobeDB.jp ver.3の特徴

•かなりマイクロバイオームに特化した統合DB•環境や病気のオントロジーはメタデータから自動的にアノテーション

• 160万サンプル以上のマイクロバイオームデータをメタデータ等で検索可能

• MeGAP3による計算が終わったサンプルから、数ヶ月に一度、MicrobeDB.jpで検索できるように•現在主にセキュリティ面等をテスト中であり、12月中にはhttp://microbedb.jp/から公開

Page 21: MicrobeDB.jpversion 3の活用法 · 2020-01-08 · aggressive periodontitis Campylobacterinfection Celiac disease cholera Chronic gastroduodenitis cirrhosis Atherosclerosis Bacillary

fastqfiles

VITCOMIC2(http://vitcomic.org/)

clusterfiles

(taxonomiccompositions)

LEA(http://leamicrobe.jp/)

~ 6 min. /a sample(100,000 sequences)

~ 0.5 sec. /a sample

HowtomapyourmetagenomedataonLEA