Transcript
Page 1: 研究背景と目的 まとめと課題 - biosciencedbc.jp · 2017-02-09 · Dorland's Medical Dictionary for Health Care Consumers Mosbyʻs Medical Dictionary, 8th editionの2種を選択

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=288

>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

102>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=671

55>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=160

67>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

101>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=365

47>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

100>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=305

05>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

108>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=365

45>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=365

07>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

103>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=167

00>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=239

345>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

082>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

104>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

105>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=34>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=106

38>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

106>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=239

341>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

085>

ailcaf1cnfflgAflgBflgCflgDflgEflgFflgGflgHflgIflgJflgKflgLflgMflgNflhAflhBflhCflhEfliAfliCfliDfliEfliFfliGfliHfliIfliJfliKfliLfliMfliNfliOfliPfliQfliRfliSfliTfliZinvirp1irp2lcrE/yopNlcrGlcrO/yscIlcrQ/yscMlcrRlcrVplapsaApsn/fyuAsycD/lcrHsycNtyeAunnamed genevirF/lcrFvirG/yscWybtAybtEybtPybtQybtSybtTybtUybtXylpB/yscJymtyopByopDyopEyopHyopJ/yopPyopMyopO/ypkAyopR/yscH/lcrPyopTyplAyscAyscByscCyscDyscEyscFyscGyscKyscLyscNyscOyscPyscQyscRyscSyscTyscUyscV/lcrDyscXyscY

疾病関連語句オントロジーを利用したゲノム、メタゲノムデータのRDF 化と利用 山本希1)、岡本忍2)、川島秀一2)、鈴木真也3)、森宙史3)、黒川顕1)、MicrobeDB.jpプロジェクトチーム1)2)3)

 1)東京工業大学地球生命研究所 2)情報・システム研究機構 ライフサイエンス統合データベースセンター   3)東京工業大学大学院生命理工学研究科

 新型シーケンサーの普及により、ヒト疾病に関連する細菌のゲノムやメタゲノム解析が 盛んに行われ、公共のデータベース(DB)に登録されている。これまでに疾病関連語句 オントロジー(PDO)および症状語句オントロジー(CSSO)を構築し、同義語・和訳 の登録や他オントロジーとの対応づけを行った。また公共のDBに登録されている約560 の細菌株ゲノム配列データとのマッピングRDFを作成した。 しかし、登録ゲノムデータが増加している事や、疾病メタデータの記載が種内で統一 されていない事から、検索しても得られるデータが不十分であった。 また、メタゲノムデータ中に疾病を引き起こす病原性関連遺伝子が存在するかどうか、 さらにはその種類や割合を他データと比較する際にリファレンスとなるDBが必要となる。 本研究ではそのためにオントロジーの継続開発、病原性遺伝子DBの作成および PDO-菌株-VFデータのRDF化を行った。

研究背景と目的 まとめと課題

A, オントロジーの開発

B, 疾病関連菌株ゲノムデータのRDF化

PDO(Pathogenic Disease Ontology)ver 0.6 CSSO(Clinical Signs and Symptoms Ontology)ver 0.5 ヒトの細菌・真核微生物の感染症および関連疾病についてのオントロジー  クラス数:358

ヒトが疾病によって示す症状についてのオントロジー クラス数:301

 本研究では約1,500のゲノムデータについてPDOとのマッピングを行い、 検索可能データの拡充を図った。 また、PDOで定義された疾病に関連する25属の細菌について、既存の病原性 関連遺伝子DBを元に、各菌株のもつVFをまとめたDBを作成し、RDF化した。 これにより特定の疾病について、各株の系統や環境などのメタデータと病原性 遺伝子の有無を同時に取得し、株間で比較することが可能となった。 ○これからの課題 PDOとメタゲノムデータの連携 特定の微生物や病原遺伝子の割合を、他のデータと比較

<本研究による拡張> 1. 疾病タームの追加(29ターム) 2. 菌株とのマッピングに必要なobject propertyを追加

v

C, 病原性関連遺伝子(VF)のDB作成、RDF化

①DBの新規取得 2014年公開のGOLD Release v.5を取得 Project statusが”complete” or “complete and published”のBacteriaを抽出 2,902株 ②前DB作成時点で”complete”だった株を追加 計2,918株 ③全菌株の分離源、種としての関連疾病を以下の方法で調査 ・BioprojectIDによる検索(NCBI Bioproject/Nucleotide/BioSample) ・ゲノム解析論文の調査 ・株名によるGoogle検索でヒットした論文の調査 ・菌株保存機関(ATCC/DSMZ)のIDによる検索 ④GOLDに入っていない2014年7月以降のゲノムデータをマニュアルで追加 499株  

これまでにRDF化した疾病関連菌株:591株 △元にした2012年版GOLD DBの記載内容に依存  同じ種でもRDF化された株とされていない株が混在 △RDF構造の不備  菌株そのものが病気を引き起こす原因であるかは不明(日和見菌など) →環境株/他生物株/ヒト由来株による病原性の違いが表現されていない

241菌種、1,076株が何らかの疾病と関連

合計1,575菌株についてRDF化

“disease name”

“host name”

“strain name”

ido:disorder

PDO_ID

NCBI:taxon

BiosampleID

“symptom name” CSSO_ID

ido:host

rdfs:label

rdfs:label

rdfs:label

rdf:Bag

ro:has_symptom

rdf:type

ro:host_of

pdo:hasInfectiousAgent/ pdo:hasRelatedOrganism

rdf:type rdfs:label

宿主

菌種 疾病

ro:has_host

pdo:mayCause/ pdo:isRelatedTo

症状

rdf:type

rdf:_1

skos:subClassOf

pdo:strainType

<PDO-菌株RDF構造>トリプル数:36,931

pdo:pathogenicity ToHumans

“group/serotype name”

pdo:subGroup

skos:broader

NCBI:taxon

rdfs:label “species name”

rdf:type

ido:infectious agent

pdo:sufferFrom PDO_ID

“agent type”

pdo:agentType

skos:broader

“strain type” “Yes/No”

CSSO_ID

rdf:_2

NCBI:taxon

skos:broader

mccv:isolation source description

“isolation source”

NCBI:taxon

mccv:strain

DBの更新およびRDFの修正が必要

病原性因子=微生物が宿主に疾病を起こすために必要な因子       例)毒素、表面付着因子、分泌系 菌株によってVFの有無に違いがある メタゲノムデータ中に病原性関連遺伝子が存在するかどうか→リファレンスとなるDBが必要

①DBの取得 Virulence factors of Pathogenic Bacteria (VFDB, http://www.mgc.ac.cn/VFs/) から種ごとにVFをまとめたリストを取得 DB化した細菌種(25種) ②VFを抽出する菌株の選択 RDF化に使用した菌株リストから各種の菌株を選択し、Refseqよりアミノ酸配列を取得 1,168株 全アミノ酸について種ごとにAll to AllのBLASTP解析 BLASTP結果を加工(coverage > 95%、identity > 80%の結果のみ以下の解析に使用) ③VFの抽出 OrthoMCLを用い、アミノ酸のortholog groupを作成 VFDB中に含まれるアミノ酸と同じortholog groupに属するアミノ酸を菌株VFとして抽出  

<本研究による拡張> 1.  PDOターム追加に伴う症状語句の追加 2.  他オントロジーとのマッピングの修正

Bacillus Bartonella Bordetella Brucella Burkholderia

Campyrobacter Chlamydia Clostridium Corynebacterium Enterococcus

Escherichia Haemophilus Helicbacter Legionella Listeria

Mycobacterium Mycoplasma Neisseria Pseudomonas Salmonella

Shigella Staphylococcus Streptococcus Vibrio Yersinia

<VF-菌株RDF構造>

VFのDB作成、RDF化

mccv:strain

“VF name” NCBI:protein

NCBI:protein

NCBI:protein “VF name”

“VF name”

Y. pestis菌株リスト

VFリスト

<VF-菌株RDFを用いたSPARQL検索> 例:Bubonic plague(腺ペスト) を引き起こす種のVFリストを取得 PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX pdo: <http://purl.jp/bio/11/pdo/> PREFIX skos: <http://www.w3.org/2004/02/skos/core#> SELECT DISTINCT ?proteinName ?project ?protein WHERE { ?sp pdo:mayCause pdo:PDO_000107 . ?ID skos:broader ?sp . {?strain pdo:hasSampleID ?ID.} UNION {?strain pdo:hasTaxonID ?ID.} ?strain pdo:hasProjectID ?project . ?strain rdfs:label ?strainName . ?strain pdo:hasVirulenceFactor ?protein . ?protein rdfs:label ?proteinName . }

上記菌株RDFと結合

heatmap化

<疾病-症状マッピングの修正、追加> 以下のデータベース・辞書でタームを検索   medical dictionary (http://medical-dictionary.thefreedictionary.com/) Dorland's Medical Dictionary for Health Care Consumers   Mosby‘s Medical Dictionary, 8th editionの2種を選択   Google scholar検索(case数が多い論文等)   The Gale Encyclopedia of Medicine   Merck manual Home health handbook

PDO160タームについてマッピング 主な病変部位による

階層構造

“symptom name”

rdfs:label

skos:broader

pdo:hasSampleID pdo:hasProjectID

BioprojectID

pdo:hasTaxonID

pdo:hasProjectID

主な症状発生部位による階層構造

例)メタゲノムデータにおける壊死性大腸炎の   原因菌が分類される属の割合

菌株

pdo:hasVirulenceFactor

rdf:type

BiosampleID NCBI:taxon

pdo:hasSampleID pdo:hasProjectID

BioprojectID

pdo:hasTaxonID

○類似部位で起こる疾病をまとめて検索できる ○類義語、同義語にも対応 ○症状タームから関連する疾病タームを検索可能

○株ごとの情報(感染性、毒性の有無)も記載 ○疾病・症状、系統、株の特徴からゲノムデータを検索可能

○VFに注目した菌株の比較が可能(株情報、分離源による区別も可能) ○メタゲノムデータ中のVFを抽出するためのリファレンスDBとして使用可能

Licensed under a Creative Commons表示2.1日本 license (c)2015 山本希(東京工業大学)

Top Related