データベース統合の実現に向けて－基盤技術開発 (Ⅱ)the genia event and protein...

シンポジウム 2013〜ここまできたライフサイエンスデータベースの統合〜

度を高めたウェブインターフェイスDBCLS SRAを開発し、ユーザが必要とするデータに到達できるようにした。また、大規模配列DBを高速に検索する統合遺伝子検索GGRNA, GGGenomeや遺伝子発現のリファレンスデータセットを表示提供するRefEx（Reference Expression dataset）の開発も行った。RefExでは、ヒト発現データに関して我々のセンターで開発された、高解像度な人体3DモデルであるBodyParts3Dを用い、臓器ごとの発現パターンが可視化されている。　また、権利関係が明確で再利用性と品質の高い日本語コンテンツの提供も行っている。教育コンテンツとして好評の動画サイト統合TVをはじめ、最先端の専門分野の話題（新着論文レビュー）と専門分野をまたいだ横断的な総説（領域融合レビュー）は、科学分野での電子出版の先駆的な試みでもある。これらの活動に加え、NBDCの協力のもと、全国で講習会を行いユーザと綿密に連携することで、現場での問題やニーズの掘り起こし、基盤技術開発へのフィードバックを行った。　RDFの設計やオントロジーの開発、RDFを効率よく運用するためのデータストアの選択は、データベース統合の基盤

1．背景　生命科学分野のデータを統合し効率的に利用できるインフラの整備は、生物・医学研究において重要なだけでなく、急速に進む高齢化社会における医療や食品安全性、エネルギー源多様化、環境保全などの問題を解決するための鍵を握っている。　近年、生命科学分野の情報を取り巻く状況は刻々と変化し、次世代シーケンサー（NGS）などの技術革新により生産される大規模で多様なデータの意味を考慮して統合し続けるインフラが必要とされている。世界でも大量の生命科学情報を統合するための様々な試みがなされている。欧州では、持続可能な生物学情報基盤の運用を図るイニシアチブとしてELIXIRが立ちあがり、遺伝子、タンパク質、代謝系を始めとする生命の構成要素情報の統合を目指している。

2．研究開発の成果　基盤技術開発プログラムでは、急増する生命科学分野のデータおよび情報を統合し、新たな知識発見を可能にするため、セマンティックWeb技術による「フェデレーション（連携）型」のデータベース統合を技術的な基盤として提案した。具体的には、1) 大規模実験データの抱える諸問題とニーズの明確化、2) データベース統合のための基盤技術開発、3) データの解釈を支援するテキストマイニング技術開発という三つの観点から、生命科学・医学研究や産業界への技術転移の支援になり持続可能な情報インフラ技術を提供する（図）。　NGSなどの大規模実験データの統合運用の際に生じる問題として、データサンプルや実験条件のメタデータの記述や整備が不十分なため、貴重な測定データが利用しにくい状況があることが明らかになった。このような大規模実験データの再利用促進のために、メタデータを整理したうえで、配列データのクオリティー値を利用し、検索結果の絞り込みの精

岡本忍情報・システム研究機構ライフサイエンス統合データベースセンター

データベース統合の実現に向けて－基盤技術開発 (Ⅱ)課題名「データベース統合に関わる基盤技術開発」（研究代表者小原雄治）基盤技術開発プログラム

図

22

技術の根幹をなす。プロジェクト開始当初、セマンティックWeb技術をライフサイエンス分野に応用することが先進的であったため、国内外に十分な情報がなく独自に調査やベンチマーク、プロトタイプ開発を行った。その過程で明らかになった課題を克服しながら、ゲノムとプロテオミクスを軸としたRDF統合環境の開発を行った。試行錯誤の結果得られた実運用のノウハウを蓄積し、セマンティックWeb技術による国内のライフサイエンスDB統合に、技術的な先鞭をつけることができた。　特に生物種ごとのゲノム配列は、その上にオミクスデータや文献など大量かつ多様な情報を体系的に統合するための基本的な情報基盤として機能する。そこで、ゲノム配列上に関連するDB、データ、サービスを統合し、再利用可能な可視化システムとしてTogoStanzaというサーバを開発した。さらに、統合データに対して絞り込み検索、配列検索などを可能にした統合検索システムとしてTogoGenomeを開発した（詳細はp.6の発表 Iを参照）。また、表形式のデータに既存のDBの情報を連結して参照することができるTogoTableも開発した。　本プロジェクトでは、データキュレーション作業や論文管理・作成を支援するために、テキストマイニング技術を利用したツールの開発にも力をいれてきた。　自然言語で記述された科学論文中から、必要な情報を抽出し構造化するキュレーション作業では、論文構造自体の標準化も解決が必要な課題である。出版社ごと、分野ごとに異なる論文の構造や書式を吸収し、あたかもモデル生物のゲノム配列のように、論文の文字列の番地上に関連情報を統合してゆくことができるPubAnnotationを開発した。このシステ

ムは、文献中の語彙に既存のオントロジーを自動的にマッピングする機能や語彙の関係を記述できるエディタを統合した文献キュレーション統合環境を提供することにより、作業の自動化と効率化を可能にしている。　また、年々増え続ける専門分野の論文を管理し、論文中に引用されている専門用語や略語を読みこなすコストを軽減するための支援ツールも提供している。TogoDoc, TogoDoc Clientは、自分のPCの中で煩雑になりがちな専門論文をクラウド上で管理し、キーワードから関連論文の推薦をする。　また、Alie、OReFiL、inMeXesは、論文中に引用されている略語やURLを解決し、科学論文の慣用句を高速に提案し、論文執筆の支援を行うシステムである。これらのシステムは、日々更新される科学技術用語を更新、収集しており、その一部はRDF化されデータベース統合のための語彙として利用可能なリソースを提供している。

3．今後の展望、その他　近年、生命科学分野だけでなく、政府機関が保有するデータを公開し、民間のさまざまな分野で活用するオープンデータの動きが世界的に注目されている。この動きは、本プログラムで提案し取り組んで来たセマンティックWeb技術による連携型データベース統合と重なり、この分野の技術的問題の解決に世界中で多くの資源が投入されている点で追い風であると考える。　今回のプログラムを通して得られた経験をもとに、データベース統合のためのデータと基盤技術とキュレーションを支えるインフラ技術を提供することができる。

関連論文発表実績

[1] Y. Naito and H.Bono GGRNA: an ultrafast, transcript-oriented search engine for genes and transcripts. Nucleic Acids Res. 2012 Jul;40(Web Server issue):W592-6. Epub 2012 May 28. PubMed PMID: 22641850; PubMed Central PMCID: PMC3394333 (DOI: 10.1093/nar/gks448)[2] JD.Kim et al. The Genia Event and Protein Coreference tasks of the BioNLP Shared Task 2011. BMC Bioinformatics.2012 Jun 26;13 Suppl 11:S1. PubMed PMID:22759455; PubMed Central PMCID: PMC3384256 (DOI: 10.1186/1471-2105-13-S11-S1)[3] S. Kawano et al. Tutorial videos of bioinformatics resources: online distribution trial in Japan named TogoTV. Brief Bioinform. 2012 Mar;13(2):258-68. Epub 2011 Jul 29. PubMed PMID:21803786; PubMed Central PMCID: PMC3294242 (DOI: 10.1093/bib/bbr039)

23

データベース統合の実現に向けて－基盤技術開発 (Ⅱ)the genia event and protein...

Documents