biohackathonのレポートと -...

1
BioHackathonのレポートと DBCLSサービス開発の進展 片山 俊明 (ライフサイエンス統合データベースセンター) CC-BY © 2015 片山俊明 licensed under Creative Commons Attribution 2.1 Japan (CC表示2.1日本) バイオサイエンスデータベースセンター(NBDC)とライフサイエンス統合データベースセンター(DBCLS)では、データベースの統合に関わる最先端の技術開発を行う国際開発 者会議BioHackathon2008年から開催してきた。第8回目となる今年は、長崎大学原爆後障害医療研究所の協力のもと長崎市内で開催し、生命科学の根幹をなすゲノム情 報と関連するデータベースの統合的な利用を実現するため、セマンティック・ウェブによる最先端のデータベース技術開発を継続して行っている。この統合データベースと個 人ゲノム情報や疾患情報などの解析技術を融合することにより、ゲノム医科学に資するアプリケーションの技術開発を目指している。ここでは、BioHackathonでの開発成果 のサマリと、DBCLSにおける関連サービスの開発状況について進展を報告する。 BioHackathon RDF/LOD 統合化推進プログラムや日化辞データのRDFIdentifiers.orgURIをデータベースエントリのIDとして使う際のクラス定義 EnsemblvariationデータをRDFとみなしてSPARQL検索するための技術開発 EnsemblからPubMedCentralの文献をSPARQLで検索 PDBRDFデータに対するSPARQLの開発 OpenLifeDataによるBio2RDFの更新と検索システムの統合 OpenLifeDataにおけるSADIサービスの統合 Text/data mining HPODisGeNetのアノテーションをPubAnnotationに登録 PubTator, MESH, PhenoCRのアノテーションサービスをAPIレベルで統合 650万文献を対象としたNCBI MeSHHPOを用いたアノテーションコーパスの統合 Knowledge Graphアノテーションサービスの開発 http://biohackathon.org/ BioHackathon 2008 in Tokyo Towards integrated Web service in life science with Open Bio* libraries http://hackathon.dbcls.jp BioHackathon 2009 in Okinawa Integration of Web services in bioinformatics applications http://hackathon2.dbcls.jp BioHackathon 2010 in Tokyo Integration and interpretation of biological knowledge with the Semantic Web technologies http://hackathon3.dbcls.jp BioHackathon 2011 in Kyoto Creation and utilization of Linked Data in life sciences http://2011.biohackathon.org BioHackathon 2012 in Toyama Biomecial applications based on the Semantic Web technologies http://2012.biohackathon.org BioHackathon 2013 in Tokyo Semantic interoperability and standardization of bioinformatics data and Web services http://2013.biohackathon.org BioHackathon 2014 in Tohoku Standardization and utilization of human genome information with Semantic Web technologies http://2014.biohackathon.org The 8th NBDC/DBCLS BioHackathon http://2015.biohackathon.org/ BioHackathonでは分散環境への対応と高い相互運用性をもつ次世代のデータベース統合に適した技術と してセマンティック・ウェブに注目し、2010年ごろから技術開発を進めてきた。当初はRDFで公開されて いるデータベースがほとんど無かったため、まずは既存の主要データのRDF化からはじまり、よりクオリ ティの高いデータ生成を実現するためのオントロジーの整備へと進んできた。先行研究としてのBio2RDF UniProtに引き続き、ここ数年でEBI RDFNCBI PubChemなどのRDF化が進み、国内でもNBDCの統合 化推進プログラムやSPARQLthonなどの活動を通じて利用可能なRDFデータが揃ってきたため、今年はそ れらを活用するためのソフトウェア開発にシフトして、本来のハッカソンらしくなってきたと感じられ た。また、昨年のハッカソンから、ヒトゲノム情報に関連するデータのセマンティック・ウェブでの利活 用もサブテーマとなり、今年の個人ゲノム情報の解析と解釈に必要な技術開発に引き継がれている。 昨今では、ようやくハッカソン(ソフトウェア開発を意味するハックを数日間にわたってマラソンのように続けることを意味す る造語)形式でのミーティングが随分と認知されるようになってきた。BioHackathonはバイオ(ここでは生命医科学や生命情報 学)にフォーカスしたハッカソンで、Open Bioinformatics Foundationと企業スポンサーによりバイオインフォマティクスのソ フトウェア開発者を中心に2002年から3回ほど開催され、2008年からはDBCLSの主催(2011年からはNBDCも共催)によって生 命科学のデータベース統合を目的に継続されている。タイムゾーンの違う国内外の研究者が参集し合宿形式で議論やその場での技 術開発を進めるハッカソンの会議形式は、メールベースであれば数ヶ月かかるような研究開発が数日で進んだり、当初想定してい なかったような新しいコラボレーションが自発的に生まれるなど、イノベーションを生み出す舞台装置としての効率の良さが特徴 で、参加者からも高く評価されている。また、一般的な国際会議への参加では得られないレベルの国際的な人的ネットワークが構 築できるという点でも大変有用な機会となっている。 Genomics Omics Software 環境オントロジーMEOEnvOや配列メタデータのMIxSMSVのオントロジーマッピング オントロジーレポジトリAberOWLにおけるオントロジーの検索とリーズニング UniProtのデータをOWL化することによるセマンティックスの向上を検討 ヒト表現型オントロジーHPOのアプリケーションと医学用語の辞書を用いた日本語化 酵素反応オントロジーのキュレーションとRDFデータの標準化 リファレンスゲノムのグラフによる統合とRDF化のフィージビリティスタディ 共通のオントロジーに基づくオーソログ遺伝子データベースのRDFでの共有 分子系統樹と化石キャリブレーションデータを統合するシステムの開発 ゲノム配列、NGSデータ、発現データなどを活用するシステムの開発 糖鎖データのRDFによるPubChemなど他分野のデータとの統合を進めるための開発 国内のプロテオミクスメタデータ統合のためのオントロジーとRDFモデルの開発 植物二次代謝メタボロームデータのキュレーションとRDFによるパスウェイ構築と可視化 再利用可能なワークフロー構築のための実験プロトコルの標準化 データフローの再利用と再配布を可能にするデータのストリーミングとパッケージ管理 GNU Guixによるソフトウェア依存性を解消するパッケージ管理とデータ配布 Common Workflow Language (CWL)Dockerによるワークフローのデプロイ BioNodeによるデータの非同期ストリーミングでスケーラブルな並列処理 ゲノム変異データのVCFファイルを直接SPARQLで検索するための技術開発 Elasticsearchによるテキスト検索をSPARQLと融合させるための技術開発 トリプルストアのホスティングとRDFデータの格納を容易にするDockerの開発 SPARQLエンドポイントのメタデータ標準化とSPARQL生成を支援するツールの高度化 非定型の文献データから適切な文を検索する自然言語による質問応答ソフトウェアの開発 Ontology 9/13 シンポジウム @ 長崎大学 良順会館 参加者: 78講演: 22ライトニングトーク: 129/14-19 ハッカソン @ 長崎ルークプラザホテル 参加者: 80海外からの招聘者: NBDC 20, ROIS 3海外からの自費参加: 4今年のシンポジウムは事前アンケートで発表を募ったところ例年の倍以上の数の希望があり、各講演時間を切り詰めても朝10から夕方18時まで、ごく短い休憩を挟んだだけの充実したものとなった。ハッカソンは、初日の午前中にウェブ上の共有ドキュメ ントを用いて参加者が取り組みたいテーマを集約し、大まかに6カテゴリに分類してグループ分けを行った。そのあとは、金曜日 午後のラップアップに向けて、朝から夜遅くまで各グループで議論やソフトウェア開発に取り組むとともに、参加者間での親睦を 図った。最終日には初めての試みとして成果の論文化のための会議を開催し、短時間で有意義な取りまとめを行うことができた。 DBCLSサービス開発の進展 関係データベースをRDFSPARQLエンドポイント化するD2RQ Mapperのリリース SPARQL Builderの高度化とDydraによるメタデータ自動生成への対応 国内外のRDFデータの集積とTogoStanzaによる可視化コンポーネント化 ヒト表現型オントロジーの日本語化対応による国際化の推進 リファレンスゲノムグラフのRDF化を提案、日本人ゲノムへの応用を検討

Upload: others

Post on 01-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: BioHackathonのレポートと - biosciencedbc.jpevents.biosciencedbc.jp/images/togo2015/poster09_2015.pdfBioHackathonのレポートと DBCLSサービス開発の進展 片山 俊明

BioHackathonのレポートとDBCLSサービス開発の進展片山 俊明 (ライフサイエンス統合データベースセンター)

CC-BY © 2015 片山俊明 licensed under Creative Commons Attribution 2.1 Japan (CC表示2.1日本)

バイオサイエンスデータベースセンター(NBDC)とライフサイエンス統合データベースセンター(DBCLS)では、データベースの統合に関わる最先端の技術開発を行う国際開発者会議BioHackathonを2008年から開催してきた。第8回目となる今年は、長崎大学原爆後障害医療研究所の協力のもと長崎市内で開催し、生命科学の根幹をなすゲノム情報と関連するデータベースの統合的な利用を実現するため、セマンティック・ウェブによる最先端のデータベース技術開発を継続して行っている。この統合データベースと個人ゲノム情報や疾患情報などの解析技術を融合することにより、ゲノム医科学に資するアプリケーションの技術開発を目指している。ここでは、BioHackathonでの開発成果のサマリと、DBCLSにおける関連サービスの開発状況について進展を報告する。

BioHackathon RDF/LOD

•統合化推進プログラムや日化辞データのRDF化•Identifiers.orgのURIをデータベースエントリのIDとして使う際のクラス定義•EnsemblのvariationデータをRDFとみなしてSPARQL検索するための技術開発•EnsemblからPubMedCentralの文献をSPARQLで検索•PDBのRDFデータに対するSPARQLの開発•OpenLifeDataによるBio2RDFの更新と検索システムの統合•OpenLifeDataにおけるSADIサービスの統合

Text/data mining

•HPOとDisGeNetのアノテーションをPubAnnotationに登録•PubTator, MESH, PhenoCRのアノテーションサービスをAPIレベルで統合•650万文献を対象としたNCBI MeSHとHPOを用いたアノテーションコーパスの統合•Knowledge Graphアノテーションサービスの開発

http://biohackathon.org/

• BioHackathon 2008 in Tokyo

• Towards integrated Web service in life science with Open Bio* libraries• http://hackathon.dbcls.jp

• BioHackathon 2009 in Okinawa• Integration of Web services in bioinformatics applications• http://hackathon2.dbcls.jp

• BioHackathon 2010 in Tokyo• Integration and interpretation of biological knowledge with the Semantic Web technologies• http://hackathon3.dbcls.jp

• BioHackathon 2011 in Kyoto• Creation and utilization of Linked Data in life sciences

• http://2011.biohackathon.org• BioHackathon 2012 in Toyama

• Biomecial applications based on the Semantic Web technologies• http://2012.biohackathon.org

• BioHackathon 2013 in Tokyo• Semantic interoperability and standardization of bioinformatics data and Web services• http://2013.biohackathon.org

• BioHackathon 2014 in Tohoku• Standardization and utilization of human genome information with Semantic Web technologies• http://2014.biohackathon.org

The 8th NBDC/DBCLS BioHackathon http://2015.biohackathon.org/

 BioHackathonでは分散環境への対応と高い相互運用性をもつ次世代のデータベース統合に適した技術としてセマンティック・ウェブに注目し、2010年ごろから技術開発を進めてきた。当初はRDFで公開されているデータベースがほとんど無かったため、まずは既存の主要データのRDF化からはじまり、よりクオリティの高いデータ生成を実現するためのオントロジーの整備へと進んできた。先行研究としてのBio2RDFやUniProtに引き続き、ここ数年でEBI RDFやNCBI PubChemなどのRDF化が進み、国内でもNBDCの統合化推進プログラムやSPARQLthonなどの活動を通じて利用可能なRDFデータが揃ってきたため、今年はそれらを活用するためのソフトウェア開発にシフトして、本来のハッカソンらしくなってきたと感じられた。また、昨年のハッカソンから、ヒトゲノム情報に関連するデータのセマンティック・ウェブでの利活用もサブテーマとなり、今年の個人ゲノム情報の解析と解釈に必要な技術開発に引き継がれている。

 昨今では、ようやくハッカソン(ソフトウェア開発を意味するハックを数日間にわたってマラソンのように続けることを意味する造語)形式でのミーティングが随分と認知されるようになってきた。BioHackathonはバイオ(ここでは生命医科学や生命情報学)にフォーカスしたハッカソンで、Open Bioinformatics Foundationと企業スポンサーによりバイオインフォマティクスのソフトウェア開発者を中心に2002年から3回ほど開催され、2008年からはDBCLSの主催(2011年からはNBDCも共催)によって生命科学のデータベース統合を目的に継続されている。タイムゾーンの違う国内外の研究者が参集し合宿形式で議論やその場での技術開発を進めるハッカソンの会議形式は、メールベースであれば数ヶ月かかるような研究開発が数日で進んだり、当初想定していなかったような新しいコラボレーションが自発的に生まれるなど、イノベーションを生み出す舞台装置としての効率の良さが特徴で、参加者からも高く評価されている。また、一般的な国際会議への参加では得られないレベルの国際的な人的ネットワークが構築できるという点でも大変有用な機会となっている。

Genomics

Omics

Software

•環境オントロジーMEOとEnvOや配列メタデータのMIxSとMSVのオントロジーマッピング•オントロジーレポジトリAberOWLにおけるオントロジーの検索とリーズニング•UniProtのデータをOWL化することによるセマンティックスの向上を検討•ヒト表現型オントロジーHPOのアプリケーションと医学用語の辞書を用いた日本語化•酵素反応オントロジーのキュレーションとRDFデータの標準化

•リファレンスゲノムのグラフによる統合とRDF化のフィージビリティスタディ•共通のオントロジーに基づくオーソログ遺伝子データベースのRDFでの共有•分子系統樹と化石キャリブレーションデータを統合するシステムの開発•ゲノム配列、NGSデータ、発現データなどを活用するシステムの開発

•糖鎖データのRDFによるPubChemなど他分野のデータとの統合を進めるための開発•国内のプロテオミクスメタデータ統合のためのオントロジーとRDFモデルの開発•植物二次代謝メタボロームデータのキュレーションとRDFによるパスウェイ構築と可視化

•再利用可能なワークフロー構築のための実験プロトコルの標準化•データフローの再利用と再配布を可能にするデータのストリーミングとパッケージ管理•GNU Guixによるソフトウェア依存性を解消するパッケージ管理とデータ配布•Common Workflow Language (CWL)とDockerによるワークフローのデプロイ•BioNodeによるデータの非同期ストリーミングでスケーラブルな並列処理

•ゲノム変異データのVCFファイルを直接SPARQLで検索するための技術開発•Elasticsearchによるテキスト検索をSPARQLと融合させるための技術開発•トリプルストアのホスティングとRDFデータの格納を容易にするDockerの開発•SPARQLエンドポイントのメタデータ標準化とSPARQL生成を支援するツールの高度化•非定型の文献データから適切な文を検索する自然言語による質問応答ソフトウェアの開発

Ontology

9/13 シンポジウム @ 長崎大学 良順会館•参加者: 78名•講演: 22件•ライトニングトーク: 12件

9/14-19 ハッカソン @ 長崎ルークプラザホテル•参加者: 80名•海外からの招聘者: NBDC 20名, ROIS 3名•海外からの自費参加: 4名

 今年のシンポジウムは事前アンケートで発表を募ったところ例年の倍以上の数の希望があり、各講演時間を切り詰めても朝10時から夕方18時まで、ごく短い休憩を挟んだだけの充実したものとなった。ハッカソンは、初日の午前中にウェブ上の共有ドキュメントを用いて参加者が取り組みたいテーマを集約し、大まかに6カテゴリに分類してグループ分けを行った。そのあとは、金曜日午後のラップアップに向けて、朝から夜遅くまで各グループで議論やソフトウェア開発に取り組むとともに、参加者間での親睦を図った。最終日には初めての試みとして成果の論文化のための会議を開催し、短時間で有意義な取りまとめを行うことができた。

DBCLSサービス開発の進展•関係データベースをRDF化SPARQLエンドポイント化するD2RQ Mapperのリリース•SPARQL Builderの高度化とDydraによるメタデータ自動生成への対応•国内外のRDFデータの集積とTogoStanzaによる可視化コンポーネント化•ヒト表現型オントロジーの日本語化対応による国際化の推進•リファレンスゲノムグラフのRDF化を提案、日本人ゲノムへの応用を検討