[2016-06-06]...

14
1L4-OS-09a-6 CrowdR&D: クラウド協働評価のための 参加型R&Dプロジェクト情報統合基盤 神沼英里 1 , 望月芳樹 2 , 藤澤貴智 1 , 馬場雪乃 4 ,藤山秋佐夫 1,3 ,鹿島久嗣 4 ,中村保一 1 1 国立遺伝学研究所 生命情報研究センター 2 理化学研究所統合生命医科学研究センター 3 国立情報学研究所情報学プリンシパル研究系 4 京都大学情報学研究科 30th JSAI Meeting Date:2016/6/6 16:55-17:10 PlaceL会場(AIM3F 314会議室)

Upload: eli-kaminuma

Post on 15-Apr-2017

115 views

Category:

Technology


0 download

TRANSCRIPT

1L4-OS-09a-6 CrowdR&D: クラウド協働評価のための

参加型R&Dプロジェクト情報統合基盤

神沼英里1,望月芳樹2, 藤澤貴智1, 馬場雪乃4,藤山秋佐夫1,3,鹿島久嗣4,中村保一1

1 国立遺伝学研究所 生命情報研究センター2 理化学研究所統合生命医科学研究センター3 国立情報学研究所情報学プリンシパル研究系

4 京都大学情報学研究科

30th JSAI MeetingDate:2016/6/6 16:55-17:10Place: L会場(AIM3F 314会議室)

(Kaminuma et al., NAR 2010)

1. NGS Annotation Pipeline

Crowdsourcing

2. DNA Polymorphism Annotation Database

4. Citrus SNP Genotyping Array Design

for GWAS

6. CrowdScience Infrastructure

3. SNP-Trait Heritability Curation Database

(Mochizuki et al., submitted)

(Shimizu et al., submitted)(Kaminuma et al., NAR 2013)

OpenDataOpenData

OpenData

Curation

Curation

OpenData

Crowdsourcing

5. Urban Subway DNA Monitoring Project

Curation

http://p.ddbj.nig.ac.jp/ http://tga.nig.ac.jp/dnapod/

http://tga.nig.ac.jp/h2db/A Portal Website for Participatory Science

http://tga.nig.ac.jp/pathomapj/

研究背景:生命情報データの自動注釈とクラウドソーシング

■技術革新前のゲノム解読処理フロー

高速DNAシークエンサの配列解読

研究者による編集キュレーション(Jamboree / Online community curation)

論文公開データ公開

配列構造や遺伝子機能の自動注釈

論文公開

データ公開

Wikiによるキュレーションが提案されている(Salzberg, 2013)

現在■現在処理フローと

BigData Curation対策案

DDBJ Pipeline(神沼 et al, 2010)

TogoAnnotation(藤澤, 中村et al., 2014)

大量のDNA配列

自動注釈ツール

キュレーション作業

専門ワーカ 非専門家クラウドワーカ

タスク分配(精度、コスト)

訓練データとして利用可

<提案>クラウドソーシングで注釈情報をキュレーション

問題:大規模データ自動注釈処理後の手作業修正

クラウドソーシングで専門家不足を解決

外部連携:

各クラウドソーシングサイトとAPI接続

研究用データ(未解決)

高精度自動注釈モデル

キュレーション構造化データ

クラウドワーカ(※キュレータ比較含)

の手作業処理

モデル構築+訓練データ適用③

個別タスクを統合処理+ワークフロー化

データ収集②

キュレーションIF構築①

適用評価④

事例①文献データから遺伝率情報収集

事例②DNA試料採取と環境微生物モニタリング

事例③遺伝子発現領域の同定

reproductive quality

(PATO:0001434)

CrowdR&D: クラウド協働基盤の提案

[データ収集→注釈 → 機械学習モデル精度向上へ]

[1] タスクのカタログ化 [3]クラウド参加実績評価機能

[2] データ評価分析 専門家クラウド

Collaboration協働

CrowdR&Dの主要機能

非専門家クラウド

個別タスクへ誘導

データ構造化、プロトコル標準化、ワークフロー化(機械学習モデルの精度向上へ)

http://crowdrnd.jp/

①-1 カタログ機能:参加型R&D タスクを統合

Task Metadata(Semantic Web representation)

http://crowdrnd.jp/

①-2 カタログ掲載タスクに識別番号

プロジェクト

タスク タスク タスク

■カタログ項目に識別番号

■ 1プロジェクトが複数タスクを構成

カタログ項目 識別番号 説明 割当数(2016/5/31時点)

TASK CRT000001~ 作業タスク名 25

PROJECT CRP000001~ プロジェクト名 22

SUPPORT PLATFORM CRS000001~ 作業実行基盤 7

プラットフォーム

TASK PROJECT

②-1 投稿データ評価分析機能

投稿データ評価分析機能付きワークフローの構成要素

手作業データ収集↓機械学習用データセット構造化↓モデル精度向上(機械学習モデリング)↓人手処理と機械処理の役割分担最適化

(1) タスク投稿数とタスク目標進捗率(2) タスク投稿数の予測(3) 参加貢献格差の定量分析

②-2タスク投稿数予測

Task ID Submission

Duration

MAPE

光合成細菌PCC6803 遺伝子機能注釈

A1 1149 58 0.056

H2DB 遺伝率注釈

A2 913 120 0.061

テキスト分類問題その2

M1 191 38 0.310

オンラインマーケットでの購買予測

M2 187 33 0.065

周辺地点の気象情報からの気温予測

M3 481 43 0.120

Normalized Duration

Normalized Duration

33%

ワークフロー構成要素 : (1) 手作業データ収集→ (2)データ構造化→ (3)モデル精度高度化 → (4) 人手処理と機械処理の最適化

MAPE: Mean Absolute Percent ErrorID (A= Data Annotation, M= Data Modeling)

最終日タスク投稿数予測 : Support Vector Regression (SVR) model利用

②-3 参加貢献格差の定量分析

A1

M1

M2

M3

■Gini係数による参加貢献格差• OSS(Open-Source Software) 0.75 [Singh 07]• Zooniverse annotation projects 0.77~0.91[Sauermanna 15]• Wikipedia 0.92 [Ortega 08]• OpenStreetMap 0.95 [Yang 15]

■実験タスクのGini係数 ■クラウド毎の貢献率 ■タスク別グラフ

A1

M1

M2

M3

③ クラウド参加実績評価機能

参加実績を定量表示

参加者は、CrowdR&D上で提携サイトの実績評価を統合して管理できる

研究倫理 IRB承認について

■クラウド個人情報を扱う場合には、IRB(Institutional Review Board)による研究倫理承認が必要

■研究倫理審査の要件に、クラウドの研究同意書(Informed Consent:IC)取得がある。

IC項目の事例

1) 研究目的・協力方法・実施体制・研究期間について2) 本研究が国立遺伝学所の倫理審査委員会で承認された上、開始されること3) 本研究成果の公表について4) 利益・不利益について5) 本研究のデータの個人情報保護および匿名化について6) 本研究のデータの保管と廃棄について

Future Work: データ連携機能:構造化と収集・注釈・モデリングまで

進行状態の表示

①タスク実行でデータ収集

②蓄積データで既存モデルの精度向上

③データ解析コンペでモデリング新規モデルで精度向上へ

構造化

データ収集からモデル精度向上までワークフロー化

データ評価・標準化

謝辞

DDBJ Pipeline

・Takako Mochizuki (NIG)・Yasuhiro Tanizawa (NIG)・Hideki Nagasaki (Kazusa Institute )・Takatomo Fujisawa (NIG)・Kimiko Saka (NIG)・Naoko Sakamoto (NIG)・Chiharu Kawagoe (NIG)・Naofumi Ishikawa (NIG)・Toshihisa Takagi (NIG)

TogoAnnotation

・CyanoBase Curators (Kazusa Institute)・Ken Kurokawa (NIG) ・Hiroshi Mori (TiTech)

DDBJ pipeline and Crowdsourcing studies are partially supported by ROIS Transdisciplinary Research Grant, Japan MEXT “Genome

Science” Grant, and Grants-in-Aid for Scientific Research (Basic Research C) and CREST Survey Research Grant ‘Advanced Core

Technologies for Big Data Integration’.

CrowdR&D

<カタログデータ>・Atsuyuki Morishima (Tsukuba Univ)・Osamu Matsuda (Kyushu Univ)・ Utsugi Jinbo (Nationa lMuseum)

<倫理審査>・Kousaku Okubo (NIG)・Isao Katsura (NIG)・Naruya Saito (NIG)・NIG Ethical IRB committee・Shinichi Sato (NII)・NII Ethical IRB committee

<協力>・ Osamu Ohara (RIKEN)