large-scale data in life science

LARGE SCALEDATA IN

LIFE SCIENCEライフサイエンス分野の大規模データ　現場での課題とこれから

おことわり

��

確かにそうなのですが

今日はリレーショナル・データベースの話は一切出てきません

NoSQLの話も出ません

Update( new_suffix ){ current_suffix = active_point test_char = last_char in new_suffix done = false; while ( !done ) { if current_suffix ends at an explicit node { if the node has no descendant edge starting with test_char create new leaf edge starting at the explicit node else done = true; } else { if the implicit node's next char isn't test_char { split the edge at the implicit node create new leaf edge starting at the split in the edge } else done = true; } if current_suffix is the empty string done = true; else current_suffix = next_smaller_suffix( current_suffix ) } active_point = current_suffix}アルゴリズムの話や擬似コードも出ません

理由は追って説明致しますので

画面の前の皆さんも落ち着いて下さい

photo by http://www.photoxpress.com/stock-photos/1814937

どうか平にご容赦を

photo by @meguu

始めます

Large-scale data in Life Science

Contents

fontin sans fonts by Jos Buivenga (exljbris). Thank You! -> www.exljbris.com

LARGE SCALE DATA

IN LIFE SCIENCE

NOW IS THENEXT-GENERATION

DBCLSについて　生命科学分野でのデータベースとは

LARGE SCALE DATA

IN LIFE SCIENCE

NOW IS THENEXT-GENERATION

生命科学分野での大きなデータ　例と特徴

「次世代」データとその問題アーカイブと解析

対「次世代」　現状と課題

DBCLS:DATABASE CENTER

FOR LIFE SCIENCE

大学共同利用機関法人　情報・システム研究機構ライフサイエンス統合データベースセンター / DBCLS国立遺伝学研究所，国立情報学研究所，統計数理研究所等と同じ機構に所属現所在地：東京大学浅野キャンパス内　(組織運営では同大学とは無関係)常勤職員20名強，リサーチアシスタント20名強

文部科学省委託研究開発事業統合データベースプロジェクト (H18~22)JSTライフサイエンスデータベース統合推進事業基盤技術開発プログラム (H23~25)

国内における自然科学分野データベース統合の中核機関http://dbcls.rois.ac.jp/

大田　達郎 Tazro Inutano Ohta @iNut

特任専門技術員 / Technical Specialist

基盤技術開発プログラム：大規模データの利用技術開発に従事

データベースとは

生命科学系のデータベースとは

1. 研究成果が公開される場としてのDB　研究室，共同研究から国際コンソーシアムまで規模はさまざま

2. 公共の汎用研究リソースとしてのDB　ゲノムや遺伝子から論文情報まで

問題点 :

組織，プロジェクトが独自に構築されたDBが乱立する

プロジェクト(グラント)が終了すると維持されず放置される

→　それらを整備・統合し再利用性を高めるのがDBCLSの役割

生命科学系のデータベースとは

Large-scale data in Life Science生命科学分野の大規模データ

定義

生命科学系の大規模データとは (例)

文献情報　2100万の論文要旨と230万の論文の全文情報 in PubMed

集団疫学のデータ　数百から数千の個人からなる集団について時系列で複数のデータが得られる

大規模塩基配列データ　新型のDNAシーケンサーによって高速・大量に生み出される塩基配列データ

定義

分野共通の定義はない #ittamongachi

従来と比較してデータサイズが非常に大きい，データ量が多い

リアルタイム性は(他分野と比べて，今のところ)低い

生命科学系の大規模データとは (例)

特徴

メタデータの重要性　データについての情報を記述したメタデータがデータの解析に必須

アルゴリズム・ツールの実装者と実行者の関係　情報系研究者がツールを実装し，生物系研究者がそのツールで解析

一般的な生命科学系のデータの特徴

→　これらはそのまま大規模データにも当てはまる

メタデータの重要性　データの解析にはそのデータを出した実験の情報が必須　細かい場合分けが必要なことが多く，メタデータは管理もコストが高い


ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAT

or or

or or

?

?

photo by Togopic, Licensed under CreativeCommons 2.1 JP Attribution

メタデータの重要性　データの再現性のためにはメタデータの維持管理が重要　大規模データのDBにおいて大きな問題の１つとなっている


ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAT

Data ID : 000001

organism : mouse

cell : nervous cell

sequencer : 454

date : 2011 12 08

photo by Togopic, Licensed under CreativeCommons 2.1 JP Attribution

アルゴリズム・ツールの実装者と実行者の関係　実行者がコアとなるプログラムを書いて実行するケースは少ない

　情報系生物学研究者 : dry　実験系生物学研究者 : wet　　一部のdry研究者が実装・公開したプログラムを，　　wet研究者ないしdryな共同研究者が実行するのが一般的


アルゴリズム・ツールの実装者と実行者の関係，問題点　実行環境に合わないツールが利用出来ない

　エラーが起きた時に対応が難しい

　→　必然的にGUIソフトウェア，webインターフェースツール，　　　クラウド実行環境などの需要が高い


具体例

Next-generation sequencing data次世代塩基配列データ

次世代DNAシーケンサとはDNAシーケンサ : 遺伝物質であるDNAの塩基配列を決定する装置　核酸4種類，ATGCの四文字で表せる(1塩基1バイト)

次世代DNAシーケンサ (NGS) = 超並列型　従来は一度に70KB程度，新型では0.5GB～1TBのアウトプット

断片化された大量の短い塩基配列(short read)　そのままでは使えないので元の塩基配列を復元する必要がある

医学・生物学に大きな影響と進歩をもたらしている　10年かかったヒトゲノムも数日で完了，個人ゲノムの時代

個人ゲノムの時代 : 23andme.com

個人ゲノムの時代 : exome, 全ての遺伝子*のプロファイリング

*正確にはゲノムDNA上で転写される領域のうち機能する部分，exonの全探索grazie per le informazioni @ma_ko

データ

ＮＧＳデータ

画像データ (変換後削除)　30 TBシグナル強度　2～10 TB塩基配列データ(quality value含む)　中間ファイル～1.5 TB程度　結果ファイル～1.5 TB程度解析結果　中間ファイル～45 TB程度　結果ファイル～5 TB程度

*illumina社 HiSeq 2000の場合

重い

データの大きさによる問題受託シーケンスの場合など転送の問題がある　生のデータはネットワークで送るよりもHDDを宅急便で送った方が速い

バックアップの余裕がない　公共のデータベースへのsubmitをバックアップ代わりに？

そもそも普通のwet研究室にそんなにストレージはない　「秋葉原にHDD買いに行ってきます」「また？」

某表計算ソフトウェアにデータが載らない　「結果をE<censored>で下さい」「え？」「え？」「いやだからヱ

https://twitter.com/#!/dritoshi/status/121817788200390656

HDD長者ぞくぞく誕生

データの解析

塩基配列の復元

de novo assemble

short read from NGS

referencegenome

reference alignment

2つのアプローチ

de novo assemble

reference alignment


de novo assembly短い配列同士の重なりあう部分を元に繋ぎ合わせることで復元(但し，短い配列のみによる完全なassembleは現状困難)

de novo assemble

short read from NGS

referencegenome

reference alignment

課題 : 現在公開されているツールはメモリ要求性が非常に高い

リードの長さ，ゲノムサイズに比例して要求メモリが増える

256GBメモリくらいでは全然足りない(!)

Velvethttp://www.ebi.ac.uk/~zerbino/velvet/

SOAPdenovohttp://soap.genomics.org.cn/soapdenovo.html

sequence assembly in wikipediahttp://en.wikipedia.org/wiki/Sequence_assembly

de novo assemble tool


reference alignment既に解読されたゲノム配列を参照配列として，相同性を元に復元

ヒトの場合は3GBのゲノムに100bp程度の短い配列を数億本当てる

課題 :計算量が多い参照配列を利用するため，一定のメモリ確保が必要

de novo assemble

short read from NGS

referencegenome

reference alignment

Chr1 Chr2 Chr3

CPU1 CPU2 CPU3

対策 : マルチコアのマシンで分散処理参照配列を染色体ごとに分割し，それぞれをCPUに割り当てる

課題 :NGSでは類似の短い塩基配列が大量に出る為，誤った領域にアラインメントされる

シーケンサの性能向上でリード長は長くなり，また長い塩基配列の両端を読むなどの工夫によって解決

実際にどう対処しているか

Troubles not yet shooted最前線現状と課題

計算機的対策の現状ローカルのPC　ゲノムサイズの小さい生物種やリード数によっては間に合うが…

PCクラスタ　Sun Grid Engine等による分散処理，他組織のものを借りることも

クラウド　AWSなどを利用したクラウド計算環境の提供が始まりつつある

スパコン　分散処理は強いが，ノードあたりの割り当てメモリが減ると計算が出来ない

メモリはいくらあっても足りない上に

専門のエンジニアがいないので

超能力に目覚めたり


特殊能力に目覚めたり


精神が鍛えられたり


マシンメンテで研究どころじゃない

どうすれば

クラウド!

usegalaxy.org : online bioinformatics analysishttp://bcbio.wordpress.com/tag/galaxy/

クラウドの問題点

手元のデータのアップロードに時間がかかる　計算機資源の問題は解決するが依然転送の問題が残る

医療データなどの個人情報は？　セキュリティの確保は十分であるか

コストパフォーマンスは？　これから先さらにスケールするデータ量に見合っているか

それHadoopで…

ITProより http://itpro.nikkeibp.co.jp/article/NEWS/20110927/369510/

日立feat. 遺伝研

asahi.com より http://www.asahi.com/digital/bcnnews/BCN201111240007.html

インテックfeat. 理研ジェネシス

grazie per le informazioni @yag_ays!

やってるそうですやってるとこは

まとめます

まとめ

生命科学分野の大きなデータとは　定義はないが，従来よりサイズ・量が大きい，個人ゲノムなど身近なところにも

保存・転送等のデータの取り回しに問題　重要なデータは消せない・転送にはバイク便しかないのか？

計算機の要求スペックが高い　CPUだけでなく、RAMの要求が非常に高いのが問題

現状ではなんとかやりくり　ツールの改良・分散処理など様々な方法が現在試みられている

以上、長い話でしたが

ご清聴ありがとうございました

large-scale data in life science

Technology