large-scale data in life science
DESCRIPTION
Bigdata meetup in Tokyo at 8 Dec. 2011 by Tazro Inutano OhtaTRANSCRIPT
LARGE SCALEDATA IN
LIFE SCIENCEライフサイエンス分野の大規模データ 現場での課題とこれから
おことわり
��� ���������� �� �������������
確かにそうなのですが
今日はリレーショナル・データベースの話は一切出てきません
NoSQLの話も出ません
Update( new_suffix ){ current_suffix = active_point test_char = last_char in new_suffix done = false; while ( !done ) { if current_suffix ends at an explicit node { if the node has no descendant edge starting with test_char create new leaf edge starting at the explicit node else done = true; } else { if the implicit node's next char isn't test_char { split the edge at the implicit node create new leaf edge starting at the split in the edge } else done = true; } if current_suffix is the empty string done = true; else current_suffix = next_smaller_suffix( current_suffix ) } active_point = current_suffix}アルゴリズムの話や擬似コードも出ません
理由は追って説明致しますので
画面の前の皆さんも落ち着いて下さい
photo by http://www.photoxpress.com/stock-photos/1814937
どうか平にご容赦を
photo by @meguu
始めます
Large-scale data in Life Science
Contents
fontin sans fonts by Jos Buivenga (exljbris). Thank You! -> www.exljbris.com
LARGE SCALE DATA
IN LIFE SCIENCE
NOW IS THENEXT-GENERATION
DBCLSについて 生命科学分野でのデータベースとは
LARGE SCALE DATA
IN LIFE SCIENCE
NOW IS THENEXT-GENERATION
生命 科学 分野での大きなデータ 例と特徴
「次 世代 」データとその問題 ア ー カ イ ブ と 解 析
対 「 次 世 代 」 現状と課題
DBCLS:DATABASE CENTER
FOR LIFE SCIENCE
大学共同利用機関法人 情報・システム研究機構ライフサイエンス統合データベースセンター / DBCLS国立遺伝学研究所,国立情報学研究所,統計数理研究所等と同じ機構に所属現所在地:東京大学浅野キャンパス内 (組織運営では同大学とは無関係)常勤職員20名強,リサーチアシスタント20名強
文部科学省委託研究開発事業統合データベースプロジェクト (H18~22)JSTライフサイエンスデータベース統合推進事業基盤技術開発プログラム (H23~25)
国内における自然科学分野データベース統合の中核機関http://dbcls.rois.ac.jp/
大田 達郎 Tazro Inutano Ohta @iNut
特任専門技術員 / Technical Specialist
基盤技術開発プログラム:大規模データの利用技術開発に従事
データベースとは
生命科学系のデータベースとは
1. 研究成果が公開される場としてのDB 研究室,共同研究から国際コンソーシアムまで規模はさまざま
2. 公共の汎用研究リソースとしてのDB ゲノムや遺伝子から論文情報まで
問題点 :
組織,プロジェクトが独自に構築されたDBが乱立する
プロジェクト(グラント)が終了すると維持されず放置される
→ それらを整備・統合し再利用性を高めるのがDBCLSの役割
生命科学系のデータベースとは
Large-scale data in Life Science生命科学分野の大規模データ
定義
生命科学系の大規模データとは (例)
文献情報 2100万の論文要旨と230万の論文の全文情報 in PubMed
集団疫学のデータ 数百から数千の個人からなる集団について時系列で複数のデータが得られる
大規模塩基配列データ 新型のDNAシーケンサーによって高速・大量に生み出される塩基配列データ
定義
分野共通の定義はない #ittamongachi
従来と比較してデータサイズが非常に大きい,データ量が多い
リアルタイム性は(他分野と比べて,今のところ)低い
生命科学系の大規模データとは (例)
特徴
メタデータの重要性 データについての情報を記述したメタデータがデータの解析に必須
アルゴリズム・ツールの実装者と実行者の関係 情報系研究者がツールを実装し,生物系研究者がそのツールで解析
一般的な生命科学系のデータの特徴
→ これらはそのまま大規模データにも当てはまる
メタデータの重要性 データの解析にはそのデータを出した実験の情報が必須 細かい場合分けが必要なことが多く,メタデータは管理もコストが高い
一般的な生命科学系のデータの特徴
ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAT
or or
or or
?
?
photo by Togopic, Licensed under CreativeCommons 2.1 JP Attribution
メタデータの重要性 データの再現性のためにはメタデータの維持管理が重要 大規模データのDBにおいて大きな問題の1つとなっている
一般的な生命科学系のデータの特徴
ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAT
Data ID : 000001
organism : mouse
cell : nervous cell
sequencer : 454
date : 2011 12 08
photo by Togopic, Licensed under CreativeCommons 2.1 JP Attribution
アルゴリズム・ツールの実装者と実行者の関係 実行者がコアとなるプログラムを書いて実行するケースは少ない
情報系生物学研究者 : dry 実験系生物学研究者 : wet 一部のdry研究者が実装・公開したプログラムを, wet研究者ないしdryな共同研究者が実行するのが一般的
一般的な生命科学系のデータの特徴
アルゴリズム・ツールの実装者と実行者の関係,問題点 実行環境に合わないツールが利用出来ない
エラーが起きた時に対応が難しい
→ 必然的にGUIソフトウェア,webインターフェースツール, クラウド実行環境などの需要が高い
一般的な生命科学系のデータの特徴
具体例
Next-generation sequencing data次世代塩基配列データ
次世代DNAシーケンサとはDNAシーケンサ : 遺伝物質であるDNAの塩基配列を決定する装置 核酸4種類,ATGCの四文字で表せる(1塩基1バイト)
次世代DNAシーケンサ (NGS) = 超並列型 従来は一度に70KB程度,新型では0.5GB~1TBのアウトプット
断片化された大量の短い塩基配列(short read) そのままでは使えないので元の塩基配列を復元する必要がある
医学・生物学に大きな影響と進歩をもたらしている 10年かかったヒトゲノムも数日で完了,個人ゲノムの時代
個人ゲノムの時代 : 23andme.com
個人ゲノムの時代 : exome, 全ての遺伝子*のプロファイリング
*正確にはゲノムDNA上で転写される領域のうち機能する部分,exonの全探索grazie per le informazioni @ma_ko
データ
NGSデータ
画像データ (変換後削除) 30 TBシグナル強度 2~10 TB塩基配列データ(quality value含む) 中間ファイル ~1.5 TB程度 結果ファイル ~1.5 TB程度解析結果 中間ファイル ~45 TB程度 結果ファイル ~5 TB程度
*illumina社 HiSeq 2000の場合
重い
データの大きさによる問題受託シーケンスの場合など転送の問題がある 生のデータはネットワークで送るよりもHDDを宅急便で送った方が速い
バックアップの余裕がない 公共のデータベースへのsubmitをバックアップ代わりに?
そもそも普通のwet研究室にそんなにストレージはない 「秋葉原にHDD買いに行ってきます」「また?」
某表計算ソフトウェアにデータが載らない 「結果をE<censored>で下さい」「え?」「え?」「いやだからヱ
https://twitter.com/#!/dritoshi/status/121817788200390656
HDD長者ぞくぞく誕生
データの解析
塩基配列の復元
de novo assemble
short read from NGS
referencegenome
reference alignment
2つのアプローチ
de novo assemble
reference alignment
塩基配列の復元
de novo assembly短い配列同士の重なりあう部分を元に繋ぎ合わせることで復元(但し,短い配列のみによる完全なassembleは現状困難)
de novo assemble
short read from NGS
referencegenome
reference alignment
課題 : 現在公開されているツールはメモリ要求性が非常に高い
リードの長さ,ゲノムサイズに比例して要求メモリが増える
256GBメモリくらいでは全然足りない(!)
Velvethttp://www.ebi.ac.uk/~zerbino/velvet/
SOAPdenovohttp://soap.genomics.org.cn/soapdenovo.html
sequence assembly in wikipediahttp://en.wikipedia.org/wiki/Sequence_assembly
de novo assemble tool
塩基配列の復元
reference alignment既に解読されたゲノム配列を参照配列として,相同性を元に復元
ヒトの場合は3GBのゲノムに100bp程度の短い配列を数億本当てる
課題 :計算量が多い参照配列を利用するため,一定のメモリ確保が必要
de novo assemble
short read from NGS
referencegenome
reference alignment
Chr1 Chr2 Chr3
CPU1 CPU2 CPU3
対策 : マルチコアのマシンで分散処理参照配列を染色体ごとに分割し,それぞれをCPUに割り当てる
課題 :NGSでは類似の短い塩基配列が大量に出る為,誤った領域にアラインメントされる
シーケンサの性能向上でリード長は長くなり,また長い塩基配列の両端を読むなどの工夫によって解決
実際にどう対処しているか
Troubles not yet shooted最前線 現状と課題
計算機的対策の現状ローカルのPC ゲノムサイズの小さい生物種やリード数によっては間に合うが…
PCクラスタ Sun Grid Engine等による分散処理,他組織のものを借りることも
クラウド AWSなどを利用したクラウド計算環境の提供が始まりつつある
スパコン 分散処理は強いが,ノードあたりの割り当てメモリが減ると計算が出来ない
メモリはいくらあっても足りない上に
専門のエンジニアがいないので
超能力に目覚めたり
https://twitter.com/#!/dritoshi/status/110559890413600768
特殊能力に目覚めたり
https://twitter.com/#!/dritoshi/status/113546074760822784
精神が鍛えられたり
https://twitter.com/#!/dritoshi/status/114675417998311425
マシンメンテで研究どころじゃない
どうすれば
クラウド!
usegalaxy.org : online bioinformatics analysishttp://bcbio.wordpress.com/tag/galaxy/
クラウドの問題点
手元のデータのアップロードに時間がかかる 計算機資源の問題は解決するが依然転送の問題が残る
医療データなどの個人情報は? セキュリティの確保は十分であるか
コストパフォーマンスは? これから先さらにスケールするデータ量に見合っているか
それHadoopで…
ITProより http://itpro.nikkeibp.co.jp/article/NEWS/20110927/369510/
日立feat. 遺伝研
asahi.com より http://www.asahi.com/digital/bcnnews/BCN201111240007.html
インテックfeat. 理研ジェネシス
grazie per le informazioni @yag_ays!
やってるそうですやってるとこは
まとめます
まとめ
生命科学分野の大きなデータとは 定義はないが,従来よりサイズ・量が大きい,個人ゲノムなど身近なところにも
保存・転送等のデータの取り回しに問題 重要なデータは消せない・転送にはバイク便しかないのか?
計算機の要求スペックが高い CPUだけでなく、RAMの要求が非常に高いのが問題
現状ではなんとかやりくり ツールの改良・分散処理など様々な方法が現在試みられている
以上、長い話でしたが
ご清聴ありがとうございました