7 クラウドコンピューティング - bgi.com · - 77 -...
TRANSCRIPT
- 75 -
クラウドコンピューティング
Ⅶ
クラウドコンピューティング
クラウドコンピューティング
製品概要シーケンシング技術の発展は生物研究に大きなチャンスをもたらすと同時に、膨大なデータの収集・分析・保存・転送・
セキュリティーなどの問題ももたらしました。これらの問題を解決するために、BGI はカスタムデータの保存サー
ビスと高性能な計算力を提供します。
BGI のクラウドコンピューティングプラットフォームは、ゲノミクス領域で頻繁に利用される基礎データと豊富な
経験を組み合わせ、大規模な NGS データと分析プロセスを融合したデータ解析プラットフォームを提供します。世
界中の研究者にセルフサービスシステムを提供し、より低コストで効率的に膨大なデータを解析できます。
技術特長 • ハードウェアとソフトウェアを融合した BGI のクラウドコンピューティングプラットフォームは、各国の研究者
をエンド • ツー • エンドでサポートします。
1.ストレージ研究者に手頃な価格で高性能なデータの保存サービスと、長期的なデータ保存サービスを提供します。30PB を超え
る BGI の総ストレージ容量は、ここ数年で急激に増加しています。
1000,000
100,000
10,000
1,000
100
10
1
CPU SpeedStorageMoore Law
2000 2004 2008 2009 2010 2012 2014
Hight Performance Computing (HPC)
Evolution of Computational Capacities
100 G flops
1 T flops
4 1632
64128
10 T flops
50 T flops100 T flops
400 T flops
1 P flops
2T
45T
670T
5P
20P
30P
50P
図 1 BGIストレージ増加の変遷
参照配列の収集やダウンロードなどの手間を軽減できるよう、一般的なゲノムデータと関連データのセットサービ
スを提供しています。
- 76 -
クラウドコンピューティング
Ⅶ
2.計算BLC/SGE クラスターに基づいた BGI のクラウドコンピューティングサービスは、マッピング・SNP・SV・Indel・CVN 解析やDe Novo アセンブリーなどのデータ解析サービスをサポートしています。
計算能力は最大 400T flops ですが、近々 1,000T flops にアップグレードされる予定です。最先端の高性能計算ノー
ドを持つ BGI のクラウドコンピューティングプラットフォームは、大規模なゲノム解析に適しており、分析時間も
大幅に短縮できます。
BGI では SOAP・ゲノム融合分析・トランスクリプトーム解析・エキソームキャプチャー・Digital Gene Expression Profiling (DGE)・Small RNA 分析などのゲノムアプリケーションの開発に取り組んでいます。BGI が独自に開発し
た SOAP(Short Oligonucleotide Alignment Program) は単なるアライメントツールから、次世代シーケンサーのデー
タを全面的に解析できる手法にアップグレードしました。また、総合的なデータ解析を提供するために、ABySS や
Velvet などのオープンソースソフトウェアの開発にも取り組んでいます。
1
1
1
3
2
4
4
BatmanFindpeaks
CisGenome
Short reada alignment
SOAPbowtie
BLAST
SOAPdenovo
SOAPsnp\SOAPsv\SOAPInDel
SAMtools
BreakDancer*VarScan
AbySS
Velvet
BLATFASTA*BFAST*
bwaMAQelano*
General sequence alignment
TRFRepeatMasker
Genescan*BGF*
InterproScan*
SOAPalsTopHat
Cufflinks*Mapsplice*
Phymlpaup
phylipmega
Others*
Evolution*
Annotation
Sequence Alignment
de novo Assembly
Genome resequencing analysis
RNA.seq
Bioinformatics software
(Typically for NGS)
MACS
図 2 BGIのクラウドコンピューティングソフトウェア
3.データの納品データの納品は、専用サーバへのアップロード (FTP・HTTPS・Aspera) とメディアによる送付(USB メモリ・ハード
ディスク)があります。データ量が 50GB 未満の場合、専用サーバへアップロード (FTP・HTTPS・Aspera) します。
Aspera には、2つの方法があります。
a. 速度(Mbps)/ 月(例:30 Mbps/ 月)
適用条件:大規模なデータの連続転送
b. ネットワークトラフィック+最小帯域幅(例:200GB のデータセット+ 5 Mbps/ 月)
適用条件:小規模或いは中規模なデータの断続転送
データ量が 50GB 以上の場合、USB メモリ・ハードディスクで納品します(非暗号化)が、 暗号化されたデータでの納品も可能です。
Linux の場合:TrueCrypt/CryptSetup での暗号化を推奨しています。
Windows の場合:Western Digital 社の暗号化されたハードディスクを推奨しています。
ハードウェア 容量 インターフェース 適用範囲
USBメモリ 4GB・8GB・16GB USB 2.0・USB 3.0 少量の分析データ
ハードディスク
500GB USB 2.0・USB 3.0小規模な転送
500GB Raw1TB・2TB USB 2.0・USB 3.0
生データ・クリーンデータ・BAM Files1TB・2TB Raw
暗号化されたハードディスク1TB・2TB USB 2.0・USB 3.0
暗号化されたデータ1TB・2TB USB 2.0・USB 3.0
- 77 -
クラウドコンピューティング
Ⅶ
4.バイオインフォマティクストレーニングとカウンセリングサービスBGI では、生物・物理・数学・医薬・コンピューティングなどの分野に跨る 200 人の専門チームが、各種バイオインフォ
マティクストレーニングとカウンセリングサービスを行っています。データ解析や報告書に関する質問からマンツー
マンのトレーニングまで、基礎からサポートします。
ワークフロー
シーケンシング
生データ
クリーンデータ
SOAPBWA
SAMToolsBreakDancers
…
データの
中間報告
第一層 プライマリデータ
第二層 スモールパイロット
第三層 データのリテンション
オンライン
・FTP・HTTPS・Aspera
オフライン
・USB メモリ
・ハードディスク
シーケンシング
解析
ストレージ
コンサルティング
データの納品
技術パラメーター
1.ファイル入力フォーマット
2.ストレージa. シーケンサーからリアルタイムで直接データを保存 30PB の総ストレージ能力
b. 完全なデータとバックアップシステム
3.分析a. 高い計算能力:400T flops 超
b. 多仕様化の計算ノード:16GB - 1TB RAM
- 78 -
クラウドコンピューティング
Ⅶ
データのセキュリティ
Policies and Procedures,
Operation Records and
Dedicated Personnel
Firewall, UTM, DMZ,
VLAN, System
Hardening and Auditing
Role based Access
Control, Password and
ID Management Policy
PDU & UPS, HVAC,
Infrastructures and
Biometric reader
Encryption, Hash
and Backup
Data
Operation and Organization
Network, OS and Applications
Physical Environment
Access Control
BGIクラウドコンピューティングのデータセキュリティ概要
全面的なデータ管理システム・暗号化されたログイン認証とUSBキーで、ユーザーのデータは安全に守られています。