研究支援のためのアカデミッククラウド(cloudweek2013@hokkaido university)

22
研究支援のためのアカデミッククラウド 棟朝 雅晴 北海道大学 情報基盤センター CloudWeek2013 @Hokkaido University 2013.9.5

Upload: masaharu-munetomo

Post on 10-Jun-2015

401 views

Category:

Documents


1 download

DESCRIPTION

CloudWeek2013での講演資料です。 文部科学省委託調査の研究支援に係るアカデミッククラウドに関するご紹介となります。

TRANSCRIPT

Page 1: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

研究支援のためのアカデミッククラウド

棟朝 雅晴北海道大学 情報基盤センター

CloudWeek2013@Hokkaido University

2013.9.5

Page 2: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

研究支援に係るアカデミッククラウドの調査検討

• 研究支援に係るアカデミッククラウドシステムに求められる要求要件を整理、検討し、その標準仕様を作成する

• 大規模並列処理、大規模データ処理、大規模データベース等に係る研究に求められる要件を整理

• 情報システム研究に係る研究支援に関する検討については、複数のクラウドシステムを連携させたインタークラウド基盤や大規模分散データベースをの実現を含め、それら必要とされる要求要件を整理する

• 担当者:棟朝雅晴(北海道大学)、根本利博(東京大学)    横山重俊、吉岡信和(国立情報学研究所)

Page 3: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

実施計画

• 国内外の動向調査、ヒアリング、アンケート調査による、ユースケース、要求要件に関する調査検討を実施

• 研究関連データに関する基礎調査:科研等の採択課題代表者に対するアンケート、ヒアリングの実施に加えて、いわゆるビッグデータに関する海外、民間も含めた研究開発動向の調査

• 研究支援向けクラウドシステム基盤に関する調査:国内・海外事例、技術動向調査およびサーベイ

• 特にビッグデータの処理に必要とされる性能要件、技術要件、運用モデルなどについて調査検討する

• 将来のクラウド基盤技術の発展も見据えた展望を明らかに

Page 4: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

学術クラウドと一般のデータセンターとの違い

• データセンターでは、大規模Webシステムがほとんどであり、Web3層システム(Web, App, DB)によるホスティングサービスを前提としている

• 一方、学術クラウドでは大規模Webシステムの必要性はほとんどなく、HPC、パラメータサーベイ、ビッグデータ処理、 試験システムの構築、M2M (Machine-to-Machine)やIoT (Internet of Things)、センサーネットワークなど、多種多様なシステム構築が求められる

• 例えば、センサーデータをクラウドに集約→ Hadoopなどで大規模データを処理→ Webサービスとして処理結果を公開→ 他の様々なサービスとの連携

Page 5: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

スパコンとクラウドの棲み分け?

National Leadership System(The next “K” : 1 Exa Flops in 2018)

Supercomputersin major universities

and laboratories(1~100 Peta Flops in 2018)

Clusters inother univ.,labo., andcompanies

“HPCI”systems

������

Page 6: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

北海道大学アカデミッククラウド

• 国内最大(本格的なクラウドとしては世界的にも最大級)の学術クラウド → 最先端のクラウドミドルウェアを採用した最初の事例として   国内はもちろん、国際的にも極めて高い評価・注目を集めている → スパコン並みの高性能(43.8TFlops, 2000以上のVMを実行可能)

• ビッグデータ処理システム(Hadoopクラスタ)を自動的に設定し利用者が占有して利用できる基盤を整備

6

Page 7: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

北大クラウドの利用状況

•常時千数百VMが動作(Sサーバ換算)

•特に高性能なサーバ(XL)が常に売り切れ状態

仕様上の上限 (2,000)

Page 8: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

北大クラウドを運用して感じたこと

•ほとんどのユーザは「パソコン」や「アプリケーションソフト」の延長線上で高速化、高性能化を求めている。

•「スパコン」は必要だが、活用できるユーザはごくわずか。多くのユーザにとっては「使いやすさ」の方が重要。

•計算科学、計算機科学、データサイエンスの発展のためには「裾野のマーケット」を広げることが特に重要である。

•「アカデミッククラウド」はそのために極めて有効である!

Page 9: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

計算サーバ、シミュレーション環境としての利用

• 計算サーバ、シミュレーション専用のシステムをクラウド上に構築

• Lサーバ(10コア, Mem: 30GB)→ 高性能計算サーバ、WSの代替として

• XLサーバ(40コア, Mem: 128GB)→ シミュレーションシステム

• パソコン or 研究室クラスタ ~ スパコンのギャップを埋める

Page 10: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

創薬科学の”in silico screening”実施サーバとして

• Structure Based Drug Design (SBDD)を用いて、医薬品候補化合物を探索するための大型計算機としてXLサーバを使用

• Management appとして、modeFRONTIER®を、Docking appとして、 AutoDockを使用している。(XLサーバへは、 AutoDockをインストール)

Page 11: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

大規模なパラメータサーベイ・最適化

• パラメータサーベイにおいてシミュレーションを並列実行→ クラウド環境で必要なだけ並列度をあげられる→ 進化計算などを併用することで自動最適化も可能となる

Simulator f1 x decode s1

Simulator f2 x decode s2

Simulator fn x decode sn

Genetic algorithm with gene analysis

Parallel simulations

Evaluations

Gene analysis

Crossover

Mutations

2�&.(���0#/+ )��-"*�%4 (�������'1#

���������!3���'1#�$,5

(��������'1#)

Page 12: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

ビッグデータ処理パッケージの提供

• Hadoop, Hive, Mahout, R などをパッケージとした数百台規模のクラスタを自動的に構築して利用者に提供

• ディスクI/Oの負荷分散のためスケジューリングをカスタマイズ

• 数百台規模のクラスタであっても、ポータルからの申請、設定後1時間程度で構築が完了し、すぐに使える

�� ������17%� + 5&(/*"9%��IK/*"9%�8&+96HC���?� ��8&+96�.9)362$8MB�E;���17%� + 5&(/*"9%��@�7!�8-9,�QG@�S7!�8-9,��HC���� ���=F<L�P�'0+����:��8&+96������>NO�.9)362$8� � 49#�JR�D�� 7!�8-9,�7!�8�>N���

AAAATTTT17%� +17%� +17%� +17%� + 5&(/*"9% 5&(/*"9% 5&(/*"9% 5&(/*"9%HCHCHCHC

AAAAUUUU17%� + 5&(/*"9%17%� + 5&(/*"9%17%� + 5&(/*"9%17%� + 5&(/*"9%'0+���'0+���'0+���'0+���HCHCHCHC

>NO>NO>NO>NO 17%� + 5&(17%� + 5&(17%� + 5&(17%� + 5&(

7!�8-97!�8-97!�8-97!�8-9,,,,

>NO>NO>NO>NO 17%� + 5&(17%� + 5&(17%� + 5&(17%� + 5&(

SSSS7!�8-97!�8-97!�8-97!�8-9,,,,>NO>NO>NO>NO

17%� + 5&(17%� + 5&(17%� + 5&(17%� + 5&(

SSSS7!�8-97!�8-97!�8-97!�8-9,,,,>NO>NO>NO>NO 17%� + 5&(17%� + 5&(17%� + 5&(17%� + 5&(

SSSS7!�8-97!�8-97!�8-97!�8-9,,,,

$! %#&"

$! %#&"

������ � � ���� ���

������������

��� �$! %

��������

��������

��������

��������

��������

��������

Zone POD

���������� �������

�������

�������

��������VM

��"�!�"�������� ����� #�������������I/O����������

��������

VM

VM

VM

VM

��������Hadoop�����

���������� �������

�������

�������

��������

VM

���������� �������

�������

�������

��������

VM

���������

� �������

�������

�������

��������

VM

Page 13: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

クラウドPaaS上での大規模なインタラクティブ進化計算実行フレームワークの構築

•数百万人規模の利用にも耐えうるiGAの実行環境をCloudStack+CloudFoundry+Redis(分散DB)で構築

CloudStack

VM

Ubuntu

instance

VM

Ubuntu

Redis

VM

Ubuntu

Redis

VM

Ubuntu

Redis

Database

・・・

VM

Ubuntu

instance

VM

Ubuntu

instance

・・・

Applycation resource

iGA iGA iGA

Load Balancer

CloudFoundry

Sever

・・・

Page 14: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

全国規模の分散データベース基盤の構築

• 災害対応などを想定した全国規模の分散データベース基盤を構築

• 北海道大学、北見工業大学(SINET北端)、琉球大学(SINET南端)にCloudStack 4.1 によるIaaS基盤を構築済み→ Cassandra 等の実証実験

• 原子力機構からの受託研究事業として、放射線モニタリングデータの分散管理を実現する予定

Page 15: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

�������� ����������

���� ��������������

アカデミッククラウド連携の推進

• 全国規模の「インタークラウドシステム」の実現に向けた研究開発を推進(JHPCN「分散クラウドシステムにおける遠隔連携技術」など)

• 全国規模の連携(北大~琉球大)

12/11/27%

Master%

Slave%Slave%

AWS1Specific%API%Connec;ons%

StarCluster%

Mul;1Cloud%API%Connec;ons%(Apache(LibCloud)(

Launch%Plan% Configura;on%via%local%scripts%

Launch%Coordina;on%

Monitoring%&%Repair%

CloudInit.d%

Mul;1Cloud%API%Connec;ons%(Apache(LibCloud)(

Launch%Plan% Configura;on%via%local%scripts%

Launch%Coordina;on%

Monitoring%&%Repair%

Master%

Slave%Slave%

Slave%

Modifica;on%&%Integra;on(

SHINCLOM%Clusters%

Drupal'Core' Drupal'Modules'

IaaS$

Eucalyptus'''

IaaS$

Amazon'EC2'

IaaS$

CloudStack'

Drupal'

Public$

Private$

Private$

UI'Module'

SHINCLOM$

CloudStack'

Autonomic'Func=ons'

Cluster'Tool'

VPC'Tool'

Eucalyptus'

AWS'

Management'Func=ons'

������������� ���!��������������

Page 16: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

インタークラウド基盤と研究支援

• 研究者、研究グループ、研究プロジェクトの必要性に応じて、全国規模のクラウドを連携させた「インタークラウドシステム」から必要な資源を切り出して、専用のVPC (Virtual Private Cloud) として利用可能とする。

 �

 �  �

 �

Cloud A �IaaS��

 � �

 �

 �

Cloud B �IaaS��

 �  � �

 �

 �

Cloud C �IaaS��

User�

 �  � �  �

 �

VPC 1�

 � �

 � � �

 �

 �

 �Internet�

VM�VM�

VM�

 � �

 �

 �

 � �

 �

 � �

VPC 2�

 �

 �

������ �������

������

Page 17: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

研究支援向けのインタークラウド基盤はどうあるべきか

• 集中型:大規模なクラウドデータセンターを集中配置→ 規模の経済、効率性において優れる→ 災害対応等において問題あり

• 分散型:拠点となる大学等に複数(10カ所程度?)のクラウドデータセンターを分散配置→ ある程度の効率性、規模の経済を確保→ 分散して存在する研究設備、センサー、データなどに対応可→ 災害対応や分散性が本質的な研究テーマ(ネットワーク等)にも対応可

• 完全分散:全ての大学の資源フラットに相互連携→ 自主性を尊重できるが、効率性、規模の経済において不利

Page 18: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

本事業での対象範囲、考慮すべき点

• 研究分野に係るビッグデータの代表例:バイオ情報(遺伝子など)、地理情報、ネットワークログ(SNSなど)、加速器、スパコン、センサーデータ

• 代表的な事例については、ある程度分かっている部分も多いが、それ以外にどこまで、多種多様な研究データとアカデミッククラウドに対するニーズを掘り起こせるかが重要

• データの量など(いわゆる3Vsと呼ばれるもの)だけではなく、データの正確性や再利用の頻度など、その重要性に関する情報も調査すべき

Page 19: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

調査のポイント

• 比較的少数の研究者を対象とするのではなく、「裾野を広く」 想定し、さまざまな研究分野において役立つアカデミッククラウドシステムのあり方について検討すべき

• 研究データやシステムだけではなく、広く研究者のコミュニティや海外や民間との連携も踏まえた「エコシステム」を構築するという観点で検討すべき

• 標準仕様の策定にあたっては、情報技術の立場に偏りすぎることなく、利用者としての研究者の視点に立って検討すべき

• ある特定のアーキテクチャやシステムに限定するのではなく、相互運用性を確保しつつ、複数のアーキテクチャやシステムの混在など多様性を許容する標準仕様を検討すべき

Page 20: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

F E B R U A R Y 8 , 2 0 11

Vivek Kundra U.S. Chief Information O!cer

FEDER A L CLOU D COMPU T ING STR ATEGY

“Applying cloud technologies across the entire Federal Government can yield tremendous benefits in

efficiency, agility, and innovation“

Page 21: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

研究~開発~運用の一体化

• DevOps →「開発」(Development) と「運用」(Operations) の密な連携を目指したムーブメント → クラウド時代に適合したソフトウェア開発&運用

• 情報系でも「つくりっぱなし」ではなく「運用」までを見据えた研究が必須

• アカデミッククラウドの構築にあたり、ビッグデータに係る研究、開発、運用を一体的、統一的に推進する「エコシステム」の実現が求められる。

• 情報基盤センターのメリット:研究~開発~運用が一つの組織にある

ResDevOpsResearch & Development & Operations

Page 22: 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

Academic Cloud + Big Data = Innovations

• 全国規模のアカデミッククラウドの連携により、ありとあらゆるデータ、コンテンツ、リソースなどを統一的な枠組みで利用できるようにする→ ネットワーク効果、規模の経済による研究開発の効率化

• データやリソースなど予想外の「組み合わせ」をうながす環境を整備する→ 新たな研究分野の開拓を支援するイノベーションの基盤を実現する

• 基本的な技術については特に新しいものではなく、基盤となるソフトウェアも整備されつつあるので、どれだけ徹底的かつ早く「やるのか」が重要→ 大規模な運用システムを実現するのは結構難しい→ 研究者コミュニティを含めた「エコシステム」を構築することが本質的