고성능 hpc 클라우드컴퓨팅과클라우드그리드컴퓨팅의이점 사실상의 무제한...

46

Upload: others

Post on 06-Jan-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Kyungsoo Lee, Solutions Architect

고성능 HPC 클라우드 컴퓨팅과AWS 보안Simulation Innovation Day 2018

Aug 23 2018

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

Learn From Amazon, Execute at AWS

아마존을 통해 혁신을 배우고, 아마존웹서비스에서 혁신을 실행

Digital Business

DigitalInnovation

DigitalTransformation

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

disrupted

비즈니스 모델의 혁신 사례

파괴적 혁신 (Disruption) 을 통한 비즈니스 모델의 증가

Hospitality Insurance Devices TradingMedia

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

전통적인 기업 사례

“Many of ou r cu s tomer s a re t r ans fo rm ing the i r wor ld s a s we l l .”

We rn e r Voge l sAma zon Web S e r v i c e s , C TO

데이터를 비즈니스 가치로 전환하고 데이터를자산화하여 플랫폼 서비스로 만드는 것

디지탈 트랜스포메이션

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

인프라 관리에 드는 부담감소

실험 및 혁신에리소스 투자 가능

신규 비즈니스구현에 집중

핵심 비즈니스에 역량 집중

On-Premises

$ Millions Nearly $0

실패= 막대한 비용 손실

잦은 실험적시도 불가

혁신 시도에 대한부담이 큰 환경

혁신을 촉진하는 환경

실패하더라도 적은비용 / 시간만 손실

잦은 실험적 시도

Vs.

Cloud

기획 및 계획을실험과 테스트로!

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

Scale Matters: for Big Data and Big Compute

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

이때 필요한 것들 : 규모, 다양성, 유연성과 보안

데이터의 보안(격리된 환경 및 저장 데이터 암호화)

필요한 만큼 쓸 수 있는 용량

데이터를 위한대용량 스토리지 용량

다른 compute type 을사용할 수 있음

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

1.1M vCPUs for machine learning

A group of researchers from

Clemson University achieved

a remarkable milestone while

studying topic modeling, an

important component of

machine learning associated

with natural language

processing, breaking the

record for creating the largest

high-performance cluster in

the cloud by using more than

1,100,000 vCPUs on Amazon

EC2 Spot Instances running

in a single AWS region.

11

The graph highlights the

elastic, automatic

expansion of resources.

Clemson took

advantage of the new

per-second billing for

EC2 instances.

The vCPU count usage

is comparable to the

core count on the

largest supercomputers

in the world.

S3

Provisionin

g and

workflow

automation

software

S3

JOB

SCRIPT

CLOUDY

CLUSTER

APIs

LOGIN SCHEDULER

SLURM

AUTO SCALING

SPOT FLEET

CCQ

S

3 DDB VPC

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

HPC in aerospace

“Rescale’s ScaleX cloud

platform is a game-

changer for engineering. It

gives Boom computing

resources comparable to

building a large on-

premise HPC center.

Rescale lets us move fast

with minimal capital

spending and resources

overhead.”

Josh Krall

CTO & Co-Founder

12

Boom leverages Rescale and AWS to enable supersonic travel

▪ Simulated vortex lift with 200M cell models on 512+ cores

▪ Increased simulation throughput: 100 jobs in parallel with 6x

speedup per job → 600x speedup

▪ Eliminated IT overhead, including server capital costs & in-house

IT and software teams

▪ Elastic HPC capacity and pay-as-you-go AWS clusters allow

business agility & ability to scale

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

HPC grids in financial services

“Using AWS helps us

reduce a 10-day process

to 10 minutes. That’s

transformative: it

broadens our ability to

discover.”

Peter Phillips

Managing Director

Aon Benfield Securities

Using GPU acceleration

The Challenge

▪ Spinning up up large numbers of GPUs quickly and inexpensively to

meet ABSI’s customers financial modeling & reporting needs

▪ ABSI uses proprietary algorithms (Monte Carlo simulations) running

millions of times

The Solution

▪ ABSI moved its infrastructure to AWS and deprecated its co-located

data center

▪ ABSI built a front-end on AWS for its processing solution,

automatically running GPU instances on Amazon EC2 using EBS in

an Amazon VPC for security

The Result

▪ Can be as much as 500 times more efficient in terms of performance

per dollar for some clients

13

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

On-Prem 환경에서 그리드를 운영

데이터센터 용량이 제한되어시뮬레이션 지연이나 충분치않은 risk calculation 들이 발생

신규 상품들의 개발 및테스트를 위해 유연한Compute 리소스 필요

제한된 용량으로 인해서시뮬레이션들 시간이 늘어남

규제 및 시장의 변동에는유연한 Compute 역량이 필요

on-premise에서 그리드를실행하기 위해서는 대규모초기 투자 및 유지관리 필요

구성할 수 있는 그리드들과Compute 종류가 제한됨

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

클라우드 그리드 컴퓨팅의 이점

사실상의무제한연산능력 과스토리지 자원

비용 최적화TCO 절감을위한 다양한가격 책정구조

다양한 컴퓨팅옵션들AWS Lambda (serverless)

강화된 보안그리고, 컴플라이언스

확장된빅데이터 기능분석과 BI에사용됨.

결과 도출을빠르게 수행몇분안에컴퓨팅인프라에억세스

자동화 기능프로비저닝리소스에 대한확장과 탄력성

그리드 컴퓨팅을 클라우드로이전하는 고객들이 늘어나는 이유는

무얼까요?

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

EC2 Instance

T2 M5 D2 H1 R5 X1 X1e I3 I3m C5 G3 P3 F1

BurstableGeneralPurpose

DenseStorage

BigDataOptimized

MemoryOptimized

InMemory

MemoryIntensive

HighI/O

BareMetalHigh I/O

ComputeIntensive

GraphicsIntensive

GeneralPurpose

GPUFPGA

Spot InstancesReserved InstancesOn-Demand Instances

사용한 만큼 지불

초기 약정 없음

일정 수준의 초기 약정

인스턴스 자원에 대한 확보

낮은 시간당 비용

자원 유휴시 재판매

유휴 자원을 일정시간 동안

경매하여 사용

On-Demand 대비 최대

90% 저렴

단기간 많은 자원이 필요한

경우 적합

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

CPUs vs. GPUs vs. FPGA for Compute

• 10s–100s of processing cores

• Pre-defined instruction set & datapath widths

• Optimized for general-purpose computing

CPU

• Thousands of processing cores

• Pre-defined instruction set and datapath widths

• Highly effective at parallel execution

GPU

• Millions of programmable digital logic cells

• No predefined instruction set or datapath widths

• Hardware timed execution

FPGA

DRAM

ControlALU

ALU

Cache

DRAM

ALU

ALUControl

ALU

ALU

Cache

DRAM

ALU

ALU

ControlALU

ALU

Cache

DRAM

ALU

ALUControl

ALU

ALU

Cache

DRAM

ALU

ALU

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

AWS 스토리지 서비스

Amazon EFS Amazon EBSAmazon EC2Instance Store

Amazon S3/S3-IA

Amazon Glacier

Object

Data Transfer

AWS Direct Connect

ISV Connectors

Amazon Kinesis Firehose

StorageGateway

S3 TransferAcceleration

AWS Snowball

AmazonCloudFront

Internet/VPN

BlockFile

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

Amazon S3

안전하고 내구성과확장 성이 뛰어난 객체저장소. 빠른 액세스와저 비용 가능.

장기간 동안 내구성있는 데이터 저장을위해 쉽게 액세스 할 수있는 get / put 액세스형식

약 $2.3 / M – 100GB

중요한 데이터를 위한내구성과 확장성을모두 제공하는스토리지

Amazon Glacier

안전하고 내구성이뛰어나고 장기적이고비용 효율적인오브젝트 스토리지.

드물게 액세스되는데이터의 장기 보관 및보관

약 $0.4 / M – 100GB

중요한 데이터의 장기, 저비용 보관에 사용

EBS(+EC2)

타사 또는 오픈 소스소프트웨어(ZFS, Intel

Lustre 등) 와 EC2, EBS 를 사용해서 단일AZ에 공유파일시스템을 만듬

높은 IOPS에 최적화된 파일을 저장하게됩니다.

약 $15 / M – 100GB

높은 IOPS, 임시 작업저장소에 사용

HPC 를 위한 스토리지 서비스Amazon EFS

고 가용성, 다중 AZ, 완전 관리형네트워크로 연결된elastic 파일시스템

일반 NFS 형식(NFSv4)의 파일 저장에고가용성 을제공합니다.

약 $30 / M – 100GB

읽기가 빈번한 임시작업 저장소에 사용

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

여러분의 데이터에 가치를 불어넣어주는 것

Central Storage

Catalog & 검색

메타데이터의 검색과억세스

• AWS Glue Data Catalog

• DynamoDB• Elasticsearch

Access & 사용자 인터페이스사용자에게 쉽고 안전하게 액세스 권한부여

• API Gateway• Identity & Access

Management• Cognito

데이터처리빠르고 안전하게 S3로 데이터를가져오기

• Kinesis Firehose• Glue ETL• Snowball• Database Migration

Service

처리 및 분석더 나은 이해를 위한 예측 분석및 처방적 분석

• QuickSight• Amazon AI• EMR• Redshift• Elasticsearch• Athena• Kinesis• RDS

Protect & Secure데이터가 안전하고 사용자의신원을 확인되었다는 것을확신하기 위한 권한

• Security Token Service• CloudWatch• CloudTrail• Key Management Service

Amazon S3 안에서안전하고 비용효율적

스토리지 사용

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

네트워크 성능

향상된 네트워킹: 장치 패스스루

• SR-IOV(단일 루트 I/O 가상화)를 통해 드라이버 도메인의 필요성 제거

• VF(Virtual Function)를 통해 물리적인 네트워크 장치를 인스턴스에 노출

ENA (Elastic Network Adapter)

• 차세대 향상된 네트워킹

• 하드웨어 체크섬 (IPv4 헤더 체크섬 및 TCP/UDP의 일부 체크섬 생성)

• 다중-대기열 지원 (다중 송/수신 큐 – 내부 오버헤드 감소 & 확장성 증가)

• 수신 측 스티어링 (RSS – 수신된 패킷을 적당한 vCPU로 바로 전달)

• 인스턴스 별 최대 25 Gbps의 네트워크 대역폭

• MPI 라이브러리 (including OpenMPI 3.0)

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

HPC 워크로드를 위한 AWS Batch

완전 관리형

설치할 소프트웨어나관리해야할 서버가 없음.

AWS Batch 에서 여러분의인프라를 프로비저닝하면관리하고 확장할 수 있음

AWS와의 통합

AWS Platform과 기본적으로통합 된 AWS Batch 작업은Amazon S3, DynamoDB 및Amazon Rekognition과 같은서비스와 쉽고 안전하게 같이

사용이 가능합니다.

비용 최적화된리소스 프로비저닝

AWS Batch 는 Amazon EC2 및EC2 Spot을 사용하여 작업

요구량에 맞는 컴퓨팅 리소스를자동으로 프로비저닝합니다.

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

Example: AWS Batch Job Architecture

IAM Role for Batch Job

Amazon S3Input Files

Queue of Runnable Jobs

S3 Events Trigger Lambda FunctionSubmits Batch Job

AWS Batch Compute Environments

AWS Batch JobOutput

Job Definition

Job Resource Requirements and other parameters

AWS Batch Execution

Application Image

AWS Batch Scheduler

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

Deploy an Amazon Elastic cluster fast with CfnCluster

Availability Zone

Amazon EBSAmazon EBS

Snapshot

Amazon S3 Bucket

NFS share

Amazon EC2 instancesCase data

Compute nodes

Auto Scaling

AWS CloudFormationTemplate

AmazonCloudWatch

Queue

User

ClientCfnCluster

CLI

AWS Region

VPC Subnet

Amazon EC2 instances

https://aws.amazon.com/getting-started/projects/deploy-elastic-hpc-cluster/

Master server

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

Clus te r por ta l w i th Eng in f rame

HTTP(S)

https://aws.amazon.com/getting-started/use-cases/hpc/

▪ Web-based workspace for users

▪ Web-based editor for service design

▪ Broad scheduler support

▪ Comprehensive data management

▪ Deep integration with NICE DCV

▪ Security and authentication scenarios

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

보안과 규정 준수를 용이하게 하는 여러 서비스들

AWS Key Management Service

(KMS)암호화 키를 생성하고제어하는 서비스

AWS Identity & Access Mgmt. (IAM)사용자의 AWS서비스 및리소스에 대한 억세스를

안전하게 제어함

Amazon Inspector자동화 된 보안 평가 서비스

AWS ConfigAWS 리소스 인벤토리, 구성내역 및 구성 변경 알림

AWS Cloud Hardware Security Module (HSM)

규정 준수를 위한 하드웨어 기반키 저장소

AWS Direct Connect사용자의 네트워크와 AWS Direct Connect Location 과

전용 네트워크 연결

AWS Config RulesAWS 리소스 프로비저닝 및구성을 위한 규칙 정의

AWS ShieldAWS에서 실행되는 웹애플리케이션을 DDoS

(Managed Distributed Denial of Service)로 부터 보호

Amazon Virtual Private Cloud (VPC)

사용자가 정의한 가상네트워크안에 AWS 리소스를실행하는 AWS 클라우드의

논리적 격리된 공간

AWS Organizations여러 AWS 계정에 대한

정책 기반 관리

AWS WAF악성 웹 트래픽을

필터링하도록 설계된 도구

AWS Quick Starts주요 기술을 자동으로구현하기위한 배포

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

VPC = Virtual Private Cloud

사용자가 정의한 가상의 네트워크 환경

(논리적 격리)

완전한 네크워크 제어가능 (보안그룹,

Network ACL)

IP 범위

Subnet

Routing Tables

Gateway

다양한 연결 옵션 제공 (VPN, DirectConnect)

VPC내의 모든 인스턴스(EC2)들은 사설 IP가

부여됨

개별 인스턴스에 공인 IP 할당 가능 (Public

IP/Elastic IP)

VPC

Subnet

Availability Zone A

Subnet

Availability Zone B

10.1.1.0/24 10.1.10.0/24

VPC CIDR: 10.1.0.0 /16

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

VPN connectionVPN Gateway

IPSec을 통하여 고객사 Network과 암호화된 터널을 구성

192.168.100.0/24

172.16.1.0/24

172.16.0.0/16

172.16.2.0/24

CustomerGateway(CGW)

On-Premise Network

VPNGateway (VGW)

InternetGateway (IGW)

VPN Connection(IPSec)

Internet

13.124.64.138 (Public IP)

172.16.1.205 (Private IP)EC2

Destination

172.16.0.0/16

0.0.0.0/0

Target

local

igw-bc3e5cd5

192.168.100.0/24 vgw-1428a424

Router

AZ-1

AZ-2

Subnet-1

Subnet-2

192.168.100.1

nn.nn.nn.nn

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

Direct Connect

전용회선을 통하여 고객사와 직접 연결

172.16.0.0/16

EC2

Region

AZ

Subnet

Amazon Glacier

Amazon S3

On-Premise Network

고객측 라우터/방화벽

AWS Direct Connect(DX) Location

AWS Cage고객/파트너

Cage

고객/파트너라우터

AWS Direct Connect Endpoint

VLAN 1

VLAN 2

Private Virtual Interface

Seoul Region : KINX, LG U+

Virtual PrivateGateway (VGW)

전용회선 구간

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

Encryption - 전송중 / 저장시 암호화

자세한 정보가 담긴 백서,“Securing Data at Rest with Encryption”.

전송 중 암호화

HTTPS

SSL/TLS

SSH

VPN

Object

저장 시 암호화

Object

Database

Filesystem

Disk

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

AWS KMS - 암호화키 생성/보관/관리

Customer MasterKey(s)

Data Key 1

Amazon S3

Object

Amazon EBS

Volume

Amazon Redshift Cluster

Data Key 2 Data Key 3 Data Key 4

• 암호화키를 안전하게 생성/보관/관리 해주는 관리형서비스

• 중앙 집중 암호화 키 관리

• 봉투암호화(envelop encryption) 방식을통한 2-단계

키계층화

EBS S3 RedshiftAWS SDK

AWS CloudTrail

자세한 내용을 담고 있는 백서: KMS Cryptographic Details.

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

AWS Key Management ServiceIntegrated with Amazon EBS

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark© 2018, Amazon Web Services, Inc. or Its Affiliates. All rights reserved.

모든 상황에서의 암호화

Amazon EBS

Amazon RDS

Amazon Redshift

Amazon S3

Amazon Glacier

전송 시 암호화

AWS CloudTrail

IAM

감사

접근 통제

데이터 소스 어플리케이션

저장 시 암호화

KMS를 통한완전 관리형

키관리

임포트된 키

고객 키관리인프라

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

AWS IAM 접근제어 예시

• 특정 서비스의 특정

리소스에 대한 권한 제어

가능

• 사전 정의된 권한셋을

이용한 손쉬운 사용

• JSON 형태 정책문서

수정을 통한 다양한 확장

Dev/Ops

Sales/Marketing

Amazon EC2

Amazon S3

S3 Read-only access granted

All operations granted

Authorizes every request from API and Management Console

Authz

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

모든 작업은 API콜로 처리됨...

사용하는 서비스와인스턴스들이 늘어

남에 따라 …

CloudTrail은계속해서 모든API 요청들에

대해 신뢰성 있는기록을 수행…

AWS CloudTrailAWS상의 모든 관리작업에 대한 로깅

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

AWS ConfigAWS 리소스에 대한 인벤토리 관리와 구성정보 변경관리 및 통보(AWS SNS)

변경 관리감사

컴플라이언스보안 분석 Troubleshooting Discovery

ConfigRules 의 custom rule 지원

➔ 특정 변경 이력의 실시간/주기적

감시/통보

• Lambda blueprint 내 관련 참조

소스 제공

• GitHub내 관련 Lambda 소스 공개

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

AWS Config/Rules

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

AWS Quick Start – Compliance 사례

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

AWS Quick Start – Security & Compliance

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

글로벌 보안 및 규제 준수

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

Traditional HPC Stack

Shared file storage

HPC cluster

License managers and clusterhead nodes with job schedulers

3D graphics remote desktop servers

Remotegraphics workstations

Storage cache

Remote sites

Remote backup

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

Migrating HPC to AWS

Shared File Storage

Cloud-based, auto-scaling HPC clusteron EC2

License managers and clusterhead nodes with job schedulers

3D graphics virtual workstation

AWS Direct Connect

On-Premises IT Resources

Thin or Zero Client- No local data -

Storage CacheAmazon S3and Glacier

© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark

AWS HPC 구성 요소

Storage

EBS EFS

S3

Networking

Enhanced Networking

Placement Groups

Automation & Orchestration

AWS Batch

CfnCluster

NICE EnginFrame Compute

EC2 Instances(Compute and Accelerated)

EC2 Spot

Auto Scaling

Visualization

NICE DCV

Appstream 2.0

Marketplace

Security

VPC KMS IAM

CloudTrail Config

감사합니다.