國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... ·...

17
國網中心 雲端資源服務平台 設施服務組 朱金城 09/03

Upload: others

Post on 18-Oct-2019

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

國網中心

雲端資源服務平台

設施服務組

朱金城

09/03

Page 2: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

計算資源介紹

2

2017 TOP 500 第95名

2017 Green 500 第31名

•760 計畫/年

•3000 帳號/年

Braavos 2015Hadoop Cluster

2017 Peta HPC

2018 TWCC/TWGC

2018 BDSHadoop/SPARKCloudera Cluster

AI高速計算主機2,032個NVIDIA Tesla V100 254組廣達伺服器QuantaGrid D52G-4U HPL Rmax 為 7 PFLOPS

雲端服務系統250個計算節點使用華碩伺服器RS720Q-E9-RS24-S

Page 3: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

台灣杉(TAIWANIA) HPC

高速計算叢集

107年5月上線服務,7月1日開始收費

630台純CPU節點,64台GPU節點,總記憶體容量達157TB。

3PB以上巨量平行檔案系統

服務模式

大規模平行計算,物理、化學、工程、生物。

適合批次(batch)作業,大頻寬平行讀寫。

提供網頁介面操作

以透過排程系統(Altair PBS)申告佔用(allocation)之計算資源數量與時間乘積計費,如CPU核心小時或GPU小時。

3

Page 4: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

台灣杉(TAIWANIA) 架構

4

630 nodes

25,200 cores

1051 TF

Storage Island Utility Island

Intel Omni-Path (100Gb/s) for both Comm/IO

Shared Ethernet LAN for control and mgmt

40Gb/s10G Eth

NCHC TCGateway

Internet

NCHC tiered storage

2.2PB

250TB

1PB

HPL Rmax:> 1.325 TF

20 nodes64 nodes

256 GPUs

684TF

CPU Island GPU BigMem

6TBFat node

384GB128 nodes

Thin node192GB

502 nodes

1 nodes

96 cores

3TF

Page 5: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

Login Nodes規格

5

Node TypeNode

Range

Total units

(nodes)

Compute resources per unit (node)

CPU

Sockets

CPU

cores

Memory

(GB)

Tesla

P100

480 GB

SSD

CPU login

nodes

clogin1–

clogin22 2 40 384 - 1

GPU login

nodesglogin1 1 2 40 192 4 -

clogin1.twnia.nchc.org.tw 140.110.148.11

clogin2.twnia.nchc.org.tw 140.110.148.12

glogin1.twnia.nchc.org.tw 140.110.148.15

xdata1.twnia.nchc.org.tw 140.110.148.21

Page 6: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

提供2,032個NVIDIA Tesla V100 採用廣達伺服器QuantaGrid D52G-4U 共252組計算節點+2組登入節點/16個GPU),

預計HPL Rmax應可達7,000 TFLOPS AI計算節點採CPU/GPU直接水冷式設計,有效

節省空間與電力

採用Mellanox InfiniBand EDR(100GB)網路 支援RDMA,增強低延遲與高頻寬特色

配置10PB IBM Spectrum Scale高速檔案系統GPU直接水冷設計

AI高速計算主機

Page 7: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

雲端服務系統

250個計算節點 使用華碩伺服器RS720Q-E9-RS24-S SUSE OpenStack Cloud 8

採用Ceph 技術建置儲存系統 1 PB 區塊儲存系統 :使用廣達70-bay 高密度儲存伺服器 10 PB 物件儲存系統:使用廣達78-bay 高密度儲存伺服器

一般計算節點(248個)

儲存節點

(10個)

CephMonitor主機(3個)

控制器社群版(3個)

控制器商業版(5個)

佈署節點 + 監控節點

(4 + 1個)

管理節點

(2個)

GPU 計算節點(2個)

UserPortal節點(2 個)

NSX-Edge 節點

(8個)

網路資安計算節點

( 16個)

250 個計算節點

廣達

Ceph

Monitor 主機

(5個)

佈署節點(1個)

儲存節點(54個)

NFS / RGW /

MDS 節點(5個)

廣達

1PB 區塊儲存系統

10PB 物件儲存系統

華碩

Page 8: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

整合式資料倉儲備份設施

30PB 磁帶儲存空間 採取IBM TS4500磁帶櫃、LTO8磁帶機及30PB LTO8磁帶提供

整合式資料倉儲備份設施 搭配IBM Spectrum Protect (TSM) 備份軟體提供Block

Storage與Object Storage自動備份功能 提供高速儲存系統Auto-Tiering備份功能 搭配IBM Spectrum Protect for Space Management (HSM)

備份軟體

Page 9: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

軟體服務架構

CPU Node GPU Node

SLES 12 SP3

KubernetesOpenStack

TensorFlow, Caffe, Torch, DIGITS

Slurm

Kube-

SchedulerNova Scheduler

Neutro

n

VM Docker / Nvidia-Docker

GPFSSES

CLI

API

ASUS Portal

M

P

I

Admin

Portal

F5 B

IG-I

P A

SM

Palo

Alto C

ontr

ol M

anager

SU

SE

Ad

min

Co

nso

leM

on

asca

/ G

rafa

na

IBM TSM

Singularit

y / Shifter

RGWNFS-Ganesha

Ubuntu 16.04Cent

OS 7

GPU

ContainerVM /

Container

RBD

Mellanox Cumulus / NSX-T IBEth

AI HPC

建立整合式統一使用者入口網站 提供計算服務網站,提供用戶 AI

計算、大資料計算及儲存管理服務。 支援Docker、Singularity與Shifter

等容器技術 透過Slurm 與Kubernetes 進行資源

管理 2 Zone設計,商用版OpenStack佔

90%、社群版OpenStack佔10% 採用VMWare NSX-T SDN技術 提供統一的自助式入口網站提供基礎架

構、應用、資料服務服務定義和可重複自動化工作流的標準化,保證資源控制和法規遵循及合規性,減少由於錯誤而導致的時間浪費

Page 10: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

台灣GPU雲(TWGC)操作界面

10

具備金鑰管理

統一帳號(IAM)及帳單管理(Billing)

S3雲端儲存及隨需存取

採用NVIDIA優化之容器環境

多租戶共享運算環境與資料

自定連線安全群組服務

Page 11: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

TWGC使用流程

11

TWGC

選擇GPU硬體配置

選擇優化之容器映像

輸入帳密等安全設定

點擊進入GPU容器

Enjoy

硬體配置1 GPU + 08 CPU + 060 GB RAM

2 GPU + 16 CPU + 120 GB RAM

4 GPU + 32 CPU + 240 GB RAM

8 GPU + 64 CPU + 480 GB RAM

Page 12: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

資源/容器/帳密配置

12

Page 13: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

容器環境-jupyter/tensorboard/nv-digits/etc

13

Page 14: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

iService客戶服務系統

14

iservice

服務平台

用戶自助服務

線上訂購

服務開通

報表資訊

會員管理

帳務管理

Linux

多元會員註冊

註冊簡訊認證

單一帳號

租戶成員管理

母子錢包

主機OTP雙因子認證

Page 15: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

TWCC

iService開源系統架構

15

TWCC

Page 16: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

台灣杉主機使用訓練課程(9月份)

16https://edu.nchc.org.tw

Page 17: 國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... · 提供計算服務網站,提供用戶AI 計算、大資料計算及儲存管理服務。

敬請指導