國網中心 雲端資源服務平台 - event.nchc.org.tw›²端資源服務平台... ·...
TRANSCRIPT
國網中心
雲端資源服務平台
設施服務組
朱金城
09/03
計算資源介紹
2
2017 TOP 500 第95名
2017 Green 500 第31名
•760 計畫/年
•3000 帳號/年
Braavos 2015Hadoop Cluster
2017 Peta HPC
2018 TWCC/TWGC
2018 BDSHadoop/SPARKCloudera Cluster
AI高速計算主機2,032個NVIDIA Tesla V100 254組廣達伺服器QuantaGrid D52G-4U HPL Rmax 為 7 PFLOPS
雲端服務系統250個計算節點使用華碩伺服器RS720Q-E9-RS24-S
台灣杉(TAIWANIA) HPC
高速計算叢集
107年5月上線服務,7月1日開始收費
630台純CPU節點,64台GPU節點,總記憶體容量達157TB。
3PB以上巨量平行檔案系統
服務模式
大規模平行計算,物理、化學、工程、生物。
適合批次(batch)作業,大頻寬平行讀寫。
提供網頁介面操作
以透過排程系統(Altair PBS)申告佔用(allocation)之計算資源數量與時間乘積計費,如CPU核心小時或GPU小時。
3
台灣杉(TAIWANIA) 架構
4
630 nodes
25,200 cores
1051 TF
Storage Island Utility Island
Intel Omni-Path (100Gb/s) for both Comm/IO
Shared Ethernet LAN for control and mgmt
40Gb/s10G Eth
NCHC TCGateway
Internet
NCHC tiered storage
2.2PB
250TB
1PB
HPL Rmax:> 1.325 TF
20 nodes64 nodes
256 GPUs
684TF
CPU Island GPU BigMem
6TBFat node
384GB128 nodes
Thin node192GB
502 nodes
1 nodes
96 cores
3TF
Login Nodes規格
5
Node TypeNode
Range
Total units
(nodes)
Compute resources per unit (node)
CPU
Sockets
CPU
cores
Memory
(GB)
Tesla
P100
480 GB
SSD
CPU login
nodes
clogin1–
clogin22 2 40 384 - 1
GPU login
nodesglogin1 1 2 40 192 4 -
clogin1.twnia.nchc.org.tw 140.110.148.11
clogin2.twnia.nchc.org.tw 140.110.148.12
glogin1.twnia.nchc.org.tw 140.110.148.15
xdata1.twnia.nchc.org.tw 140.110.148.21
提供2,032個NVIDIA Tesla V100 採用廣達伺服器QuantaGrid D52G-4U 共252組計算節點+2組登入節點/16個GPU),
預計HPL Rmax應可達7,000 TFLOPS AI計算節點採CPU/GPU直接水冷式設計,有效
節省空間與電力
採用Mellanox InfiniBand EDR(100GB)網路 支援RDMA,增強低延遲與高頻寬特色
配置10PB IBM Spectrum Scale高速檔案系統GPU直接水冷設計
AI高速計算主機
雲端服務系統
250個計算節點 使用華碩伺服器RS720Q-E9-RS24-S SUSE OpenStack Cloud 8
採用Ceph 技術建置儲存系統 1 PB 區塊儲存系統 :使用廣達70-bay 高密度儲存伺服器 10 PB 物件儲存系統:使用廣達78-bay 高密度儲存伺服器
一般計算節點(248個)
儲存節點
(10個)
CephMonitor主機(3個)
控制器社群版(3個)
控制器商業版(5個)
佈署節點 + 監控節點
(4 + 1個)
管理節點
(2個)
GPU 計算節點(2個)
UserPortal節點(2 個)
NSX-Edge 節點
(8個)
網路資安計算節點
( 16個)
250 個計算節點
廣達
Ceph
Monitor 主機
(5個)
佈署節點(1個)
儲存節點(54個)
NFS / RGW /
MDS 節點(5個)
廣達
1PB 區塊儲存系統
10PB 物件儲存系統
華碩
整合式資料倉儲備份設施
30PB 磁帶儲存空間 採取IBM TS4500磁帶櫃、LTO8磁帶機及30PB LTO8磁帶提供
整合式資料倉儲備份設施 搭配IBM Spectrum Protect (TSM) 備份軟體提供Block
Storage與Object Storage自動備份功能 提供高速儲存系統Auto-Tiering備份功能 搭配IBM Spectrum Protect for Space Management (HSM)
備份軟體
軟體服務架構
CPU Node GPU Node
SLES 12 SP3
KubernetesOpenStack
TensorFlow, Caffe, Torch, DIGITS
Slurm
Kube-
SchedulerNova Scheduler
Neutro
n
VM Docker / Nvidia-Docker
GPFSSES
CLI
API
ASUS Portal
M
P
I
Admin
Portal
F5 B
IG-I
P A
SM
Palo
Alto C
ontr
ol M
anager
SU
SE
Ad
min
Co
nso
leM
on
asca
/ G
rafa
na
IBM TSM
Singularit
y / Shifter
RGWNFS-Ganesha
Ubuntu 16.04Cent
OS 7
GPU
ContainerVM /
Container
RBD
Mellanox Cumulus / NSX-T IBEth
AI HPC
建立整合式統一使用者入口網站 提供計算服務網站,提供用戶 AI
計算、大資料計算及儲存管理服務。 支援Docker、Singularity與Shifter
等容器技術 透過Slurm 與Kubernetes 進行資源
管理 2 Zone設計,商用版OpenStack佔
90%、社群版OpenStack佔10% 採用VMWare NSX-T SDN技術 提供統一的自助式入口網站提供基礎架
構、應用、資料服務服務定義和可重複自動化工作流的標準化,保證資源控制和法規遵循及合規性,減少由於錯誤而導致的時間浪費
台灣GPU雲(TWGC)操作界面
10
具備金鑰管理
統一帳號(IAM)及帳單管理(Billing)
S3雲端儲存及隨需存取
採用NVIDIA優化之容器環境
多租戶共享運算環境與資料
自定連線安全群組服務
TWGC使用流程
11
TWGC
選擇GPU硬體配置
選擇優化之容器映像
輸入帳密等安全設定
點擊進入GPU容器
Enjoy
硬體配置1 GPU + 08 CPU + 060 GB RAM
2 GPU + 16 CPU + 120 GB RAM
4 GPU + 32 CPU + 240 GB RAM
8 GPU + 64 CPU + 480 GB RAM
資源/容器/帳密配置
12
容器環境-jupyter/tensorboard/nv-digits/etc
13
iService客戶服務系統
14
iservice
服務平台
用戶自助服務
線上訂購
服務開通
報表資訊
會員管理
帳務管理
Linux
多元會員註冊
註冊簡訊認證
單一帳號
租戶成員管理
母子錢包
主機OTP雙因子認證
TWCC
iService開源系統架構
15
TWCC
台灣杉主機使用訓練課程(9月份)
16https://edu.nchc.org.tw
敬請指導
行動與雲端運算應用 - wkb.idv.t · 雲端運算三層服務 將基礎架構視為服務(Infrastructure as a Service, IaaS) 企業可租用虛擬的作業環境 例如server,
以ITIL為基礎雲端運算服務品質評估機制之研究review.management.ntu.edu.tw/paper/1839-P.pdf以ITIL 為基礎雲端運算服務品質評估機制之研究 98 壹、緒論