nvidia tesla v100 gpu accelerator · 2019-02-21 · nvidia tesla v100 . gpu accelerator. 가장...
TRANSCRIPT
NVIDIA TESLA V100 GPU ACCELERATOR
가장 진보된 데이터 센터 GPUNVIDIA Tesla V100은 AI, HPC 및 Graphic 가속을 위해 개발된 세계에서 가장 진보 된 데이터 센터 GPU입니다. 최신 GPU 아키텍처인 NVIDIA Volta를 기반으로 한 Tesla V100은 단일 GPU에서 최대 100개의 CPU와 동일한 성능을 제공하므로 데이터 과학자, 연구원 및 엔지니어가 과거 불가능하다고 여겨지는 문제를 해결할 수 있습니다.
SPECIFICATIONS
Tesla V100PCle
Tesla V100SXM2
GPU Architecture NVIDIA Volta
NVIDIA Tensor Cores 640
NVIDIA CUDA® Cores 5,120
Double-Precision Performance 7 TFLOPS 7.8 TFLOPS
Single-Precision Performance 14 TFLOPS 15.7 TFLOPS
Tensor Performance 112 TFLOPS 125 TFLOPS
GPU Memory 32GB /16GB HBM2
Memory Bandwidth 900GB/sec
ECC Yes
Interconnect Bandwidth 32GB/sec 300GB/sec
System Interface PCIe Gen3 NVIDIA NVLink
Form Factor PCIe FullHeight/Length SXM2
Max Power Comsumption 250 W 300 W
Thermal Solution Passive
Compute APIs CUDA, DirectCompute,OpenCL™, OpenACC
TESLA V100 | DATA ShEET | MAR18
CPU Server: Dual Xeon Gold [email protected], GPU Servers: same CPU server w/ 4x V100 PCIe | CUDA Version: CUDA 9.x| Dataset: NAMD (STMV), GTC (mpi#proc.in), MILC (APEX Medium), SPECFEM3D (four_material_simple_model ) | To arrive at CPU node equivalence, we use measured benchmark with up to 8 CPU nodes. Then we use linear scaling to scale beyond 8 nodes.
1 GPU Node Replaces Up To 54 CPU NodesNode Replacement: HPC Mixed Workload
# of CPU-Only Nodes
Physics(GTC)
0 4020 60
Geo Science(SPECFEM3D)
Physics(MILC)
Life Science(NAMD)
14
17
32
54
Workload: ResNet-50 | CPU: 1X Xeon E5-2690v4 @ 2.6GHz | GPU: add 1X NVIDIA® Tesla® P100 or V100
Tesla V100
Tesla P100
1X CPU
0 20X 50X40X10X 30X
Performance Normalized to CPU
47X Higher Throughput than CPU Server on Deep Learning Inference
15X
47X
Time to Solution in HoursLower is Better
12 16840
8X V100
8X P10015.5 Hours
5.1 Hours
Server Config: Dual Xeon E5-2699 v4 2.6GHz | 8X Tesla P100 or V100 | ResNet-50 Training on MXNet for 90 Epochs with 1.28M ImageNet dataset.
Deep Learning Training in Less Than a Workday
© 2018 NVIDIA Corporation. All rights reserved. NVIDIA, the NVIDIA logo, Tesla, NVIDIA GPU Boost, CUDA, and NVIDIA Volta are trademarks and/or registered trademarks of NVIDIA Corporation in the U.S. and other countries. OpenCL is a trademark of Apple Inc. used under license to the Khronos Group Inc. All other trademarks and copyrights are the property of their respective owners. MAr18
To learn more about the Tesla V100 visit www.nvidia.com/v100
GROUNDBREAKING INNOVATIONSTENSOR CORE640 개의 Tensor 코어가 장착된 Tesla V100은 125 TeraFLOPS의 딥러능 성능을 제공합니다. 이는 Pascal GPU와 비교시, DL 트레이닝의 경우 12X Tensor FLOPS 및 DL 추론시 6X Tensor FLOPS입니다.
HBM2900GB/s의 개선된 대역폭과 95 %의 높은 DRAM 이용 효율을 결합한 Tesla V100은 Pascal GPU보다 STREAM 측정시 1.5배 더 높은 메모리 대역폭을 제공합니다. Tesla V100은 현재 표준 16GB 제품의 메모리를 두 배로 늘려 32GB 구성으로 제공됩니다.
VOLTA ARCHITECTURE통합아키텍처내에서 CUDA 코어와 Tensor 코어를 페어링함으로써 Tesla V100 GPU를 장착한 단일 서버는 기존의 HPC 및 Deep Learning을 위한 수백 개의 범용 CPU 서버를 대체 할 수 있습니다.
MAXIMUMEFFICIENCY MODE새로운 최대 효율 모드를 통해 데이터 센터는 기존 전력 예산 내에서 랙당 최대 40% 더 높은 컴퓨 팅 성능에 도달 할 수 있습니다. 이 모드에서 Tesla V100은 최대프로세스 효율로 동작되며, 절반의 전력 소비로 최대 80%의 성능을 제공합니다.
NEXT GENERATION NVLINK Tesla V100의 NVIDIA NVLink는 이전 세대에 비해 2배 높은 처리량을 제공합니다. 최대 8 개의 Tesla V100 가속기를 최대300GB/s로 상호 연결하여 단일 서버에서 가능한 최고의 응용 프로그램 성능을 발휘할 수 있습니다.
PROGRAMMABILITYTesla V100은 처음부터 프로그래밍 기능을 단순화하기 위해 설계되었습니다. 새로운 독립적인 스레드 스케줄링을 통해 finer-grain 동기화가 가능하며 소규모 작업간에 리소스를 공유함으로써 GPU 활용도가 향상되었습니다.
Tesla V100은 딥러닝, HPC 및 그래픽을위한 테슬라 데이터 센터 컴퓨팅 플랫폼의 주력 제품입니다. Tesla 플랫폼은 550 가지 이상의 HPC 애플리케이션과 모든 주요 학습 프레임 워크를 가속화합니다. 데스크톱에서 서버, 클라우드 서비스에 이르기까지 모든 곳에서 사용할 수 있으므로 성능이 크게 향상되고 비용을 절감 할 수 있습니다.
C
EVERY DEEP LEARNING FRAMEWORK 550+ GPU-ACCELERATED APPLICATIONS
HPC HPCAMBERAMBER ANSYS FluentANSYS Fluent
HPC GAUSSIANGAUSSIAN HPC GROMACSGROMACS
HPC HPCLS-DYNALS-DYNA NAMDNAMD
HPC HPCOpenFOAMOpenFOAMHPC HPC Simulia AbaqusSimulia Abaqus
VASPVASPHPC HPC WRFWRF