necスーパーコンピュータ ~現在と今後necスーパーコンピュータ...

28
NECスーパーコンピュータ ~ 現在と今後 NECスーパーコンピュータ ~ 現在と今後 NEC C&Cシステム SP研究会 13320141111NEC ITプラットフォーム事業部 第三サーバ統括部 愛野 茂幸

Upload: others

Post on 25-Jan-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

NECスーパーコンピュータ

~ 現在と今後

NECスーパーコンピュータ

~ 現在と今後

NEC C&Cシステム SP研究会 第133回

2014年11月11日

NEC ITプラットフォーム事業部 第三サーバ統括部

愛野 茂幸

NECのHPC製品

nアプリケーション特性に応じて、最適なプラットフォームをお客様にご提供

計算密度

メモリーアクセス密度

多体問題、天体

化学系

物性、ナノ物理

気象・気候流 体

アクセラレータ系が適している領域

粒子系

電磁場

HPCクラスタソリューション

ベクトルが適している領域

ベクトル型スーパーコンピュータ

Page 2 © NEC Corporation 2014

SXシリーズのロードマップと技術の進化

Perf

orm

ance

1990 2000 2010

SX-1/2

SX-3

SX-4

SX-5SX-6

製品発表

(2013年11月)

SX-8/8R

SX-9

バイポーラ水冷

マルチノードCMOS空冷

1チップベクトルプロセッサ

3Dノードモジュール

マルチコアAll in One ChipECOスパコン

SX-7100GF

プロセッサ

ES

ES2

分散並列化(MPI-SX)

100+ノードクラスタ対応

1000+ノードクラスタ対応

自動ベクトル化コンパイラ

マルチレーンIXS対応MPI

自動共有並列化SUPER-UX

NECは一貫して、ベクトルアーキテクチャに基づくスーパーコンピュータSXにより、高い実効性能をご提供しています

Page 3 © NEC Corporation 2014

SX-ACEの特長

低消費電力スパコン世界トップクラスの省エネスパコン

省スペーススパコンお客様フロアコストの削減

高実効性能スパコン世界トップクラスのCPUコア性能(64GFLOPS)世界トップクラスのメモリバンド幅(64GB/s)

従来機比同演算性能で

110

従来機比同演算性能で

15

SX-DNAの継承

SXのDNA である「実アプリケーションでの高い実効性能」を継承しつつ、低消費電力化、省スペース化を実現

© NEC Corporation 2014Page 4

CPUアーキテクチャ(ビッグコア、高メモリバンド幅)

core core core

RCURCU

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

MC

クロスバ

ADB(Assignable Data Buffer)

SPU VPU

256GB/s

256GB/s

256GB/s

256GB/s

8GB/s x2

8GB/s x2

メモリ (DDR3)

インターコネクト

CPUアーキテクチャ ベクトル型

コアの仕様

性能 64GFlops

ADB容量 1MB

ADBバンド幅 256GB/s

メモリバンド幅 64~256GB/s

Byte/Flop 1.0 ~ 4.0

CPUの仕様

コア数 4

性能 256GFlops

メモリバンド幅 256GB/s

Byte/Flop 1.0

ベクトル処理部

スカラ処理部

リモートアクセス制御部

メモリ制御部

Page 5 © NEC Corporation 2014

n メモリアクセス効率優先のレイアウト

n 仕様lデザインルール: 28nmlクロック周波数: 1GHzl基板サイズ:

23.05 x 24.75mmlトランジスタ数: 20億

n インターフェイスlDDR3 x 16ch.lIXSlPCIe x8 x2ch.

CORE1CORE1

DDR3DDR3

DDR3DDR3

DDR3DDR3

DDR3DDR3

DDR3DDR3

DDR3DDR3

DDR3DDR3

DDR3DDR3

ADBADB

CORE0CORE0

ADBADB

ADBADB ADBADB

CORE2CORE2 CORE3CORE3

CrossbarCrossbar

PCIEPCIE

I/O padsI/O pads

PLLPLL RCURCU IXSIXS

DDR3DDR3

DDR3DDR3

DDR3DDR3

DDR3DDR3

DDR3DDR3

DDR3DDR3

DDR3DDR3

DDR3DDR3 SX-9 CPUのLSIに対して5.5倍の集積度を実現

CPUレイアウト

Page 6 © NEC Corporation 2014

ノードカード

11cm

37cmメモリ制御部

超高帯域メモリ転送

256GB/sバンド幅制御

世界最高のバンド幅 256GB/s

オールインワンプロセッサ

memory

CPUコア

ネットワーク制御部

I/O制御部

世界トップレベルのCPUコア64GF x 4コア1MB ADB/コア

8GB/s(1方向当り), Fat-tree

ストレージ装置、イーサネット等へ接続

n4つのCPUコア、メモリ・I/O・ネットワークの制御部を単一LSIに搭載するオールインワンプロセッサ化。大幅な省電力化を実現nコンパクトな基板設計による省スペース

演算性能: 256GFメモリバンド幅: 256GB/s

省電力化を実現するオールインワンプロセッサ

Page 7 © NEC Corporation 2014

V V

MemoryMemory

HPC CacheHPC Cache

SX-ACEベクトル演算方式による高電力効率

HPC専用キャッシュ

(ソフト制御)

高バンド幅・高B/F

ノード・アーキテクチャノード・アーキテクチャ

気象・気候/流体アプリに適した演算性能とメモリバンド幅バランスを提供気象・気候/流体アプリに適した演算性能とメモリバンド幅バランスを提供

S SCacheCache

MemoryMemory

V V

MemoryMemory

スカラ(x86, Power, etc)

SX

Memory wall + Power wall

Small for HPCNarrow for HPC

© NEC Corporation 2014Page 8

高実効性能を支持するADB高実効性能を支持するADB

実効

性能

[GF]

SX-ACEHPC専用設計キャッシュ(ADB)再利用性の高いデータのみを格納し、キャッシュの高利用効率を実現V V

MemoryMemory

ADB(Cache)ADB(Cache)

HPC専用設計キャッシュ(ADB) + 高メモリバンド幅高実効性能を維持しつつ、メモリウォールを打破

Scalar(x86 etc.)

高メモリバンド幅キャッシュに収まりきらない大規模データにおいても、高速なメモリアクセスを実現

ADBtune

データサイズ

© NEC Corporation 2014Page 9

設置面積 1/5消費電力 1/10

同一性能(131TF)でのシステム諸元比較

省電力設計とコンパクトな実装によって、SX-9比で設置面積を5分の1、消費電力を10分の1に削減

省スペース/省電力

12m

24m

8m

7m

131TF288m2

2.4MW

131TF56m2

0.24MW

SX-9 SX-ACE

25mプールの大きさ 会議室の大きさ

80ノード 512ノード

Page 10 © NEC Corporation 2014

コンパクトな設計仕様

メモリネットワークスイッチ (LSI数 32)

メモリ制御部 (LSI 512個)RAM

プリント配線

CPU (LSI数 16、 コア数 16)

ケーブル

SX-9 1ノード 1.6TF

n オールインワンプロセッサの採用により、SXシリーズのDNAである高性能を継承しつつ、LSI数を100分の1に削減

n 省電力、省スペースを実現

LSI数 56030KW

電力

の70

%以

上が

メモ

リネ

ットワ

ーク

メモリ

6LSI2.8KW

SX-ACE 6ノード 1.5TF

SXDNA

高い電力効率

LSI数を1/100に削減

高性能を維持

Page 11 © NEC Corporation 2014

ノード筐体構造ノード筐体構造

オールインワンプロセッサ、コンパクト設計により、SX-9の半分以下のラックサイズで、10倍の演算性能を実現

CPU部は水冷。システムとしては、空冷+水冷のハイブリッド冷却

SX-ACE64ノード256コア16TF4TB

SX-91ノード16コア1.6TF1TB

1.8m

1.1m

1.8m

0.75m

1.5m

2m

© NEC Corporation 2014Page 12

SX-ACEの構成SX-ACEの構成

ノードカード1CPU, 256GF, 256GB/s

2ノードモジュール2 nodes = 2 CPUs

16ノードケージ8 modules = 16 nodes = 16 CPUs

ラック

64 nodes = 16TF, 16TB/s

システム

ラックの仕様16TF, 16TB/s, 64 CPUs0.75m x 1.5m x 2.0m30KW

16ノードケージ x44 cages = 32 modules = 64 nodes = 64CPUs

© NEC Corporation 2014Page 13

クラスタ構成(512ノードモデル)

システム構成: 131TFLOPS (8ラック=計512ノード、2,048ベクトルコア)高実効性能コア、超高速インターコネクトにより、高スケーラビリティを提供

memory

core core

core core memory

core core

core core

memory

core core

core core

4GB/s x2(双方向)

512ノード /8ラック

memory

core core

core core

IXS (専用インターコネクト)集団通信

高速化機構

・ ノ ー ド 数 :

・ コ ア 数 :

・ 演算性能:

・ メ モ リ B W :

・メモリ容量:

512

2,048

131TF

131TB/s

32TB64ノード×8ラック=512ノード

IXS

© NEC Corporation 2014Page 14

アーキテクチャの工夫・改善による性能強化アーキテクチャの工夫・改善による性能強化

n 短ベクトル性能・リストベクトル性能を強化n 実効メモリ帯域向上のための新機能

短ベクトル性能評価短ベクトル性能評価

ベクトル命令発行能力強化

ベクトル演算器間バイパスパス強化

リストベクトル性能強化リストベクトル性能強化

メモリレイテンシ短縮

命令追い越し制御強化

実効メモリ帯域強化実効メモリ帯域強化ADBADB容量拡張

冗長なメモリロードの回避 (MSHR)冗長なメモリストアの回避 (store merge)

CPU

Page 15 © NEC Corporation 2014

気象予報プログラムの中核処理 (ルジャンドル陪関数の計算)SX-ACE 1コア/SX-9 1CPU性能比で1.8倍の性能向上を実現

【例】

06: +------> DO K = 1, L31: |+-----> DO J = 1, M32: ||V----> DO i = 1, N33: ||| X( i, K ) = X( i,K ) &34: ||| & + A( i,J ) * B( C(i),J ) &35: ||| & + A( i,J+1 ) * B( C(i),J+1 ) &36: ||| & + A( i,J+2 ) * B( C(i),J+2 ) &37: ||| & + A( i,J+3 ) * B( C(i),J+3 ) &・・・72: ||| & + A( i,J+38) * B( C(i),J+38) &73: ||| & + A( i,J+39) * B( C(i),J+39)74: ||V---- ENDDO75: |+----- ENDDO76: +------ ENDDO

SX-9(1CPU)

SX-ACE(1core)

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

1.8倍

SX-ACE/SX-9 性能比較(SX-9性能で正規化)

SX-9 SX-ACE 性能比

Peak性能 102.4GF 64GF 0.63

性能向上(例)

n ADB、メモリレイテンシ短縮、命令追い越し機能強化等によりリストベクトル性能が向上

Page 16 © NEC Corporation 2014

Page 17

CPU

コア

メモリNW

・・・

コア

コア コア

メモリ制御×16

DRAM

CPU

コア

メモリNW

・・・

コア

コア コア

メモリ制御×16

DRAM

ソフトウエア制御

l 1コア単位で動的に切離 (休止状態)

l 休止状態のコアのみ再初期化して、組み込み

HWによる動的な資源制御を実現

(Node#)

#1

#3

#5

#7

#2

#4

#6

#8

Job

Job

Job

Job

Job

Job

Job

(time)

n 運用中ノードも常時省電力ジョブ実行予定がない運用中ノードの稼働コア数を制御(休止)して省電力化

l 稼働コア数自動変更(4→1)l ジョブ実行開始予定前に復帰

省エネスパコンを更に省エネ運用

n 消費電力のマニュアル調整即時または、実行中ジョブの終了を待って指定稼働数上限まで運用ノードを停止

l 最短で終了する実行中ジョブの終了を待って稼働上限数変更(8→6)

© NEC Corporation 2014

小規模モデル SX-ACE Lite (16ノード/32ノード構成)小規模モデル SX-ACE Lite (16ノード/32ノード構成)

▌モデル構成l16ノード、及び32ノード

▌ラックlSX-ACE標準ラックに搭載

lWxDxH = 0.75m x 1.5m x 2.0m

▌オールインワンラックlノード部・ネットワーク部等の全機能を

1ラックに搭載

▌空冷環境動作lラジエータをラック内に搭載することにより、水冷設備不要で空冷環境により動作

16ノードモデル 32ノードモデル

16 nodes 16 nodes

16 nodes

IXSIXS

RadiatorRadiator

10KVA 18KVA

16、32ノード構成による小規模モデルSX-ACEの1ラックにノード部・インターコネクト部・ラジエータ部等の

全コンポーネントを実装し、空冷環境で動作

Page 18 © NEC Corporation 2014

スカラクラスタフロントエンド

ソフトウェア開発環境

分散共有ファイルシステム

統合スケジューラ

演算処理

データ処理 前・後処理

ベクトル,スカラ処理・連成利用

n高い実効性能のアプリケーション開発を支援するソフトウェア開発環境nシステム全体でデータ共有を可能とする分散共有ファイルシステムnクラスタ、サーバ群を有機的に統合(容易に適所利用を可能に)する統合スケジューラ

大規模な科学技術計算に最適なシステム環境を実現

大容量・高速・高信頼

シングルシステム

高い実効性能のアプリケーション

システムソフトウェアの特長

SX-ACEクラスタ

Page 19 © NEC Corporation 2014

20

次世代のベクトル型スーパーコンピュータ次世代のベクトル型スーパーコンピュータ

Page 21 © NEC Corporation 2014

バイポーラ水冷

バイポーラ水冷

次世代ベクトル型スーパーコンピュータの開発に着手

ハードウェアの進化

ソフトウェアの進化

SX-1/2(1983年発売)から9世代

最新機種SX-ACEを2014年7月出荷Aurora

Perf

orm

ance

1990 2000 2010

SX-1/2

SX-3

SX-4SX-5

SX-6

SX-8/8R

SX-9

自動共有並列化SUPER-UX

自動共有並列化SUPER-UX

分散並列化(MPI-SX)分散並列化(MPI-SX)

マルチノードCMOS空冷

マルチノードCMOS空冷

1チップベクトルプロセッサ

1チップベクトルプロセッサ

3Dノードモジュール3Dノード

モジュール

マルチコアAll in One ChipECOスパコン

マルチコアAll in One ChipECOスパコン

SX-7

ES2

100GFプロセッサ100GF

プロセッサ

自動ベクトル化コンパイラ

自動ベクトル化コンパイラ

マルチレーンIXS対応MPIマルチレーンIXS対応MPI

100ノード超クラスタ対応100ノード超クラスタ対応

ES

SX-ACE

スーパーコンピュータSX-ACEの後継機となる次世代機(開発プロジェクト名:Aurora)を2017年に発売予定

次期プロセッサ・システムのコンセプト

SX-1/2SX-3

SX-4SX-5 SX-6

SX-7 SX-8SX-9

SX-ACE

NEXT

n アプリケーション実行における高い実効性能(SXのDNA継承)• 高いコア性能、高いメモリ帯域を維持しつつ、アーキテクチャを刷新

n 使いやすいシステム• プログラミングの容易性(SXの従来資産はリコンパイルで動作)• 容易なチューニング• 定評あるSXシステムソフトウェア(コンパイラ、スケジューラ等)

n マーケット領域の拡大• スパコン領域は主ターゲットとして継続

(研究室、民間レベルにも展開)• 社会インフラを支えるべく領域を拡大

Page 22 © NEC Corporation 2014

Page 23

アプリケーション要求性能とプロセッサトレンド

nアプリケーション性能特性は、演算重視型からメモリ重視型まで多様nスカラCPUのByte/Flopは0.2前後と低く、将来はさらに低下傾向nスカラCPUでは、効率よく実行できないアプリケーション領域が拡大

スカラCPUが得意な領域演算密度が高く、理論演算性能を必要とする領域 (B/Fは要しない領域)

ベクトルCPUが得意な領域メモリ帯域と演算性能の比率(B/F)の

高いプロセッサを必要とする領域

現在のスカラCPUのByte/FlopスカラCPU

トレンド

© NEC Corporation 2014

NECの目指す方向性 ~ 高メモリバンド幅を要する領域

low

highlow

high

メモリバンド幅/core

演算性能/core

NECの主要ターゲット領域

n汎用CPUは、“メモリ帯域よりも処理スループット重視”の方向性(本質的には、オンライン・トランズアクションなどビジネス向けに適合)nNECは、高いコア性能と高メモリ帯域のHPC向けプロセッサを目指す

Page 24 © NEC Corporation 2014

▌民間企業、研究室単位で導入可能な小型・低価格モデルを準備

▌柔軟なシステム構成により、様々な要件にも対応可能

スケーラブルな構成で小規模~大規模まで対応

HPC市場 研究者プログラム開発・実行

研究室プログラム開発・実行

計算センタ・気象サイトなど大規模プログラムの実行

システム価格システム価格

シス

テム

性能

シス

テム

性能

エントリモデル

ラックモデル

データセンターモデル

スパコン領域

サーバ領域

領域を拡大

システムイメージ

Page 25 © NEC Corporation 2014

Page 26 © NEC Corporation 2014

ビッグデータ領域への展開

新サービス・ビジネス創出、社会の高度化・安定化

流通 金融 安全 資源 環境

ビッグデータ時代の到来で、⼤量データを⼀括処理するベクトル技術の重要性が高まる

Auroraではビッグデータ領域にも展開

SX-1/2 SX-3 SX-ACE Aurora

スーパーコンピュータ製品

ビッグデータ解析製品

未来に向かい、人が生きる、豊かに生きるために欠かせないもの。

それは「安全」「安心」「効率」「公平」という価値が実現された社会です。

NECは、ネットワーク技術とコンピューティング技術をあわせ持つ類のないインテグレーターとして

リーダーシップを発揮し、卓越した技術とさまざまな知見やアイデアを融合することで、

世界の国々や地域の人々と協奏しながら、

明るく希望に満ちた暮らしと社会を実現し、未来につなげていきます。