Download - エクサスケール計算とその要素技術としてのメモリアーキテクチャ

エクサスケール計算とその要素技術としてのメモリアーキテクチャ

東京大学情報理工学系研究科石井康雄

本日の発表内容

2012/03/162

2018 年のスーパーコンピュータ予測性能とアーキテクチャを紹介

アプリケーションとアーキテクチャメモリ性能と演算性能のバランスに関して

要素技術としてのメモリアーキテクチャ DRAM の制御に関する研究

エクサスケール計算に向けてアーキテクチャ検討

2011/10 からのアップデート

3 2012/03/16

エクサマシンの検討の前提 (2011/10)

2012/03/164

稼働時期 : 2018 年ごろ目標 : Linpack で 1EFLOPS

「京」の 100 倍の実効性能を目指す Linpack は定量的議論の土台として活用

電力 : 20MW ～ 30MW

総床面積 : 50m x 50m ( ラックで 1000本 )

価格 : ～ 500 億円

エクサマシンの検討の前提 (2012/03)

2012/03/165

稼働時期 : 2018 年ごろ目標 : サイエンスロードマップの達成

2020 年のロードマップから達成すべき目標を定義

おおよそ「京」の 100 倍の実効性能を目指す

電力 : 20MW ～ 30MW

総床面積 : 50m x 50m ( ラックで 1000 本 )

価格 : ～ 500 億円

2018 年の PC クラスタ性能予想(2011/10)

プロセッサ性能演算 : 3.0 TFLOPS メモリ : 96 GB, 300

GB/s B/F = 0.1

ネットワーク : 25 GB/s B/F = 0.01

電力 : 200W 価格 : 25 万円

システム性能演算 : 300 PFLOPS (10 万

CPU)

メモリ : 9.6 PB, 30.0 PB/s Bisection BW: 5.0 PB/s ラック数 : 400 電力 : 20MW (1EF で 80MW)

価格 : 250 億円 (1EF で 1000 億円 )

プロセッサ + メモリ / ノード(1 プロセッサ , 150W)

8 プロセッサ + ネットワーク / カード(8 プロセッサ , 1.5KW)

8 カード / シャーシ , 4 シャーシ / ラック(256 プロセッサ , 50KW)

400 ラック / システム(10 万プロセッサ , 20MW)

電力 20MW での最大構成例

2012/03/166

2018 年の PC クラスタ性能予想(2012/03)

プロセッサ性能演算 : 3.0 TFLOPS メモリ : 96300 GB, 300

GB/s B/F = 0.1

ネットワーク : 2532 GB/s B/F = 0.01

電力 : 200W 価格 : 25 万円

システム性能演算 : 300 PFLOPS (10 万

CPU)

メモリ : 9.630.0 PB, 30.0 PB/s

Bisection BW: 5.02.0 PB/s ラック数 : 400 電力 : 20MW (1EF で 80MW)

価格 : 250 億円 (1EF で 1000 億円 )

プロセッサ + メモリ / ノード(1 プロセッサ , 150W)

8 プロセッサ + ネットワーク / カード(8 プロセッサ , 1.5KW)

8 カード / シャーシ , 4 シャーシ / ラック(256 プロセッサ , 50KW)

400 ラック / システム(10 万プロセッサ , 20MW)

電力 20MW での最大構成例

2012/03/167

エクサスケール計算に向けてアプリケーションとアーキテクチャ

メモリと演算のバランスの観点から

8 2012/03/16

メモリシステムとスーパーコンピュータ

2012/03/169

メモリシステムは主要課題の１つ多様なメモリシステムが存在する

大容量・高帯域、小容量・低帯域メモリ性能と演算性能・電力・コストがトレードオフ

NEC SX-9 Fujitsu FX10 GRAPE-DR

アプリケーションとメモリシステム

2012/03/1610

メモリシステムはアプリにあわせて設計されるアプリケーションが多様な特性を持つ容量・帯域・アクセスパターン（連続・ストライド）

GDR

FX10x86

SX-9

メモリ容量

メモ

リ帯

域気象・地震

第一原理計算

N 体問題

大小

低

高

エクサの検討でのシステムの分類

2012/03/1611

メモリのバランス別に 4 つのシステムを検討

容量・帯域重視汎用型演算重視メモリ容量削減

オンチップメモリ ( 約 100MB/chip) を主記憶に利用

メモリを減らして演算器を増やす

バランスをとって多目的に利用

メモリ容量・帯域を増やしメモリ重視アプリを高速化

GRAPE-DRClearSpeed

PC クラスタ・京・ BG/Q など

NEC SX-9 該当計算機なし

演算器・コア

キャッシュ

メモリ I/F

DRAM

システム性能予測（演算・メモリに関して）

2012/03/1612

各構成でのシステム性能を予測 20MW ・ 2500m2 の制約下での予測

演算性能(PFlops)

メモリ帯域(PB/sec)

メモリ容量(PB)

汎用型 200 ～ 400 20 ～ 40 20 ～ 40 B/F = 0.1

容量・帯域 50 ～ 100 50 ～ 100 50 ～ 100 B/F = 1.0

演算重視 1000 ～2000

5 ～ 10 5 ～ 10 B/F = 0.005

容量削減 500 ～1000

250 ～500

0.1 ～ 0.2 B/F = 0.5

京 ( 参考 ) 10 5 1.2 B/F = 0.5

容量・帯域

汎用型

演算重視

容量削減

1.0E-3 1.0E-2 1.0E-1 1.0E+0 1.0E+1 1.0E+2 1.0E+31.0E-4

1.0E-3

1.0E-2

1.0E-1

1.0E+0

1.0E+1

要求メモリ容量 (PB)

要求

メモ

リ帯

域(B

/F)

アプリケーションの要求性能との相関

2012/03/1613

各アプリケーション毎に向いている計算機が存在していることがわかる

10,000 倍の差

1,000 倍の差

何故、バランスが変化したか

2012/03/1614

Weak Scaling （より細かいメッシュでの計算 ) メモリ容量 : 増加する１ステップあたりの計算時間 : 変わらない

N ノードで計算する場合、各ノードのメモリ帯域は同じ

Strong Scaling （より長い時間の計算）メモリ容量 : 変化なし１ステップあたりの計算時間 : 短縮する

各計算ノードは同じデータ量を短時間で読み書き

Strong Scaling のボトルネックと対策

2012/03/1615

メモリ帯域 ← 本日紹介の例巨大なオンチップメモリの採用

集合演算 ( 集約演算・同期など ) 専用 HW で 10 倍以上の高速化の可能性

通信レイテンシ強スケールのために <1us の通信が必要なアプ

リ通信方式の工夫で 1/10までは短縮可能

改善可能な点が多く、研究開発が必要

エクサスケール計算に関してまとめ

16

2018 年の計算機構成を検討アプリ毎のメモリ帯域・メモリ容量に関して調査調査結果に基づいて 4 つのアーキテクチャを検

討

各アーキテクチャとアプリをマッピング従来と異なる特性を示すアプリ

スケーリングから最適な構成が変化することもある「やりたい計算」が具体的ならば計算機は工夫

が出来る可能性が高まる 2012 年度には要素技術研究の予算がつく見込み

2012/03/16

エクサに向けたアーキテクチャ研究メモリシステム

17 2012/03/16

将来のスパコンに向けたメモリシステムの課題

2012/03/1618

課題性能 : 演算性能に対するメモリ帯域の低下電力 : DRAM/ キャッシュの電力が全体の約

30%

解決方法 ← 私の研究課題データプリフェッチによるレイテンシ隠蔽キャッシュ置換の改善による効率化 DRAM 制御の改善による性能向上と電力削減

Dynamic Random Access Memory

2012/03/1619

スパコンの主記憶は DRAM で構成される性能・電力・スケーラビリティの多くに関与

特徴単純な機能 ( 指定した場所のデータの読み書き ) 高速化のための複雑な制御

ＤＲＡＭData 0 Data 1

Data 2 Data 3

プロセッサ

Data

Ad

dr

#0

#2

#1

#3

Data 4 Data 5

Data 6 Data 7

#4

#6

#5

#7

Data

Addr

DRAM chip

DDR3 メモリのアーキテクチャ

2012/03/1620

メモリの記憶素子は行列の構造をとる行アクセスと列アクセスの 2段階アクセス行・列のペア (Bank) を持ち独立に動作する

DRAM cells

Row buffer

プロセッサ

Bank #0

プロセッサはRow buffer の

データにのみアクセス可能

DDR3 のメモリアクセス (Read) の例

2012/03/1621

3 フェーズでのリード処理 Activate(ACT) → Read(RD) →

Precharge(PRE)複数バンクを切り替えながらメモリアクセス ACT/RD/PRE の各操作が電力を消費

コマンドの回数を減らすことで電力削減が可能

ACT RD PRE

DATA

ACT RD

DATA

ACT RD

DATA

PRE

ACT→RD RD→PRE PRE→ACT

RD→DATA

アドレス

データDATA

ACT RD PRE ACT

隙間が残る

コマンド競合で次のコマンドが遅延

DRAM-Aware Prefetching

2012/03/1622

3 フェーズでのリード処理 ACT→RD の後に積極的にプリフェッチを出力

効果データパスの利用率改善による性能向上 ACT/PRE の回数削減による電力改善データプリフェッチによる性能改善

アドレス

データ

ACT RD

DATA DATA

ACT RDACT RD

プリフェッチを出力すぐに PRE しない

PRE

DATA

ACT

DATA

PRERDPRE RD

メモリスケジューリングの効果

2012/03/1623

帯域の改善などで性能が 13% 向上電力は 3.1% の削減

データ転送が増加したため RD/WR が 25% 増加 ACT/PRE の回数は 28% 削減

Baseline Proposed0.0

0.2

0.4

0.6

0.8

1.0

1.2 Background RD/WR ACT/PRE

Baseline Proposed0.0

0.2

0.4

0.6

0.8

1.0

1.2 Performance

要素技術研究の成果特に性能競争の激しい分野

JILP Computer Architecture Competitions (JWAC)

テーマメモリ ( キャッシュ置換・プリフェッチ ) パイプライン制御 ( 分岐予測 ) DRAM 制御 ← 今年開催予定

過去優勝者 Andre Seznec (Alpha architect) Gao Honliang (Intel x86 architect)

24 2012/03/16

まとめエクサスケールシステムの検討

2011 年 10月から継続検討

ターゲットアプリケーションの解析検討のベースとする 4 つのアーキテクチャを提示

スケーリングと最適アーキテクチャの変化

要素技術としてメモリアーキテクチャの研究低下する B/F の性能への影響を DRAM 制御の改善で最小限に抑える

25 2012/03/16

ご清聴ありがとうございました

明日、ポスター発表も行います

本発表はメモリにフォーカスしていますが、ネットワーク・ストレージの話もWelcome です

26 2012/03/16

Download - エクサスケール計算と その要素技術としてのメモリアーキテクチャ

Top Related

Download - エクサスケール計算とその要素技術としてのメモリアーキテクチャ