Download - エクサスケール計算と その要素技術としてのメモリアーキテクチャ
エクサスケール計算とその要素技術としてのメモリアーキテクチャ
東京大学 情報理工学系研究科 石井康雄
本日の発表内容
2012/03/162
2018 年のスーパーコンピュータ 予測性能とアーキテクチャを紹介
アプリケーションとアーキテクチャ メモリ性能と演算性能のバランスに関して
要素技術としてのメモリアーキテクチャ DRAM の制御に関する研究
エクサスケール計算に向けてアーキテクチャ検討
2011/10 からのアップデート
3 2012/03/16
エクサマシンの検討の前提 (2011/10)
2012/03/164
稼働時期 : 2018 年ごろ 目標 : Linpack で 1EFLOPS
「京」の 100 倍の実効性能を目指す Linpack は定量的議論の土台として活用
電力 : 20MW ~ 30MW
総床面積 : 50m x 50m ( ラックで 1000本 )
価格 : ~ 500 億円
エクサマシンの検討の前提 (2012/03)
2012/03/165
稼働時期 : 2018 年ごろ 目標 : サイエンスロードマップの達成
2020 年のロードマップから達成すべき目標を定義
おおよそ「京」の 100 倍の実効性能を目指す
電力 : 20MW ~ 30MW
総床面積 : 50m x 50m ( ラックで 1000 本 )
価格 : ~ 500 億円
2018 年の PC クラスタ性能予想(2011/10)
プロセッサ性能 演算 : 3.0 TFLOPS メモリ : 96 GB, 300
GB/s B/F = 0.1
ネットワーク : 25 GB/s B/F = 0.01
電力 : 200W 価格 : 25 万円
システム性能 演算 : 300 PFLOPS (10 万
CPU)
メモリ : 9.6 PB, 30.0 PB/s Bisection BW: 5.0 PB/s ラック数 : 400 電力 : 20MW (1EF で 80MW)
価格 : 250 億円 (1EF で 1000 億円 )
プロセッサ + メモリ / ノード(1 プロセッサ , 150W)
8 プロセッサ + ネットワーク / カード(8 プロセッサ , 1.5KW)
8 カード / シャーシ , 4 シャーシ / ラック(256 プロセッサ , 50KW)
400 ラック / システム(10 万プロセッサ , 20MW)
電力 20MW での最大構成例
2012/03/166
2018 年の PC クラスタ性能予想(2012/03)
プロセッサ性能 演算 : 3.0 TFLOPS メモリ : 96300 GB, 300
GB/s B/F = 0.1
ネットワーク : 2532 GB/s B/F = 0.01
電力 : 200W 価格 : 25 万円
システム性能 演算 : 300 PFLOPS (10 万
CPU)
メモリ : 9.630.0 PB, 30.0 PB/s
Bisection BW: 5.02.0 PB/s ラック数 : 400 電力 : 20MW (1EF で 80MW)
価格 : 250 億円 (1EF で 1000 億円 )
プロセッサ + メモリ / ノード(1 プロセッサ , 150W)
8 プロセッサ + ネットワーク / カード(8 プロセッサ , 1.5KW)
8 カード / シャーシ , 4 シャーシ / ラック(256 プロセッサ , 50KW)
400 ラック / システム(10 万プロセッサ , 20MW)
電力 20MW での最大構成例
2012/03/167
エクサスケール計算に向けてアプリケーションとアーキテクチャ
メモリと演算のバランスの観点から
8 2012/03/16
メモリシステムとスーパーコンピュータ
2012/03/169
メモリシステムは主要課題の1つ 多様なメモリシステムが存在する
大容量・高帯域、小容量・低帯域 メモリ性能と演算性能・電力・コストがトレードオフ
NEC SX-9 Fujitsu FX10 GRAPE-DR
アプリケーションとメモリシステム
2012/03/1610
メモリシステムはアプリにあわせて設計される アプリケーションが多様な特性を持つ 容量・帯域・アクセスパターン(連続・ストライド)
GDR
FX10x86
SX-9
メモリ容量
メモ
リ帯
域気象・地震
第一原理計算
N 体問題
大小
低
高
エクサの検討でのシステムの分類
2012/03/1611
メモリのバランス別に 4 つのシステムを検討
容量・帯域重視 汎用型 演算重視 メモリ容量削減
オンチップメモリ ( 約 100MB/chip) を主記憶に利用
メモリを減らして演算器を増やす
バランスをとって多目的に利用
メモリ容量・帯域を増やしメモリ重視アプリを高速化
GRAPE-DRClearSpeed
PC クラスタ・京・ BG/Q など
NEC SX-9 該当計算機なし
演算器・コア
キャッシュ
メモリ I/F
DRAM
システム性能予測(演算・メモリに関して)
2012/03/1612
各構成でのシステム性能を予測 20MW ・ 2500m2 の制約下での予測
演算性能(PFlops)
メモリ帯域(PB/sec)
メモリ容量(PB)
汎用型 200 ~ 400 20 ~ 40 20 ~ 40 B/F = 0.1
容量・帯域 50 ~ 100 50 ~ 100 50 ~ 100 B/F = 1.0
演算重視 1000 ~2000
5 ~ 10 5 ~ 10 B/F = 0.005
容量削減 500 ~1000
250 ~500
0.1 ~ 0.2 B/F = 0.5
京 ( 参考 ) 10 5 1.2 B/F = 0.5
容量・帯域
汎用型
演算重視
容量削減
1.0E-3 1.0E-2 1.0E-1 1.0E+0 1.0E+1 1.0E+2 1.0E+31.0E-4
1.0E-3
1.0E-2
1.0E-1
1.0E+0
1.0E+1
要求メモリ容量 (PB)
要求
メモ
リ帯
域(B
/F)
アプリケーションの要求性能との相関
2012/03/1613
各アプリケーション毎に向いている計算機が存在していることがわかる
10,000 倍の差
1,000 倍の差
何故、バランスが変化したか
2012/03/1614
Weak Scaling (より細かいメッシュでの計算 ) メモリ容量 : 増加する 1ステップあたりの計算時間 : 変わらない
N ノードで計算する場合、各ノードのメモリ帯域は同じ
Strong Scaling (より長い時間の計算) メモリ容量 : 変化なし 1ステップあたりの計算時間 : 短縮する
各計算ノードは同じデータ量を短時間で読み書き
Strong Scaling のボトルネックと対策
2012/03/1615
メモリ帯域 ← 本日紹介の例 巨大なオンチップメモリの採用
集合演算 ( 集約演算・同期など ) 専用 HW で 10 倍以上の高速化の可能性
通信レイテンシ 強スケールのために <1us の通信が必要なアプ
リ 通信方式の工夫で 1/10までは短縮可能
改善可能な点が多く、研究開発が必要
エクサスケール計算に関してまとめ
16
2018 年の計算機構成を検討 アプリ毎のメモリ帯域・メモリ容量に関して調査調査結果に基づいて 4 つのアーキテクチャを検
討
各アーキテクチャとアプリをマッピング従来と異なる特性を示すアプリ
スケーリングから最適な構成が変化することもある 「やりたい計算」が具体的ならば計算機は工夫
が出来る可能性が高まる 2012 年度には要素技術研究の予算がつく見込み
2012/03/16
エクサに向けたアーキテクチャ研究メモリシステム
17 2012/03/16
将来のスパコンに向けたメモリシステムの課題
2012/03/1618
課題 性能 : 演算性能に対するメモリ帯域の低下 電力 : DRAM/ キャッシュの電力が全体の約
30%
解決方法 ← 私の研究課題 データプリフェッチによるレイテンシ隠蔽 キャッシュ置換の改善による効率化 DRAM 制御の改善による性能向上と電力削減
Dynamic Random Access Memory
2012/03/1619
スパコンの主記憶は DRAM で構成される 性能・電力・スケーラビリティの多くに関与
特徴単純な機能 ( 指定した場所のデータの読み書き ) 高速化のための複雑な制御
DRAMData 0 Data 1
Data 2 Data 3
プロセッサ
Data
Ad
dr
#0
#2
#1
#3
Data 4 Data 5
Data 6 Data 7
#4
#6
#5
#7
Data
Addr
DRAM chip
DDR3 メモリのアーキテクチャ
2012/03/1620
メモリの記憶素子は行列の構造をとる行アクセスと列アクセスの 2段階アクセス行・列のペア (Bank) を持ち独立に動作する
DRAM cells
Row buffer
プロセッサ
Bank #0
プロセッサはRow buffer の
データにのみアクセス可能
DDR3 のメモリアクセス (Read) の例
2012/03/1621
3 フェーズでのリード処理 Activate(ACT) → Read(RD) →
Precharge(PRE)複数バンクを切り替えながらメモリアクセス ACT/RD/PRE の各操作が電力を消費
コマンドの回数を減らすことで電力削減が可能
ACT RD PRE
DATA
ACT RD
DATA
ACT RD
DATA
PRE
ACT→RD RD→PRE PRE→ACT
RD→DATA
アドレス
データDATA
ACT RD PRE ACT
隙間が残る
コマンド競合で次のコマンドが遅延
DRAM-Aware Prefetching
2012/03/1622
3 フェーズでのリード処理 ACT→RD の後に積極的にプリフェッチを出力
効果 データパスの利用率改善による性能向上 ACT/PRE の回数削減による電力改善 データプリフェッチによる性能改善
アドレス
データ
ACT RD
DATA DATA
ACT RDACT RD
プリフェッチを出力すぐに PRE しない
PRE
DATA
ACT
DATA
PRERDPRE RD
メモリスケジューリングの効果
2012/03/1623
帯域の改善などで性能が 13% 向上 電力は 3.1% の削減
データ転送が増加したため RD/WR が 25% 増加 ACT/PRE の回数は 28% 削減
Baseline Proposed0.0
0.2
0.4
0.6
0.8
1.0
1.2 Background RD/WR ACT/PRE
Baseline Proposed0.0
0.2
0.4
0.6
0.8
1.0
1.2 Performance
要素技術研究の成果 特に性能競争の激しい分野
JILP Computer Architecture Competitions (JWAC)
テーマ メモリ ( キャッシュ置換・プリフェッチ ) パイプライン制御 ( 分岐予測 ) DRAM 制御 ← 今年開催予定
過去優勝者 Andre Seznec (Alpha architect) Gao Honliang (Intel x86 architect)
24 2012/03/16
まとめ エクサスケールシステムの検討
2011 年 10月から継続検討
ターゲットアプリケーションの解析 検討のベースとする 4 つのアーキテクチャを提示
スケーリングと最適アーキテクチャの変化
要素技術としてメモリアーキテクチャの研究 低下する B/F の性能への影響を DRAM 制御の改善で最小限に抑える
25 2012/03/16
ご清聴ありがとうございました
明日、ポスター発表も行います
本発表はメモリにフォーカスしていますが、ネットワーク・ストレージの話もWelcome です
26 2012/03/16