network performance of multifunction on-chip router architectures (ieice-cpsy 12…
DESCRIPTION
2012-11-27 IEICE CPSY @FukuokaTRANSCRIPT
Network Performance of Multifunction On-chip Router Architectures
高前田(山崎) 伸也†‡,藤枝 直輝†,吉瀬 謙二† †東京工業大学 大学院情報理工学研究科
‡日本学術振興会 特別研究員 (DC1)
2012年11月27日 CPSY研究会(デザインガイア)@福岡
マルチコアからメニーコアへ
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 2
Intel Corei7 3770K (4-core, x86)
ARM Cortex-A15 (4-core, ARM)
TILERA TILE-Gx100
(100-core, MIPS) Intel Xeon Phi (54-core, x86)
現在の主流: 1チップに2コア~8コア (マルチコア)
将来: 1チップに多数(16~)のコア (メニーコア)
ネットワーク・オン・チップ (NoC)
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 3
メニーコアで高性能・低消費電力化を達成するには 低レイテンシ・高スループットな要素間の接続が必要
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
Network on Chip (NoC) PE 計算コア R オンチップルータ
オンチップルータがPE間の パケット(データの塊)を宛先へ 順々に転送 ü 通信の衝突の軽減 →低レイテンシ →高スループット
ü 高いスケーラビリティ →多くのコアを接続して高性能
メニーコアへの課題:信頼性
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 4
トランジスタの微細化により より多くのトランジスタが集積される 信頼性への懸念 ü ソフトエラーへの耐性の低下 宇宙線がトランジスタに当たり 値が変化(ビット反転)
ü タイミングエラーへの耐性の低下 トランジスタのばらつきの増加による 信号伝搬のタイミング違反
高い信頼性を実現する技術が必要
SmartCoreシステム: NoCベースの二重実行手法
Nov 27 2012 Normal Communication (VC0) Merge Communication (VC1) Copy Communication (VC2)
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
Master A
Slave A
Slave B
R
PE
R
PE
R
PE
Master B
待ち合わせ 比較
複製
2つのコアのペア(Master/Slave)が同じスレッドを実行 Slaveが出力するパケット列は Master側のルータへ転送 出力されるパケット列を 高機能ルータで待ち合わせ, 比較し,エラーを検出 エラーを検出したら再実行 Masterへのパケットは Slaveへと複製される ペアは同一のパケット列を 受信して実行を継続
Shinya Takamaeda-Y. Tokyo Tech 5
高機能ルータの支援によりプログラムの実行を二重化 (DMR)
SmartCoreシステムのメリット n チップ中の任意のコアで冗長実行のペアを形成
l Nonstop[DSN’05]などのLockstep系ではペアの配置に制限
n コア数に対してスケーラブル l Configurable Isolation[ISCA’07]ではバスをぶった切る
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 6
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
R
PE
Master A
Slave A
Slave B
R
PE
R
PE
R
PE
Master B
待ち合わせ 比較
複製
Configurable Isolation SmartCore System
本発表の目標
n 高機能ルータにどのようなマイクロアーキテクチャを 採用すれば良いのだろうか? l パケット待ち合わせ・比較のオーバーヘッドは小さくしたい l 回路面積の増加も小さく抑えたい l 高機能ルータの機能要件
ü パケットの待ち合わせ ü パケットの比較 ü パケットのコピー
n 本発表では2つのマイクロアーキテクチャを比較・評価 l (a) Minimal Multifunction Router l (b) Advanced Multifunction Router
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 7
(a) Minimal Multifunction Router
Nov 27 2012
XBAR
Arbiter
N
E
S
W
PE
N
E
S
W
PE ID ID ID
ID
CMP Error? Compare Buffer
ID Translator
Comparator
Node Type Pair ID VC0 VC1 VC2 VC0 VC1 VC2 VC0 VC1 VC2 VC0 VC1 VC2
VC0 VC1 VC2
(Copy Buffer)
Shinya Takamaeda-Y. Tokyo Tech 8
(b) Advanced Multifunction Router
Nov 27 2012
XBAR
Arbiter
N
E
S
W
PE
N
E
S
W
PE ID ID ID
ID
CMP Error? Compare Buffer
ID Translator Comparator
Node Type Pair ID
Copy Buffer
VC0 VC1 VC2
Shinya Takamaeda-Y. Tokyo Tech 9
共通する特徴
n いくつかの追加ハードウェア l ID translator
• パケットの宛先を変更する:宛先ビットベクターを書き換え l Compare buffer
• Slaveからのパケットと比較用にMaster PEからのパケットを保存 l Comparator
• 2つのフリットの内容を比較
n Copy bufferによるパケットのコピー l Masterへ届いたパケットはそのSlaveへもコピー l 実際のCopy bufferのインスタンスの形は マイクロアーキテクチャに依存
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 10
Advanced Routerの差異
n 独立したCopy Buffer l Minimal Routerでは入力チャネル・バッファを共有 l 入力ラインの競合は少ない
n 拡張したクロスバー l Minimal: 5-入力/出力の一般的なクロスバー l Advanced: 6-入力/5-出力の拡張されたクロスバー
n マルチプレクサの追加 l 各入力をCompare bufferに接続するためのマルチプレクサ l クロスバーの競合は少ないので性能面では
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 11
評価 n 項目
l レイテンシ-スループット l 面積
n セットアップ
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 12
To avoid deadlocks, Compare Buffer Size >= Packet Length
評価の構成 n 4つの構成
l (1) 5-port (Minimal Router), No DMR l (2) 5-port, DMR l (3) 6-port (Advanced Router), No DMR l (4) 6-port, DMR l 注意: 構成1と構成3のグラフは同じ
• ベースのルータが同じであるため
n ベンチマーク: 4つのトラフィックパターン l Uniform: ランダム通信 l Complement: l Tornado: l Neighbor: X軸で右隣の人に通信
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 13
Master/Slaveの配置
Nov 27 2012
M (1,1)
M (1,2)
M (1,3)
M (1,4)
M (1,5)
M (1,6)
M (1,7)
M (1,8)
M (2,1)
M (2,2)
M (2,3)
M (2,4)
M (2,5)
M (2,6)
M (2,7)
M (2,8)
M (3,1)
M (3,2)
M (3,3)
M (3,4)
M (3,5)
M (3,6)
M (3,7)
M (3,8)
M (4,1)
M (4,2)
M (4,3)
M (4,4)
M (4,5)
M (4,6)
M (4,7)
M (4,8)
S (1,1)
S (1,2)
S (1,3)
S (1,4)
S (1,5)
S (1,6)
S (1,7)
S (1,8)
S (2,1)
S (2,2)
S (2,3)
S (2,4)
S (2,5)
S (2,6)
S (2,7)
S (2,8)
S (3,1)
S (3,2)
S (3,3)
S (3,4)
S (3,5)
S (3,6)
S (3,7)
S (3,8)
S (4,1)
S (4,2)
S (4,3)
S (4,4)
S (4,5)
S (4,6)
S (4,7)
S (4,8)
M (1,1)
M (2,1)
M (3,1)
M (4,1)
M (1,2)
M (2,2)
M (3,2)
M (4,2)
M (1,3)
M (2,3)
M (3,3)
M (4,3)
M (1,4)
M (2,4)
M (3,4)
M (4,4)
M (1,5)
M (2,5)
M (3,5)
M (4,5)
M (1,6)
M (2,6)
M (3,6)
M (4,6)
M (1,7)
M (2,7)
M (3,7)
M (4,7)
M (1,8)
M (2,8)
M (3,8)
M (4,8)
S (1,1)
S (2,1)
S (3,1)
S (4,1)
S (1,2)
S (2,2)
S (3,2)
S (4,2)
S (1,3)
S (2,3)
S (3,3)
S (4,3)
S (1,4)
S (2,4)
S (3,4)
S (4,4)
S (1,5)
S (2,5)
S (3,5)
S (4,5)
S (1,6)
S (2,6)
S (3,6)
S (4,6)
S (1,7)
S (2,7)
S (3,7)
S (4,7)
S (1,8)
S (2,8)
S (3,8)
S (4,8)
(a) Interleave (b) Block
M (x,y)
Master Node S (x,y)
Slave Node
Shinya Takamaeda-Y. Tokyo Tech 14
レイテンシ-スループット (Interleave)
Nov 27 2012
0
20
40
60
80
100
120
140
160
180
200
0 0.05 0.1 0.15 0.2 0.25 0.3
Late
ncy
[cyc
le]�
Injection Rate [flit/node/cycle]�
No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)
0
20
40
60
80
100
120
140
160
180
200
0 0.05 0.1 0.15 0.2 0.25 0.3
Late
ncy
[cyc
le]�
Injection Rate [flit/node/cycle]�
No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)
0
20
40
60
80
100
120
140
160
180
200
0 0.05 0.1 0.15 0.2 0.25 0.3
Late
ncy
[cyc
le]�
Injection Rate [flit/node/cycle]�
No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)
0
20
40
60
80
100
120
140
160
180
200
0 0.05 0.1 0.15 0.2 0.25 0.3
Late
ncy
[cyc
le]�
Injection Rate [flit/node/cycle]�
No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)
Uniform Complement
Tornado Neighbor
Shinya Takamaeda-Y. Tokyo Tech 15
レイテンシ-スループット (Block)
Nov 27 2012
0
20
40
60
80
100
120
140
160
180
200
0 0.05 0.1 0.15 0.2 0.25 0.3
Late
ncy
[cyc
le]�
Injection Rate [flit/node/cycle]�
No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)
0
20
40
60
80
100
120
140
160
180
200
0 0.05 0.1 0.15 0.2 0.25 0.3
Late
ncy
[cyc
le]�
Injection Rate [flit/node/cycle]�
No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)
0
20
40
60
80
100
120
140
160
180
200
0 0.05 0.1 0.15 0.2 0.25 0.3
Late
ncy
[cyc
le]�
Injection Rate [flit/node/cycle]�
No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)
0
20
40
60
80
100
120
140
160
180
200
0 0.05 0.1 0.15 0.2 0.25 0.3
Late
ncy
[cyc
le]�
Injection Rate [flit/node/cycle]�
No DMR (5-port) DMR (5-port) No DMR (6-port) DMR (6-port)
Uniform Complement
Tornado Neighbor
Shinya Takamaeda-Y. Tokyo Tech 16
レイテンシ (Injection Rate=0.02)
Nov 27 2012
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Unifor
m
Comple
ment
Torn
ado
Neighb
or
Unifor
m
Comple
ment
Torn
ado
Neighb
or
Geometr
ic Mea
n
Late
ncy
Ove
rhea
d ((D
MR
-NoD
MR
)/NoD
MR
)�
5-port
6-port
Interleave� Block�
38.2% 25.8%
12.4%
Shinya Takamaeda-Y. Tokyo Tech 17
面積 n デザインツール: Xilinx ISE 14.2 n ターゲットデバイス: Xilinx Virtex-6 XC6VLX240T
Nov 27 2012
0
500
1000
1500
2000
2500
3000
Slice Slice Reg LUT LUT RAM
# en
trie
s�
5-port
6-port
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Slice Slice Reg LUT LUT RAM
Are
a O
verh
ead
((6-p
ort-5
port
)/5-p
ort)�
Advanced Router (6-port)は 62.9%大きなハードウェアを必要とする
Shinya Takamaeda-Y. Tokyo Tech 18
議論
n AdvancedがMinimalに対して62.9%のハードウェア量が増加する理由? l クロスバーの拡張
• おおよそ20%大きな面積 • 加えてより複雑な仮想チャネルアロケータとスイッチアロケータ
l 追加のマルチプレクサ • 入力ポートから比較器までを接続
l 独立したCopy buffer • 入力ポートの競合は減るけど・・・
n これって12.4%のレイテンシ削減にペイしている? l No.
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 19
まとめ
n 2つの高機能ルータマイクロアーキテクチャを比較 l Minimal Router: 5-入力/出力のクロスバー l Advanced Router: 6-入力/5-出力クロスバー
n Advanced Routerで12.4%のレイテンシ削減を達成可能
n しかし62.9%より大きなハードウェアが必要となる l これって12.4%のレイテンシ削減にペイしていないですね・・・ l 複数の選択肢があるのは良いこと!
Nov 27 2012 Shinya Takamaeda-Y. Tokyo Tech 20