3 次元積層プロセッサ アーキテクチャの研究動向

55
3 次次次次次次次次次 次次次次次次次次次次次次 次次次次 次次次次次 [email protected] 1

Upload: willa

Post on 24-Feb-2016

75 views

Category:

Documents


0 download

DESCRIPTION

3 次元積層プロセッサ アーキテクチャの研究動向. 九州大学  井上こうじ ( [email protected] ). 世の中いたる所で 3D ・・・. なぜ 3 次元積層なのか ?. Wire-bonding (WB) 3D stacking (System-in-Package or SiP). Package-on-Package (POP) 3D stacking. 半導体も 2D から 3D の世界へ !. 複数のダイを同一パッケージに集積 ダイ間を貫通ビア( Through Silicon Via:TSV )で 接続. TSV. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 3 次元積層プロセッサ アーキテクチャの研究動向

3次元積層プロセッサアーキテクチャの研究動向九州大学 井上こうじ( [email protected]

1

Page 2: 3 次元積層プロセッサ アーキテクチャの研究動向

なぜ 3 次元積層なのか ?世の中いたる所で 3D ・・・

2

Page 3: 3 次元積層プロセッサ アーキテクチャの研究動向

半導体も 2Dから 3Dの世界へ !• 複数のダイを同一パッケージに集積• ダイ間を貫通ビア( Through Silicon Via:TSV)で接続

3

Source: Yuan Zie, “3D IC Design/Architecture,” Coolchips Special Session, 2009

Wire-bonding (WB) 3D stacking (System-in-Package or SiP)

Package-on-Package (POP) 3D stacking

TSV

Multi-Level 3D ICSensor IO

AnalogRF

DRAMProcessor

Page 4: 3 次元積層プロセッサ アーキテクチャの研究動向

3次元積層 IC( ISSCC’09より)• イメージセンサ• SoC用 SRAM• 大容量DRAM• マルチコア+ SRAM(w/ 無線 TSV)• など

8Gb 3D DRAM( Samsung)

U. Kang et al., “8Gb DDR3 DRAM Using Through-Silicon-Via Technology,” ISSCC’09.H. Saito et al., “A Chip-Stacked Memory for On-Chip SRAM-Rich SoCs and Processors, “ ISSCC’09.V. Suntharalingam et al., “A 4-Side Tileable Back Illuminated 3D-Integrated Mpixel CMOS Image Sensor,” ISSCC’09.K. Niitsu et al., “An Inductive-Coupling Link for 3D Integration of a 90nm CMOS Processor and a 65nm CMOS SRAM,” ISSCC’09.

SRAM+Multicore( Keio Univ.)SRAM for SoCs( NEC)

スケールは無関係

Image Sensor(MIT)

4

Page 5: 3 次元積層プロセッサ アーキテクチャの研究動向

メニーコア+大容量メモリ~ Intel (80 coreテストチップ)~

5

http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=04382571http://www.legitreviews.com/article/460/1/

Mem.-on-coreMem.-on-cache

Mem

oryCores/Caches

Page 6: 3 次元積層プロセッサ アーキテクチャの研究動向

3次元積層の「うれしさ」~配線長削減による高性能 /低消費電力化~• 送受信モジュール間の物理的な距離を短縮

–「長い配線の負荷容量」を「 TSV負荷容量」に置換え–得に,グローバル配線において効果大(mm→um)

• フットプリント面積を削減–クロック信号や電源ラインなどの配線長を削減

2次元実装 IC6

Page 7: 3 次元積層プロセッサ アーキテクチャの研究動向

3次元積層の「うれしさ」~チップ集積による高性能 /低消費電力化~• 面と面の接続によるバンド幅拡大

– Intel: 80個のプロセッサ・コア+ SRAM間 1)

• 1TB/Sのバンド幅で接続– HRI: プロセッサ+カスタム回路+ SDRAM2)

• プロセッサーカスタム回路間: 1,056個の TSVで接続• カスタム回路ー SRAM間: 278個の TSVで接続

• 伝送路の負荷容量削減による低レイテンシ /低消費電力化– I/Oピンや基板配線の駆動が不要に !

1)インテル: http://www.intel.com/pressroom/archive/releases/20060926corp_b.htm2)日経マイクロデバイス 2008年 2月

7

Page 8: 3 次元積層プロセッサ アーキテクチャの研究動向

3次元積層の「うれしさ」~異種ダイの積層による高機能化~• 製造プロセスの異なるダイを低コストで積層

–従来の SiP– TSVを用いることでダイ間を高バンド幅で接続可能

• 従来にない新しい応用の可能性• SRAM/DRAM以外の選択肢(例:不揮発性メモリの積層など)

8

Page 9: 3 次元積層プロセッサ アーキテクチャの研究動向

3次元積層の「うれしさ」~更に,低コスト化までも・・・~

0.1

1

10

100

系列1系列2系列1系列2

Process node   (nm)

Perf

orm

ance

Impr

ovem

ent

(tim

es)

180 130 90 65 45 32 22 15 12

Fine Process

Stacking

Performance100

10

1

0.1

Power Consumption

N.Miyakawa,”3D Stacking Technology for Improvement of System Performance,” International Trade Partners Conference, Nov.2008

古い世代のプロセス技術を用いることでコスト削減も可能に !!

9

微細化に頼らない高集積化

Page 10: 3 次元積層プロセッサ アーキテクチャの研究動向

3 次元積層マイクロプロセッサ・アーキテクチャ10

Page 11: 3 次元積層プロセッサ アーキテクチャの研究動向

3次元積層デバイスへの期待~アーキテクチャの観点から~• プロセッサコアやメモリそのものの積層• マルチコア+マルチコア

– いわゆる,メニーコア化• マルチコア(メニーコア)+メモリ

– 大容量メモリの積層による「メモリーウォール問題」の解決( SRAM, DRAMなど)– 新デバイス(MRAMなど)の積層による高性能化 /低消費電力化 /不揮発性の活用

• マルチコア+アクセラレータ– 用途の絞り込みによる加速実行の実現(専用 ASIC,再構成可能ハードウェア, ASIP,演算器アレイなど)– 実行効率を向上

11

Page 12: 3 次元積層プロセッサ アーキテクチャの研究動向

3次元積層化のポイントは ?~「配線長短縮」と「オンチップ化」~

12

Divide & Stack Design Reuse

3D Communicati

on

Example Wire Length

Reduction

On-Chip Integration

Subsystem•Multi-Processor•Processor+Large-Memory•Processor+Accelerator,•Etc.

High Chip Interconnect

•Core-on-Core•Cache-on-Core•Main-Mem.-on-Core•Accelerator-on-Core

√ √

Module•CPU Core•Cache•Main Memory•Etc.

Mid. Global/Local wires

•ALU-on-ALU•Cache Bank-on-Bank•RF-on-ALU √

Functional Unit Block (FUB)•Memory Array•ALU, RF, Issue Queue•Etc.

Low Global/Local wires

• Mem. Array Splitting• ALU Splitting• RF Splitting• Issue Queue Splitting

Gate almost no reuse

Global/Local wires

•Gate Splitting √

Page 13: 3 次元積層プロセッサ アーキテクチャの研究動向

3次元積層化のポイントは ?~「配線長短縮」と「オンチップ化」~

13

Divide & Stack Design Reuse

3D Communicati

on

Example Wire Length

Reduction

On-Chip Integration

Subsystem•Multi-Processor•Processor+Large-Memory•Processor+Accelerator,•Etc.

High Chip Interconnect

•Core-on-Core•Cache-on-Core•Main-Mem.-on-Core•Accelerator-on-Core

√ √

Module•CPU Core•Cache•Main Memory•Etc.

Mid. Global/Local wires

•ALU-on-ALU•Cache Bank-on-Bank•RF-on-ALU √

Functional Unit Block (FUB)•Memory Array•ALU, RF, Issue Queue•Etc.

Low Global/Local wires

• Mem. Array Splitting• ALU Splitting• RF Splitting• Issue Queue Splitting

Gate almost no reuse

Global/Local wires

•Gate Splitting √

Page 14: 3 次元積層プロセッサ アーキテクチャの研究動向

CPUCore

CPUCore

FUBレベルの 3次元積層• その狙いは ?

–フットプリント面積の削減– Module/FUB内部の配線長短縮による低レイテンシ /低消費電力化

L3Cache

CPUCore

L3Cache

L3Cache

CPUCore

L3Cache

2次元実装 3次元積層( Cache-on-Core)3 次元積層( Bank-on-Bank )

フットプリント面積の削減L3アクセスの低レイテンシ /低消費電力

14

Page 15: 3 次元積層プロセッサ アーキテクチャの研究動向

キャッシュ・メモリを分割&積層する !~ベースモデル: 2次元キャッシュ~

Bank0

WL

Dec&

Dr

Word LineBit Line

Mux&SA

Bank1

WL

Dec&

Dr

Mux&SA

Bank2

WL

Dec&

DrMux&SA

Bank3

WL

Dec&

Dr

Mux&SA

Bank4

WL

Dec&

Dr

Mux&SA

Bank5

WL

Dec&

Dr

Mux&SA

Bank6

WL

Dec&

Dr

Mux&SA

Bank7

WL

Dec&

Dr

Mux&SA

Pre Dec.

Output

Address

Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3-D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008.

1MB 4-way Set-Associative Cache

Dela

y (n

s)15

Page 16: 3 次元積層プロセッサ アーキテクチャの研究動向

Bank2

WL

Dec&

Dr

Mux&SA

Bank3

WL

Dec&

Dr

Mux&SA

Bank6

WL

Dec&

Dr

Mux&SA

Bank7

WL

Dec&

Dr

Mux&SA

キャッシュ・メモリを分割&積層する !~バンク同士を積層する~

Bank0

WL

Dec&

DrWord LineBit Line

Mux&SA

Bank1

WL

Dec&

Dr

Mux&SA

Bank4

WL

Dec&

Dr

Mux&SA

Bank5

WL

Dec&

Dr

Mux&SA

Pre Dec.

Output

Address

K. Ruttaswamy and G. H. Loh, “Implementing Caches in a 3D Technology for High Performance Processors,” ICCD’05

1MB 4-way Set-Associative Cache

Dela

y (n

s)

?後述する DWLと同程度の効果と予想される

16

Page 17: 3 次元積層プロセッサ アーキテクチャの研究動向

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

キャッシュ・メモリを分割&積層する !~メモリアレイをWL方向に分割して積層する~

Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3-D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008.

1MB 4-way Set-Associative Cache

Dela

y (n

s)

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

WL

Dec&

Dr

Address

Output

Pre Dec.

Word LineBit Line 2D-BASE

3D-DWL

アドレス /データ線の短縮効果大 ! Nx×NyNx: 3次元方向へのWB分割数Ny: 3次元方向への BL分割数17

Page 18: 3 次元積層プロセッサ アーキテクチャの研究動向

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1x1 MLBS 2x1 1x2 4x1 2x2 1x4 8x1 4x2 2x4 1x8

3D Partitioning (Nx*Ny)

Del

ay (n

S)

outputSABLWL-chargeWL_driverdecoderpredec_driver

Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3-D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008.

キャッシュ・メモリを分割 &積層する !~メモリアレイをWL/BL方向に分割して積層する~

1MB 4-way Set-Associative Cache2D-BASE

3D-DWL(2 wafers)

3D-DWL(4 wafers) 3D-DWL

(8 wafers)

3D-DBL (BL 分割 )(2 wafers) 3D-DBL

(4 wafers)

アクセス消費エネルギーも同時に削減 18

Page 19: 3 次元積層プロセッサ アーキテクチャの研究動向

レジスタファイルを分割&積層する !~ 3つのアプローチ~• レジスタ分割:エントリを複数グループに分割し積層

– ビットラインの短縮効果• ビット分割:上位 /下位ビットに分割し積層(WL短縮)

– ワードラインの短縮効果• ポート分離:ポート(WL+BL)を分離し積層( bit/面積縮小)

– ビット /ワードラインの短縮効果(ただし, TSV面積コスト大)

K. Puttaswamy and G. H. Loh, “Implementing Register Files for High-Performance Microprocessors in a Die-Stacked (3D) Technology,” ISVLSI’06.

Reg. Partitioned Bit Partitioned Port Split

19

Page 20: 3 次元積層プロセッサ アーキテクチャの研究動向

その他のモジュール /FUBを分割&積層する !

20

Least significant 16 bits (15:0)

16 bits (31:16)

16 bits (47:32)

16 bits (63:48)

Thermal Herding

• Kiran Puttaswamy and Gabriel H. Loh, “Thermal Herding: Microarchitecture Techniques for Controlling Hotspots in High-Performance 3D-Integrated Processors ,” HPCA 2007

• B. Vaidyanathan., W-L. Hung, F. Wang, Yuan Xie, N. Vijaykrishnan, M. J. Irwin.“Architecting Microprocessor Components in 3D Design Space,” VLSID 2007

Page 21: 3 次元積層プロセッサ アーキテクチャの研究動向

Case Study: Alpha 21364の場合~どのように 3次元積層するか ?~• 全ての FUBを 3次元実装(と仮定)

–フットプリント面積が 1/2に !– 各 FUBのレイテンシ短縮

Xie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

From 2D to 3D

21

Page 22: 3 次元積層プロセッサ アーキテクチャの研究動向

Case Study: Alpha 21364の場合~どの程度,性能( IPC×F)が向上するのか ?~

Xie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

FUB の 3 次元化により動作周波数を向上(フットプリント面積削減)2 層

3 次元積層により FUB の機能拡大(エントリ数増等)2 層 4 層4 層

クラスタ単位で積層

22

Page 23: 3 次元積層プロセッサ アーキテクチャの研究動向

Case Study: Pentium4の場合~どのように 3次元積層するか ?~• 複数 FUBを積層しパイプラインステージを 25%削減

– DL1と FU→load-to-use 遅延を削減– RFと FP→FP実行までの遅延を削減

• FUBを分割積層しレイテンシを削減– UL2キャッシュ

• 性能は 15%程度向上,かつ,消費電力を 25%削減

1st Layer 2nd LayerXie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

23

Page 24: 3 次元積層プロセッサ アーキテクチャの研究動向

【ディスカッション】モジュール /FUBレベルの 3D化は有効か ?

• 分割積層による実装面積(立て床面積)の削減–大きな効果あり

• 配線長削減による速度向上と低消費電力化– 多くの場合で効果は限定的( e.g. 10~ 20%の改善)– 主記憶やキャッシュといった「規則的構造を有し,かつ,潜在的にグローバル配線がクリティカルになる場合」は効果あり

• 「 3Dによりもたらされるブレークスルー」はどこにあるのか ?→On-Chip 3D Integration!

24

Page 25: 3 次元積層プロセッサ アーキテクチャの研究動向

3次元積層化のポイントは ?~「配線長短縮」と「オンチップ化」~

25

Divide & Stack Design Reuse

3D Communicati

on

Example Wire Length

Reduction

On-Chip Integration

Subsystem•Multi-Processor•Processor+Large-Memory•Processor+Accelerator,•Etc.

High Chip Interconnect

•Core-on-Core•Cache-on-Core•Main-Mem.-on-Core•Accelerator-on-Core

√ √

Module•CPU Core•Cache•Main Memory•Etc.

Mid. Global/Local wires

•ALU-on-ALU•Cache Bank-on-Bank•RF-on-ALU √

Functional Unit Block (FUB)•Memory Array•ALU, RF, Issue Queue•Etc.

Low Global/Local wires

• Mem. Array Splitting• ALU Splitting• RF Splitting• Issue Queue Splitting

Gate almost no reuse

Global/Local wires

•Gate Splitting √

Page 26: 3 次元積層プロセッサ アーキテクチャの研究動向

そもそも,マイクロプロセッサの進化は「インテグレーション」による !

出展: http://ja.wikipedia.org/wiki/Intel_486, http://ascii24.com/news/i/tech/article/2005/05/27/655984-000.html, http://www.intel.com/museum/online/hist_micro/hof/index.htm, http://techresearch.intel.com/articles/Tera-Scale/1421.htm

Intel Pentium D (2005)

2個のプロセッサコアを 1つのパッケージに集積

Intel 4004 (1971)

2,300個のトランジスタを集積

Intel 486 (1989)

数値演算コプロセッサとキャッシュメモリを集積Intel Test Chip (2007)

80 個のプロセッサコアを 1つのダイに集積26

Page 27: 3 次元積層プロセッサ アーキテクチャの研究動向

Program

インテグレーションが成功するには ?• マイクロプロセッサのお仕事は ?

–プログラム(ソフトウェア)を「効率よく」実行• インテグレーションの効果を発揮するには ?

– ソフトウェアの特性を考慮する事が重要

時間

メモリアドレス

Processor

Cache

多くのプログラムは「メモリ参照の時間 / 空間局所性」が有る !!

頻繁に参照されるメモリ領域をキャッシュメモリに保存

成功例:キャッシュメモリの場合

27

Page 28: 3 次元積層プロセッサ アーキテクチャの研究動向

3 次元積層の光と影:「 4 つの素朴な疑問」から見るアーキテクチャ・アプローチアーキテクチャ屋としての「面白さ」はどこに ?

28

Page 29: 3 次元積層プロセッサ アーキテクチャの研究動向

素朴な疑問その 1~大容量キャッシュ積層は本当に得策か ?~

29

MMAT)MRHT(MRHTAMAT LLLL 2211

L1キャッシュのアクセス時間[cc]

L1キャッシュミスの割合L2キャッシュのアクセス時間

[cc]

L2キャッシュミスの割合主記憶のアクセス時間

[cc]

DRAM スタック法の効果 (?)

ベースプロセッサ(2次元実装) DRAMスタック法(3次元実装)

32MB DRAMCache

平均メモリアクセス時間: AMAT

Page 30: 3 次元積層プロセッサ アーキテクチャの研究動向

2060 40

100 80 150200

10050 0

0

1.0

0

1.5

3.0

2.0

2.5

0.5

L2キャッシュアクセス時間の増加L2キャッシュミス率の削減率[cc]

性能向上率

[points]

アプリ特性によっては 3Dにより性能が低下する場合もある !

30

MMAT)MRHT(MRHTAMAT LLLL 2211

Ocean

Cholesky

L1キャッシュのアクセス時間 [cc]L1キャッシュミスの割合 L2キャッシュのアクセス時間 [cc]

L2キャッシュミスの割合 主記憶のアクセス時間 [cc]

DRAM スタック法の効果 (?)

2MB 4MB 8MB 16MB 32MB 64MB 128MB0

10

20

30

40

50

60

Cholesky

FFT

LU

Barnes

FMM

Ocean

RaytraceWaterSpatial

L2 Size

L2 M

iss R

ates

[%]

Page 31: 3 次元積層プロセッサ アーキテクチャの研究動向

SRAM/DRAMハイブリッド・キャッシュ~詳細は 21日の発表をご覧下さい~• 2つの動作モードをサポート

–「高速かつ小容量」な SRAMキャッシュ・モード–「低速かつ大容量」な DRAMキャッシュ・モード

• 実行プログラムが要求するメモリ容量に応じて動作モード選択• 高性能化と低消費電力化を同時に達成可能 !

Core4MB Tag SRAM

Core

32MB DRAMCache

Core4MB Cache

Core

32MB DRAMCache

31橋口慎哉 , 小野貴継 , 井上弘士 , 村上和彰 , “3次元 DRAM‐プロセッサ積層実装を対象としたオンチップ・メモリ・アーキテクチャの提案と評価 ,” 情報処理学会研究報告 , Vol. 2009-ARC-183, No.16, 2009年 4月 .

Page 32: 3 次元積層プロセッサ アーキテクチャの研究動向

素朴な疑問その 2~高メモリバンド幅の活用は本当に得策か ?~• マイクロプロセッサと主記憶の 1チップ化

– キャッシュ-主記憶間のデータ転送能力が劇的に向上– ミス・ペナルティの増加を伴う事無くラインサイズ(ブロックサイズ)を拡大可能

CoreL1

DRAMMain Memory

Mem. BW: →LineSize: ↗MissPenalty: ↗

32

平均メモリアクセス時間 = キャッシュヒット時間+ミス率 × ミスペナルティミスペナルティ = DRAMアクセス時間+ラインサイズ /バンド幅

CoreL1 Core

L1

CoreL1

Stacked Main Memory

Mem. BW: ↗LineSize: ↗MissPenalty: →

Page 33: 3 次元積層プロセッサ アーキテクチャの研究動向

アプリ特性によっては 3Dにより性能が低下する場合もある !• 高オンチップメモリバンド幅を積極活用するには ?

– キャッシュ・ラインサイズ(ブロックサイズ)を拡大• その効果は ?

– アプリケーションが有する「メモリ参照の空間局所性の度合い」に大きく依存

33

14.012.010.0

8.06.04.02.00.0

16 32 64 128 256

104.hydro2d072.sc

052.alvinn

16KB

L1D

$ M

iss R

ate

(%)

Line Size [byte]

14.012.010.0

8.06.04.02.00.0

16 32 64 128 256

16KB

L1D

$ M

iss R

ate

(%)

Line Size [byte]

134.perl099.go

Better

Page 34: 3 次元積層プロセッサ アーキテクチャの研究動向

• プログラム特性に応じて DRAM ーキャッシュ間データ転送量(ラインサイズ)を自動調整–メモリ参照の空間局所性の度合いを静的もしくは動的にモニタリング–ラインサイズを動的もしくは静的に決定

34

動的可変ラインサイズ・キャッシュ: K. Inoue, K. Kai, and K. Murakami, ``Dynamically Variable Line-Size Cache Exploiting High On-Chip Memory Bandwidth of Merged DRAM/Logic LSIs,‘‘ HPCA-5, 1999. 静的可変ラインサイズ・キャッシュ: T. Ono, K. Inoue, K. Murakami, and K. Yoshida, “Reducing On-Chip DRAM Energy via Data Transfer Size Optimization,” IEICE Tran. on Electronics, 2009.

必要となるメモリバンド幅高 低消費するエネルギー高 低DRAM

SRAM Cache SRAM Cache SRAM Cache

可変ラインサイズ・キャッシュ

Page 35: 3 次元積層プロセッサ アーキテクチャの研究動向

素朴な疑問その 3~温度は性能にどう影響するのか ?~• 3次元積層 LSIの問題点はチップ温度上昇

–チップ温度は消費電力に依存–消費電力はプロセッサの動作周波数に依存

• 「プロセッサの最大動作周波数はチップ温度制約により決定」と仮定すると・・・

CoreL2 Cache

L1 L1

DRAMMain Memory

L2 Cache

CoreL1 L1

Stacked Main Memory

Tem. : ↘Freq. : ↗Mem. Stall: ↗

Tem. : ↗Freq. : ↘Mem. Stall: ↘

35

Page 36: 3 次元積層プロセッサ アーキテクチャの研究動向

アプリ特性によっては 3Dにより性能が低下する場合がある !mcf ( Highly Memory

Intensive )動作周波数•2D: 約 2.9GHz•3D: 約 2.5GHz平均命令実行時間•2D: 約 2.5•3D: 約 0.6 ( Better )

twolf ( Less Memory Intensive )動作周波数

•2D: 約 2.8GHz•3D: 約 2.4GHz平均命令実行時間•2D: 約 0.35 ( Better )•3D: 約 0.41

G. L. Loi, B. Agrawal, N. Srivastava, S. Lin, T. Sherwood, and K. Banerjee, “A Thermally-Aware Performance Analysis of Vertically Integrated (3-D) Processor-Memory Hierarchy,” DAC’06.

36

Page 37: 3 次元積層プロセッサ アーキテクチャの研究動向

30

40

50

60

70

80

90

100

2Cores(2D)Polynomial (2Cores(2D))4CoresPolynomial (4Cores)4Cores(Flip)

プロセッサ動作周波数 (GHz)

プロセッ

サ温度 (de

g C)

制限温度 88.0 (deg C)

Alpha21364マルチコアの積層では ?~詳細は 21日の発表をご覧下さい~

37

プロセッサ・コア数

2Cores(2D)

4Cores(3D 2Layers) 8Cores(3D 4Layers) 16Cores(3D 8Layers)Non-Flip Flip Non-Flip Flip Non-Flip Flip

動作周波数(@ 制限温度 )

2.0 0.98 1.18 0.61 0.75 0.37 0.47

FPU(87.58 deg C)

ヒートシンク側

FPU(87.25 deg C)

Non-Flip

Flip

FPU(86.59 deg C)

FPU(85.60 deg C)

Int. Exe. Unit (72.04 deg C)

L1 Cacheの一部分(71.76 deg C)

Int. Exe. Unit(71.33 deg C)

L1 Cacheの一部分(70.68 deg C)

ホットスポット(温度)

ホットスポット(温度)

第1層 第2層 第3層 第4層

Page 38: 3 次元積層プロセッサ アーキテクチャの研究動向

素朴な疑問その 4~MRAMの積層は本当に得策なのか ?~SRAM DRAM MRAM

Density Low (4MB:44mm2) High (16MB: 49mm2) High (16MB: 38mm2)

Speed Fast (4.659ns) Slow (5.845ns) Read: Fast (4.693ns)Write: Very Slow (12.272ns)

Dynamic Energy / operation

Low (0.103nJ) Medium (0.381nJ) Read: Low (0.102nJ)Write: High (2.126nJ)

Leakage Power High (5.20W) Low (0.52W) Low (0.97W)

Non-Volatility No No Yes

65nm

X. Dong, X. Wu, G. Sun, Y. Xie, H. Li, and Y. Chen, “Circuit and Microarchitecture Evaluation of 3D Stacking Magnetic RAM (MRAM) as a Universal Memory Replacement,” DAC’08.

38

Page 39: 3 次元積層プロセッサ アーキテクチャの研究動向

シングルコア+MARM-L2キャッシュの効果は ?• 性能( IPC)に関しては大幅な改善無し

– ワーキングセット・サイズが小さいため ?• リーク消費電力の削減による効果大

IPC

4MBSRAM

16MBDRAM

16MBMRAM

Stati

c +

Dyna

mic

Pow

er (W

)

Alpha 21264 like processor (8way) @ 90nm

X. Dong, X. Wu, G. Sun, Y. Xie, H. Li, and Y. Chen, “Circuit and Microarchitecture Evaluation of 3D Stacking Magnetic RAM (MRAM) as a Universal Memory Replacement,” DAC’08.

39

Page 40: 3 次元積層プロセッサ アーキテクチャの研究動向

アプリ特性によっては 3Dにより性能が低下する場合もある !

G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09.

Performancegalgel, apsi

•若干の性能向上他のベンチマーク•MRAMの使用により性能低下•swimと streamclusterで顕著•書込みレイテンシ増大による後続 Readイベントの停滞

Power Consumption全てのベンチマーク•低消費電力化を実現•書込みエネルギーが大きいため,Writeイベントが多い場合は効果が低減

2MBSRAM-SNUCA

8MBMRAM-SNUCA

2MBSRAM-DNUCA

8MBMRAM-DNUCA

2MBSRAM-SNUCA

8MBMRAM-SNUCA

2MBSRAM-DNUCA

8MBMRAM-DNUCA

BetterBett

er

40

Page 41: 3 次元積層プロセッサ アーキテクチャの研究動向

MRAMの欠点を解決するアーキテクチャ・サポート

G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09.

アーキテクチャ・サポート書込み遅延の削減•ライトバッファのエントリ数を増加( 4→20エントリへ)•ライトイベントの後続リードイベントによる割込み許可書込み回数の削減•MRAMキャッシュの一部をSRAMで実現( 31way:MRAM, 1way:SRAM)

•SRAMはコアと同じレイヤに実装•頻繁に書込みが発生するブロックを SRAMへマイグレート

Better

Better

2MBSRAM-SNUCA

2MBSRAM-DNUCA

8MBSRAM+MRAM Hybrid

41

Page 42: 3 次元積層プロセッサ アーキテクチャの研究動向

3Dの世界には様々な「トレードオフ」が存在 !~九州大学での取組み~• 大容量キャッシュ積層は本当に得策か ?

→SRAM/DRAMハイブリッド・キャッシュ( 1月 21日「 3D-II」)

• 高メモリバンド幅の活用は本当に得策か ?→可変ラインサイズキャッシュの提案• 温度は性能にどう影響するのか ?

→3Dマルチコアの性能評価 /解析( 1月 21日「 3D-II」)• MRAMの積層は本当に得策なのか ?→不揮発メモリを用いた 3Dメモリ・アーキテクチャ• その他にも・・・

→3Dアクセラレータ・アーキテクチャ42

Page 43: 3 次元積層プロセッサ アーキテクチャの研究動向

様々な 3Dアーキテクチャ研究~世界での様々な取組み~

43

Memory ControllerL2 Cache

x86 Processor

Processing Element

Row Response Queue (RRQ)

Memory ring

External TLB (xTLB)

Arbiter (ARB)

Memory Bus (MBUS)

Interleaved 2D Torus Links

Data Return Buffer (DRB)

Instruction Bus (IBUS)

ORTree

•Dong Hyuk Woo, Joshua B. Fryman, Allan D. Knies, Marsha Eng, and Hsien-Hsin S. Lee. “POD: A 3D-Integrated Broad-Purpose Acceleration Layer.” In IEEE MICRO, Vol. 28, No. 4, pp.28-40, July/August, 2008. •G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09.•Gabriel H. Loh, “3D-Stacked Memory Architectures for Multi-Core processors,” Int. Symposium on Computer Architecture, 2008.• Taeho Kgil, Shaun D'Souza, Ali Saidi, Nathan Binkert, Ronald Dreslinski, Trevor Mudge, Steven Reinhardt, Krisztian Flautner,”PicoServer: using 3D stacking technology to enable a compact energy efficient chip multiprocessor ,” ASPLOS’06

Accelerator on Multi-Core(Georgia Tech.)

NUCA (w/ NoC) on Multi-Core(Pennsylvania State Univ.)

DRAM on Multi-Core(Georgia Tech.)

DRAM on Embedded Multi-Core(The University of Michigan, ARM)

Page 44: 3 次元積層プロセッサ アーキテクチャの研究動向

3Dアーキテクチャ研究のトレンド(私見)~「量」から「質」へ~

44

Emerging Devices

(E.g. NV-Mem., Photonics, …)

第 1世代 第 2世代 第 3世代Traditional Devices

(E.g. SRAM, DRAM, Logic, …)

Divide & Stacking

(E.g. 3D Cache, 3D ALU, …)

System 3D Integratio

n

Adaptive 3D Computing

(E.g. Run-time Thermal

Management, …)

Page 45: 3 次元積層プロセッサ アーキテクチャの研究動向

パネル討論( 16 : 20 ~ 18 : 20 )3次元積層 LSIはメインストリームになり得るか ?

45

議論して欲しい内容があればメイルでご連絡下さい [email protected]

Page 46: 3 次元積層プロセッサ アーキテクチャの研究動向

Backup Slides

46

Page 47: 3 次元積層プロセッサ アーキテクチャの研究動向

素朴な疑問その 2~主記憶を積層して L2$は必要か ?~• L2(ラストレベル)キャッシュ導入の狙いは主記憶アクセス回数の削減

– 主記憶のオンチップ化により効果減( !?)–現在のプロセッサでは「 L2面積≈全コア面積」

• L2面積を用いてコア数を増加可能と仮定すると・・

TLP : ↗Freq. :→Mem. Acc.: ↗

CoreSRAM L2$

Core

StackedMain Memory

TLP : ↘Freq. :→Mem. Acc.: ↘

CoreCore

CoreCore

StackedMain Memory

47

Page 48: 3 次元積層プロセッサ アーキテクチャの研究動向

性能モデル式による解析• L2 未搭載(Nコア搭載)マルチコアをベースとした性能比較• TLP活用効果 vs. メモリ性能インパクト

L2 キャッシュ搭載「 N-m 」コアの実行時間(サイクル数)

2wLmNCC

演算性能の低下による実行クロックサイクル数の増加(≧ 1.0)

メモリ性能の向上による実行クロックサイクル数の減少(≦ 1.0)

L2 未搭載 Nコア実行サイクル数

StackedMain Memory

CoreSRAM L2$

Core

StackedMain Memory

48

Page 49: 3 次元積層プロセッサ アーキテクチャの研究動向

簡易性能モデル式による解析

NNMRLwLmN CCkr

Nff

mNff

CC

22 1

1

1

L2 未搭載時の総プロセッサコア数

並列化できる演算の割合L2 搭載により削減されるコア数

L2 キャッシュ導入によるメモリ性能改善率(≦ 1.0 )

全コア実行時の全実行時間にしめる主記憶アクセスによるストールの割合(≦ 1.0 )

L2 未搭載時の N コア実行クロックサイクル数

L2 キャッシュ搭載「 N-m 」コアの実行時間(サイクル数)

49

Page 50: 3 次元積層プロセッサ アーキテクチャの研究動向

N=8(最大コア数が 8)の場合

F=0.7

K8=0.5 (全実行時間の 50%がメモリストール)K8=0.1 (全実行時間の 10%がメモリストール)

F=0.95

ベース: L2 未搭載 8 コア( 1.0 ) コア数削減による L2 搭載

性能低下

0 1

2 3

4 5

6 7

0 0.2

0.4 0.6

0.8 1

0

0.5

1

1.5

22.0

1.5

1.0

0.5

0.0

相対実行

時間

1 2 3 4 5 6 7 8 1.0 0.8 0.60.4 0.2 0.0搭載コア数( N-m) メモリ性能

改善率( r)

0 1

2 3

4 5

6 7

0 0.2

0.4 0.6

0.8 1

0

0.5

1

1.5

22.0

1.5

1.0

0.5

0.0

相対実行

時間

1 2 3 4 5 6 7 8 1.0 0.8 0.6 0.4 0.2 0.0搭載コア数( N-m) メモリ性

能改善率( r) 0

1 2

3 4

5 6

7 0

0.2 0.4

0.6 0.8

1

0

0.5

1

1.5

2

2.0

1.5

1.0

0.5

0.0

相対実行

時間

1 2 3 4 5 6 7 8 1.0 0.8 0.6 0.4 0.2 0.0搭載コア数( N-m) メモリ性能

改善率( r)

0 1

2 3

4 5

6 7

0 0.2

0.4 0.6

0.8 1

0

0.5

1

1.5

22.0

1.5

1.0

0.5

0.0

相対実行時間

1 2 3 4 5 6 7 8 1.0 0.8 0.60.4 0.2 0.0搭載コア数( N-m) メモリ性

能改善率( r)50

Page 51: 3 次元積層プロセッサ アーキテクチャの研究動向

結局のところ・・・• L2キャッシュの搭載よりもコア数増加にハードウェア資源を利用した方がお得な場合がある

– オフチップ・メモリアクセスのインパクトが小さくなるほど L2 搭載の効果は低減– 特に TLPが高い場合に顕著

• ただし・・・– 本解析では「 L2アクセスレイテンシ」と「 DRAMアクセスレイテンシ」の違いは未考慮→その影響は ?– 共有変数を用いた並列化プログラムの実行では ?– 「プロセッサ性能は低下させない」という前提では ?– 様々な観点からメモリアーキテクチャを再考する必要あり !!

51

Page 52: 3 次元積層プロセッサ アーキテクチャの研究動向

PicoServer [ASPLOS’06]

52 Taeho Kgil, Shaun D'Souza, Ali Saidi, Nathan Binkert, Ronald Dreslinski, Trevor Mudge, Steven Reinhardt, Krisztian Flautner,”PicoServer: using 3D stacking technology to enable a compact energy efficient chip multiprocessor ,” ASPLOS’06

• Tier1ウェブサーバを対象とした 3次元積層アプローチ– 極めて高い TLP– 動作周波数の低いコアを複数活用することで低消費電力化→

3次元積層における熱問題を解消

Page 53: 3 次元積層プロセッサ アーキテクチャの研究動向

評価対象モデル3D Single Core 3D PicoServer (4/8/12cores)2D 4/8cores

Taeho Kgil, Shaun D'Souza, Ali Saidi, Nathan Binkert, Ronald Dreslinski, Trevor Mudge, Steven Reinhardt, Krisztian Flautner,”PicoServer: using 3D stacking technology to enable a compact energy efficient chip multiprocessor ,” ASPLOS’06

53

Page 54: 3 次元積層プロセッサ アーキテクチャの研究動向

性能評価結果( SpecWeb99)半分の周波数で高い性能を実現

同じ周波数でもコア数2 倍で高い性能を実現

2D 2D3D 3D

L2 効果と DRAM 積層効果は同等2D3D

3D-OOO@4GHzが最も高性能3D

Taeho Kgil, Shaun D'Souza, Ali Saidi, Nathan Binkert, Ronald Dreslinski, Trevor Mudge, Steven Reinhardt, Krisztian Flautner,”PicoServer: using 3D stacking technology to enable a compact energy efficient chip multiprocessor ,” ASPLOS’06 54

Page 55: 3 次元積層プロセッサ アーキテクチャの研究動向

消費電力とチップ温度

Taeho Kgil, Shaun D'Souza, Ali Saidi, Nathan Binkert, Ronald Dreslinski, Trevor Mudge, Steven Reinhardt, Krisztian Flautner,”PicoServer: using 3D stacking technology to enable a compact energy efficient chip multiprocessor ,” ASPLOS’06

@500MHz

周波数削減による低消費電力化(恐らく低 VDD の効果)

2D

3D

周波数削減による低消費電力化(恐らく低 VDD の効果)

2D 3D

3 倍のコア数でも低消費力化2D

3D

温度上昇は 10℃ 以下

55