3次元積層プロセッサ...

3次元積層プロセッサ3次元積層プロセッサアーキテクチャの研究動向アキテクチャ研究動向

九州大学井上こうじ九州大学井上こうじ

（[email protected]‐u.ac.jp）

1

世の中いたる所で3D・・・

なぜ3次元積層なのか?世の中いたる所で3

2

半導体も2Dから3Dの世界へ!半導体も2Dから3Dの世界へ!• 複数のダイを同一パッケージに集積複数のダイを同パッケジに集積• ダイ間を貫通ビア（Through Silicon Via:TSV）で接続

Wire‐bonding (WB) 3D stacking ( k )

TSVTSV

(System‐in‐Package or SiP)

Multi‐Level 3D IC

S

Package‐on‐Package (POP) 3D stacking

SensorIO

AnalogRF

3

Source: Yuan Zie, “3D IC Design/Architecture,” Coolchips Special Session, 2009

Package on Package (POP) 3D stacking gDRAM

Processor

3次元積層IC（ISSCC’09より）3次元積層IC（ISSCC 09より）

イメジセンサ• イメージセンサ• SoC用SRAM• 大容量DRAM大容量DRAM• マルチコア＋SRAM（w/ 無線TSV）• など

8Gb 3D DRAM（Samsung） SRAM+Multicore（Keio Univ.）SRAM for SoCs（NEC）Image Sensor（MIT）g

スケールは無関係

U. Kang et al., “8Gb DDR3 DRAM Using Through‐Silicon‐Via Technology,” ISSCC’09.H. Saito et al., “A Chip‐Stacked Memory for On‐Chip SRAM‐Rich SoCs and Processors, “ ISSCC’09.V. Suntharalingam et al., “A 4‐Side Tileable Back Illuminated 3D‐Integrated Mpixel CMOS Image Sensor,” ISSCC’09.K. Niitsu et al., “An Inductive‐Coupling Link for 3D Integration of a 90nm CMOS Processor and a 65nm CMOS SRAM,” ISSCC’09. 4

メニーコア＋大容量メモリ～Intel (80 coreテストチップ）～

Mem

oryCor

Mem.‐on‐coreMem.‐on‐cache

res/Caches

5

http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=04382571http://www.legitreviews.com/article/460/1/

3次元積層の「うれしさ」～配線長削減による高性能/低消費電力化～

送受信モジル間の物理的な距離を短縮• 送受信モジュール間の物理的な距離を短縮– 「長い配線の負荷容量」を「TSV負荷容量」に置換え– 得に，グローバル配線において効果大（mm→um）

• フットプリント面積を削減フットプリント面積を削減– クロック信号や電源ラインなどの配線長を削減

2次元実装IC6

3次元積層の「うれしさ」～チップ集積による高性能/低消費電力化～• 面と面の接続によるバンド幅拡大• 面と面の接続によるバンド幅拡大

– Intel: 80個のプロセッサ・コア＋SRAM間1)• 1TB/Sのバンド幅で接続

– HRI: プロセッサ＋カスタム回路＋SDRAM2)• プロセッサーカスタム回路間：1,056個のTSVで接続• カスタム回路ーSRAM間：278個のTSVで接続

• 伝送路の負荷容量削減による低レイテンシ/低消費電力化– I/Oピンや基板配線の駆動が不要に!

1)インテル：http://www.intel.com/pressroom/archive/releases/20060926corp_b.htm2)日経マイクロデバイス2008年2月

7

3次元積層の「うれしさ」～異種ダイの積層による高機能化～

製造プセ異なるダイを低ト積層• 製造プロセスの異なるダイを低コストで積層– 従来のSiP– TSVを用いることでダイ間を高バンド幅で接続可能

• 従来にない新しい応用の可能性従来にない新しい応用の可能性• SRAM/DRAM以外の選択肢（例：不揮発性メモリの積層など）など）

8

3次元積層の「うれしさ」～更に，低コスト化までも・・・～

100100100

t

100古い世代のプロセス技術を用いることでコスト削減も可能に!!

10

ovem

ent Fine Process

10スト削減も可能に!!

1ce Im

pro

1Power Consumption

1

rfor

man

mes

)

Stacking 微細化に頼らない高集積化

0.1

Process node (nm)

Per

(tim

180 130 90 65 45 32 22 15 12

g0.1

Process node (nm)N.Miyakawa,”3D Stacking Technology for Improvement of System Performance,”International Trade Partners Conference, Nov.2008 9

3次元積層マイクロプロセッサ・アーキテクチャ

10

3次元積層デバイスへの期待～アーキテクチャの観点から～

プロセッサコアやメモリそのものの積層• プロセッサコアやメモリそのものの積層• マルチコア＋マルチコア

いわゆるメア化– いわゆる，メニーコア化• マルチコア（メニーコア）＋メモリ

大容量メリの積層による「メリウ問題の– 大容量メモリの積層による「メモリーウォール問題」の解決（SRAM，DRAMなど）

– 新デバイス（MRAMなど）の積層による高性能化/低新デバイス（MRAMなど）の積層による高性能化/低消費電力化/不揮発性の活用

• マルチコア＋アクセラレータラ– 用途の絞り込みによる加速実行の実現（専用ASIC，再構成可能ハードウェア，ASIP，演算器アレイなど）実行効率を向上– 実行効率を向上

11

3次元積層化のポイントは?～「配線長短縮」と「オンチップ化」～

Divide & Stack Design Reuse

3D Communicati

on

Example Wire Length

Reduction

On‐Chip Integration

Subsystem High Chip •Core‐on‐CoreSubsystem•Multi‐Processor•Processor+Large‐Memory•Processor+Accelerator,•Etc

High ChipInterconnect

Core on Core•Cache‐on‐Core•Main‐Mem.‐on‐Core•Accelerator‐on‐Core

√ √Etc.

Module•CPU Core•CacheM i M

Mid. Global/Local wires

•ALU‐on‐ALU•Cache Bank‐on‐Bank•RF‐on‐ALU √

•Main Memory•Etc.

Functional Unit Block (FUB)•Memory Array

Low Global/Local wires

•Mem. Array Splitting•ALU Splitting √y y•ALU, RF, Issue Queue

•Etc.

p g•RF Splitting• Issue Queue Splitting

√

Gatealmost no reuse

Global/Local wires

•Gate Splitting √

12

reuse wires √



3D Communicati

on

Example Wire Length

Reduction





√ √Etc.








•Etc.


√

Gatealmost no reuse

Global/Local wires


13

reuse wires √

FUBレベルの3次元積層FUBレベルの3次元積層• その狙いは?その狙いは?

– フットプリント面積の削減内部配線長短縮による低イ– Module/FUB内部の配線長短縮による低レイテン

シ/低消費電力化フットプリント面積の削減

L3アクセスの低レイテンシ/低消費電力

CPU

CPUCore

L3Cache

CPUCore

L3Cache

L3CPUCore

L3Cache

L3アクセスの低レイテンシ/低消費電力

CPUCore

Core Cache Core L3Cache

Core Cache

2次元実装 3次元積層（C h C )

3次元積層（Bank on Bank）（Cache‐on‐Core) （Bank‐on‐Bank）

14

キャッシュ・メモリを分割&積層する!～ベースモデル：2次元キャッシュ～

r

Word LineBit Line

r r r

1MB 4‐way Set‐Associative Cache

Bank0

WL Dec&D

Bank1WL Dec&D

Bank2

WL Dec&D

Bank3

WL Dec&D

Mux&SA Mux&SA Mux&SA Mux&SA

Pre Dec.Address

elay (n

s)

&Dr

Mux&SA

&Dr

Mux&SA

&Dr

Mux&SA

&Dr

Mux&SAOutput D

e

Bank4

WL Dec&

Bank5

WL Dec&

Bank6

WL Dec&

Bank7WL Dec&

Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3‐D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008. 15

キャッシュ・メモリを分割&積層する!～バンク同士を積層する～

1MB 4 S t A i ti C h

r

Word LineBit Line

r

1MB 4‐way Set‐Associative Cache

Bank2

WL Dec&Dr

Bank3

WL Dec&Dr

Bank0

WL Dec&D

Bank1

WL Dec&D

W

Mux&SAW

Mux&SAMux&SA Mux&SA

Pre Dec.Address

elay (n

s)

?Mux&SA Mux&SA

&Dr

Mux&SA

&Dr

Mux&SAOutput D

e

後述するDWLと同程度の効果と予想される

Bank6

WL Dec&Dr

Bank7

WL Dec&Dr

Bank4

WL Dec&

Bank5

WL Dec&

K. Ruttaswamy and G. H. Loh, “Implementing Caches in a 3D Technology for High Performance Processors,” ICCD’05 16

キャッシュ・メモリを分割&積層する!～メモリアレイをWL方向に分割して積層する～

1MB 4‐way Set‐Associative Cache1MB 4 way Set Associative Cache

r r r r

Word LineBit Line 2D‐BASE

WL Dec&Dr

WL Dec&Dr

WL Dec&Dr

WL Dec&Dr

WL Dec&D

WL Dec&D

WL Dec&D

WL Dec&D

3D‐DWL

W W W W

elay (n

s)

AddressPre Dec.

Dr

Dr

Dr

Dr

De

&Dr

&Dr

&Dr

&Dr

Output

WL Dec&D

WL Dec&D

WL Dec&D

WL Dec&D

WL Dec&

WL Dec&

WL Dec&

WL Dec&

アドレス/データ線の短縮効果大!

Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3‐D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008.

Nx×NyNx：3次元方向へのWB分割数Ny：3次元方向へのBL分割数17

キャッシュ・メモリを分割&積層する!～メモリアレイをWL/BL方向に分割して積層する～

1MB 4‐way Set‐Associative Cache1MB 4 way Set Associative Cache

2D‐BASE

3D‐DWL3D‐DBL (BL分割)

(2 wafers) 3D‐DBL(2 wafers)

3D‐DWL(4 wafers) 3D‐DWL

(8 wafers)

(4 wafers)

(8 wafers)

アクセス消費エネルギ

Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3‐D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008.

アクセス消費エネルギーも同時に削減

18

レジスタファイルを分割&積層する!～3つのアプローチ～

• レジスタ分割：エントリを複数グループに分割し積層• レジスタ分割：エントリを複数グルプに分割し積層– ビットラインの短縮効果

• ビット分割：上位/下位ビットに分割し積層（WL短縮）/– ワードラインの短縮効果

• ポート分離：ポート（WL+BL）を分離し積層（bit/面積縮小）ビドイ短縮効果（ただ積大）– ビット/ワードラインの短縮効果（ただし，TSV面積コスト大）

Reg. Partitioned Bit Partitioned Port Split

K. Puttaswamy and G. H. Loh, “Implementing Register Files for High‐Performance Microprocessors in a Die‐Stacked (3D) Technology,” ISVLSI’06.

19

その他のモジュール/FUBを分割&積層する!

Thermal HerdingLeast significant 16 bits (15:0)

Thermal Herding

16 bits (31:16)

16 bits (47:32)

16 bits (63:48)

20

•Kiran Puttaswamy and Gabriel H. Loh, “Thermal Herding: Microarchitecture Techniques for Controlling Hotspots in High‐Performance 3D‐Integrated Processors ,” HPCA 2007

•B. Vaidyanathan., W‐L. Hung, F. Wang, Yuan Xie, N. Vijaykrishnan, M. J. Irwin.“Architecting Microprocessor Components in 3D Design Space,” VLSID 2007

Case Study: Alpha 21364の場合～どのように3次元積層するか?～全を次実装仮定• 全てのFUBを3次元実装（と仮定）– フットプリント面積が1/2に!ッリン面積 /– 各FUBのレイテンシ短縮

F 2D t 3DFrom 2D to 3D

Xie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

21

Case Study: Alpha 21364の場合～どの程度，性能（IPC×F）が向上するのか?～

FUBの3次元化により動作周波数 3次元積層によりFUBの機FUBの3次元化により動作周波数を向上（フットプリント面積削減）

2層

3次元積層によりFUBの機能拡大（エントリ数増等）

2層 4層4層

クラスタ単位で積層

Xie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

22

Case Study: Pentium4の場合～どのように3次元積層するか?～複数FUBを積層しパイプラインステジを25%削減• 複数FUBを積層しパイプラインステージを25%削減– DL1とFU→load‐to‐use遅延を削減– RFとFP→FP実行までの遅延を削減実行遅延を削減

• FUBを分割積層しレイテンシを削減– UL2キャッシュ性能は程度向上か消費電力を削減• 性能は15%程度向上，かつ，消費電力を25%削減

1st Layer 2nd LayerXie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

23

【ディスカッション】モジュール/FUBレベルの3D化は有効か?

分割積る実装積立床積削減• 分割積層による実装面積（立て床面積）の削減– 大きな効果あり大きな効果あり

• 配線長削減による速度向上と低消費電力化多くの場合で効果は限定的（ 0 20%の改善）– 多くの場合で効果は限定的（e.g. 10～20%の改善）

– 主記憶やキャッシュといった「規則的構造を有し，かつ，潜在的にグローバル配線がクリティカルになる場合」は効果あり

• 「3Dによりもたらされるブレークスルー」はどこにあるのか?→On-Chip 3D Integration!にあるのか?→On Chip 3D Integration!

24



3D Communicati

on

Example Wire Length

Reduction





√ √Etc.








•Etc.


√

Gatealmost no reuse

Global/Local wires


25

reuse wires √

そもそも，マイクロプロセッサの進化は「インテグレーション」による!

Intel 4004 (1971) Intel 486 (1989)Intel 4004 (1971) Intel 486 (1989)

2,300個のトランジスタを数値演算コプロセッサと

Intel Pentium D (2005)

, 個ラタを集積

数値演算プセッサとキャッシュメモリを集積

Intel Test Chip (2007)Intel Pentium D (2005) Intel Test Chip (2007)

80個のプロセッサコアを1つのダイに

２個のプロセッサコアを1つのパッケージに集積

コアを1つのダイに集積

出展： http://ja.wikipedia.org/wiki/Intel_486, http://ascii24.com/news/i/tech/article/2005/05/27/655984‐000.html,http://www.intel.com/museum/online/hist_micro/hof/index.htm, http://techresearch.intel.com/articles/Tera‐Scale/1421.htm

1つのパッケジに集積

26

インテグレーションが成功するには?インテグレーションが成功するには?• マイクロプロセッサのお仕事は?• マイクロプロセッサのお仕事は?

– プログラム（ソフトウェア）を「効率よく」実行• インテグレーションの効果を発揮するには?

– ソフトウェアの特性を考慮する事が重要ソフトウアの特性を考慮する事が重要

ス

成功例：キャッシュメモリの場合

Program

モリアドレス

Processor

時間

メモ Cache

頻繁に参照されるメモリ領域を多くのプログラムは

「メモリ参照の時間/空間局所性」が有る!!

頻繁に参照されるメモリ領域をキャッシュメモリに保存

27

アーキテクチャ屋としての「面白さ」はどこに?

3次元積層の光と影：「4つの素朴な疑問」から見るアキテクチアプロチ

アキテクチャ屋としての面白さ」はどこに?

から見るアーキテクチャ・アプローチ

28

素朴な疑問その1～大容量キャッシュ積層は本当に得策か?～

平均メモリアクセス時間：AMAT

L1キャッシュのアクセス時間[cc]

L1キャッシュミスの割合

L2キャッシュのアクセス時間[cc]

L2キャッシュミスの割合

主記憶のアクセス時間[cc]

平均メモリアクセス時間：AMAT

MMAT ）MRHT（MRHTAMAT LLLL 2211

アクセス時間[cc] ミスの割合アクセス時間[cc] ミスの割合アクセス時間[cc]

DRAMスタック法の効果

（？）

32MB DRAMCache

29ベースプロセッサ（２次元実装） DRAMスタック法（３次元実装）

アプリ特性によっては3Dにより性能が低下する場合もある!

L1キャッシュの L1キャッシュ L2キャッシュの L2キャッシュ主記憶の

MMAT ）MRHT（MRHTAMAT LLLL 2211

アクセス時間[cc] ミスの割合アクセス時間[cc] ミスの割合アクセス時間[cc]

DRAMスタック法の効果

（？）

3.0

性能向上率LU50

60

%]

1.5

2.0

2.5 OceanFFT

Ocean30

40

s Rates [%

100 80 10050

0

1.0

0

0.5 CholeskyCholesky

FMM

WaterSpatial10

20

L2 M

iss

2060 40

100 80150

200

100

0 L2キャッシュアクセス時間の増加L2キャッシュミス率の削減率

[cc][points]30

Barnes Raytrace02MB 4MB 8MB 16MB 32MB 64MB 128MB

L2 Size

SRAM/DRAMハイブリッド・キャッシュ～詳細は21日の発表をご覧下さい～

の動作モドをサポト• 2つの動作モードをサポート– 「高速かつ小容量」なSRAMキャッシュ・モード– 「低速かつ大容量」なDRAMキャッシュ・モード

• 実行プログラムが要求するメモリ容量に応じて実行プログラムが要求するメモリ容量に応じて動作モード選択

• 高性能化と低消費電力化を同時に達成可能!• 高性能化と低消費電力化を同時に達成可能!32MB DRAM

C h

32MB DRAMCacheCache Cache

31橋口慎哉, 小野貴継, 井上弘士, 村上和彰, “3次元DRAM‐プロセッサ積層実装を対象としたオンチップ・メモリ・アーキテクチャの提案と評価,”情報処理学会研究報告, Vol. 2009‐ARC‐183, No.16, 2009年4月.

素朴な疑問その2～高メモリバンド幅の活用は本当に得策か?～

イクプセサと主記憶のチプ化• マイクロプロセッサと主記憶の1チップ化– キャッシュ－主記憶間のデータ転送能力が劇的に向上– ミス・ペナルティの増加を伴う事無くラインサイズ（ブロックサイズ）を拡大可能

平均メモリアクセス時間 = キャッシュヒット時間＋ミス率×ミスペナルティミスペナルティ = DRAMアクセス時間＋ラインサイズ/バンド幅

DRAMMain Memory

Mem. BW: →Li Si ↗

Mem. BW: ↗Li Si ↗LineSize: ↗

MissPenalty: ↗32

LineSize: ↗MissPenalty: →


高オンチプメモリバンド幅を積極活用するには?• 高オンチップメモリバンド幅を積極活用するには?– キャッシュ・ラインサイズ（ブロックサイズ）を拡大

効• その効果は?– アプリケーションが有する「メモリ参照の空間局所性の度合大きく依存度合い」に大きく依存

14 0 104 hydro2date

14 0ate

099 go14.012.010.08.0

104.hydro2d072.sc

052.alvinn

Miss Ra 14.012.0

10.08.0M

iss Ra 134.perl

099.go

6.04.02.00 0B

L1D

$ 6.04.02.00 0B

L1D

$

B tt

33

0.016 32 64128 256

16KB

(%)

Line Size [byte]

0.016 32 64128 256

16KB

(%)

Line Size [byte]

Better

可変ラインサイズ・キャッシュ

プログラム特性に応じてDRAM キャシ間

可変ラインサイズ・キャッシュ

• プログラム特性に応じてDRAMｰキャッシュ間データ転送量（ラインサイズ）を自動調整

参照空間局所性度合を静的もくは動的–メモリ参照の空間局所性の度合いを静的もしくは動的にモニタリング

ラインサイズを動的もしくは静的に決定–ラインサイズを動的もしくは静的に決定SRAM Cache SRAM Cache SRAM Cache

必要となるメモリバンド幅高低

消費するエネルギー高低

DRAM

34

動的可変ラインサイズ・キャッシュ：K. Inoue, K. Kai, and K. Murakami, ``Dynamically Variable Line‐Size Cache Exploiting High On‐Chip Memory Bandwidth of Merged DRAM/Logic LSIs,‘‘ HPCA‐5, 1999. 静的可変ラインサイズ・キャッシュ：T. Ono, K. Inoue, K. Murakami, and K. Yoshida, “Reducing On‐Chip DRAM Energy via Data Transfer Size Optimization,” IEICE Tran. on Electronics, 2009.

消費するエネルギ高低

素朴な疑問その3～温度は性能にどう影響するのか?～

次元積層問題点はチプ温度上昇• 3次元積層LSIの問題点はチップ温度上昇– チップ温度は消費電力に依存– 消費電力はプロセッサの動作周波数に依存

「プロセッサの最大動作周波数はチップ温度• 「プロセッサの最大動作周波数はチップ温度制約により決定」と仮定すると・・・

DRAMMain Memory

Tem. : ↘Freq :↗

Tem. : ↗Freq :↘Freq. : ↗

Mem. Stall: ↗Freq. : ↘Mem. Stall: ↘

35

アプリ特性によっては3Dにより性能が低下する場合がある!

（）mcf（Highly Memory Intensive）動作周波数

•2D: 約2.9GHz約•3D: 約2.5GHz

平均命令実行時間•2D: 約2.53D 約0 6（B ）•3D: 約0.6（Better）

twolf（Less Memory Intensive）twolf（Less Memory Intensive）動作周波数

•2D: 約2.8GHz•3D:約2 4GHz3D: 約2.4GHz

平均命令実行時間•2D: 約0.35 （Better）•3D: 約0.41約

G. L. Loi, B. Agrawal, N. Srivastava, S. Lin, T. Sherwood, and K. Banerjee, “A Thermally‐Aware Performance Analysis of Vertically Integrated (3‐D) Processor‐Memory Hierarchy,” DAC’06.

36

Alpha21364マルチコアの積層では?

100～詳細は21日の発表をご覧下さい～

80

90

(deg C)

2Cores(2D)

制限温度 88.0 (deg C)

60

70

ッサ

温度

2Cores(2D)4Cores4Cores(Flip)8Coresヒートシンク側第1層第2層第3層第4層

40

50

プロセ

ッ 8Cores8Cores(Flip)16Cores16Cores(Flip)

FPU(87.58 deg C)

FPU(87.25 deg C)

Non‐Flip

Flip

FPU(86.59 deg C)

FPU(85.60 deg C)

ホットスポット（温度）

第1層第2層第3層第4層

30

0 0.24 0.48 0.72 0.96 1.2 1.44 1.68 1.92 2.16 2.4プロセッサ動作周波数 (GHz)

16Cores(Flip)FlipInt. Exe. Unit (72.04 deg C)

L1 Cacheの一部分(71.76 deg C)

Int. Exe. Unit(71.33 deg C)

L1 Cacheの一部分(70.68 deg C)

ホットスポット（温度）

プセッサ動作周波数 (GHz)

プロセッサ・コア数

2Cores(2D)

4Cores(3D 2Layers) 8Cores(3D 4Layers) 16Cores(3D 8Layers)

Non‐Flip Flip Non‐Flip Flip Non‐Flip Flip

37

p p p p p p

動作周波数(@ 制限温度) 2.0 0.98 1.18 0.61 0.75 0.37 0.47

素朴な疑問その4～MRAMの積層は本当に得策なのか?～

SRAM DRAM MRAMSRAM DRAM MRAM

Density Low (4MB:44mm2) High (16MB: 49mm2) High (16MB: 38mm2)

Speed Fast (4.659ns) Slow (5.845ns) Read: Fast (4.693ns)Write: Very Slow (12.272ns)

Dynamic Energy / operation

Low (0.103nJ) Medium (0.381nJ) Read: Low (0.102nJ)Write: High (2.126nJ)

Leakage Power High (5.20W) Low (0.52W) Low (0.97W)

Non‐Volatility No No Yes

65nm

X. Dong, X. Wu, G. Sun, Y. Xie, H. Li, and Y. Chen, “Circuit and Microarchitecture Evaluation of 3D Stacking Magnetic RAM (MRAM) as a Universal Memory Replacement,” DAC’08.

38

シングルコア＋MARM‐L2キャッシュの効果は?

性能（IPC）に関しては大幅な改善無し• 性能（IPC）に関しては大幅な改善無し– ワーキングセット・サイズが小さいため?リク消費電力の削減による効果大• リーク消費電力の削減による効果大

4MB 16MB 16MB (W)

IPC

SRAM DRAM MRAM

mic Pow

er

c + Dynam

Static

Alpha 21264 like processor (8way) @ 90nm

X. Dong, X. Wu, G. Sun, Y. Xie, H. Li, and Y. Chen, “Circuit and Microarchitecture Evaluation of 3D Stacking Magnetic RAM (MRAM) as a Universal Memory Replacement,” DAC’08.

39


Performance2MB 8MB 2MB 8MB Performancegalgel, apsi

•若干の性能向上他のベンチマーク

SRAM‐SNUCA MRAM‐SNUCA SRAM‐DNUCA MRAM‐DNUCA

BetBet 他のベンチマク

•MRAMの使用により性能低下•swimとstreamclusterで顕著•書込みレイテンシ増大による

ttertter

書込みレイテンシ増大による後続Readイベントの停滞

2MBSRAM‐SNUCA

8MBMRAM‐SNUCA

2MBSRAM‐DNUCA

8MBMRAM‐DNUCA

Power Consumption全てのベンチマーク

•低消費電力化を実現書ネギが大きた

BetteBette

•書込みエネルギーが大きいため，Writeイベントが多い場合は効果が低減

erer

G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09.

40

MRAMの欠点を解決するアーキテクチャ・サポート

2MB 2MB 8MBアーキテクチャ・サポート

書込み遅延の削減

•ライトバッファのエントリ数を増

BeBe

2MBSRAM‐SNUCA

2MBSRAM‐DNUCA

8MBSRAM+MRAM Hybrid

ラッァリ数を増加（4→20エントリへ）

•ライトイベントの後続リードイベントによる割込み許可

etteretter

書込み回数の削減•MRAMキャッシュの一部をSRAMで実現（31way:MRAM,

）1way:SRAM）•SRAMはコアと同じレイヤに実装

頻繁に書込みが発生するブ

BettBett

•頻繁に書込みが発生するブロックをSRAMへマイグレート

terter

G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09.

41

3Dの世界には様々な「トレードオフ」が存在!～九州大学での取組み～

• 大容量キャッシュ積層は本当に得策か?• 大容量キャッシュ積層は本当に得策か?→SRAM/DRAMハイブリッド・キャッシュ（1月21日「3D‐II」）

• 高メモリバンド幅の活用は本当に得策か?• 高メモリバンド幅の活用は本当に得策か?→可変ラインサイズキャッシュの提案温度は性能にどう影響するのか?• 温度は性能にどう影響するのか?→3Dマルチコアの性能評価/解析（1月21日「3D‐II」）

積層は本当に得策なか• MRAMの積層は本当に得策なのか?→不揮発メモリを用いた3Dメモリ・アーキテクチャ

• その他にも・・・→3Dアクセラレータ・アーキテクチャ

42

様々な3Dアーキテクチャ研究～世界での様々な取組み～

Accelerator on Multi-Core NUCA (w/ NoC) on Multi-Core(Georgia Tech.)

( )(Pennsylvania State Univ.)

DRAM on Multi-Core(Georgia Tech.)

DRAM on Embedded Multi-Core(The University of Michigan, ARM)

•Dong Hyuk Woo, Joshua B. Fryman, Allan D. Knies, Marsha Eng, and Hsien‐Hsin S. Lee. “POD: A 3D‐Integrated Broad‐Purpose Acceleration Layer” In IEEE MICRO Vol 28 No 4 pp 28 40 July/August 2008

43

Layer. In IEEE MICRO, Vol. 28, No. 4, pp.28‐40, July/August, 2008.•G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09.•Gabriel H. Loh, “3D‐Stacked Memory Architectures for Multi‐Core processors,” Int. Symposium on Computer Architecture, 2008.• Taeho Kgil, Shaun D'Souza, Ali Saidi, Nathan Binkert, Ronald Dreslinski, Trevor Mudge, Steven Reinhardt, Krisztian Flautner,”PicoServer: using 3D stacking technology to enable a compact energy efficient chip multiprocessor ,” ASPLOS’06

3Dアーキテクチャ研究のトレンド（私見）～「量」から「質」へ～

第1世代第2世代第3世代

Traditional Devices(E.g. SRAM, DRAM, Logic, …)

Emerging Devicesg g(E.g. NV-Mem., Photonics, …)

Divide & Stacking(E.g. 3D Cache,

)

System 3D Integration

Adaptive 3D Computing(E.g. Run-time Thermal

M )

44

3D ALU, …) Integration Management, …)

パネル討論（16：20～18：20）3次元積層LSIはメインストリームになり得るか?

議論して欲しい内容があれば議論して欲しい内容があればメイルでご連絡下さい!メイルでご連絡下さい!inoue@ait kyushu‐u ac [email protected] u.ac.jp

45

Backup Slides

46

3次元積層プロセッサ...

Documents