3次元積層プロセッサ...

46
3次元積層プロセッサ 3次元積層プロセッサ キテクチャ研究動向 九州大学 井上こうじ 九州大学 井上こうじ [email protected]u.ac.jp1

Upload: others

Post on 03-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • 3次元積層プロセッサ3次元積層プロセッサアーキテクチャの研究動向ア キテクチャ 研究動向

    九州大学 井上こうじ九州大学 井上こうじ

    [email protected]‐u.ac.jp)

    1

  • 世の中いたる所で3D・・・

    なぜ3次元積層なのか?世の中いたる所で3

    2

  • 半導体も2Dから3Dの世界へ!半導体も2Dから3Dの世界へ!• 複数のダイを同一パッケージに集積複数のダイを同 パッケ ジに集積• ダイ間を貫通ビア(Through Silicon Via:TSV)で接続

    Wire‐bonding (WB) 3D stacking ( k )

    TSVTSV

    (System‐in‐Package or SiP)

    Multi‐Level 3D IC

    S

    Package‐on‐Package (POP) 3D stacking

    SensorIO

    AnalogRF

    3

    Source: Yuan Zie, “3D IC Design/Architecture,” Coolchips Special Session, 2009

    Package on Package (POP) 3D stacking gDRAM

    Processor

  • 3次元積層IC(ISSCC’09より)3次元積層IC(ISSCC 09より)

    イメ ジセンサ• イメージセンサ• SoC用SRAM• 大容量DRAM大容量DRAM• マルチコア+SRAM(w/ 無線TSV)• など

    8Gb 3D DRAM(Samsung) SRAM+Multicore(Keio Univ.)SRAM for SoCs(NEC)Image Sensor(MIT)g

    スケールは無関係

    U. Kang et al., “8Gb DDR3 DRAM Using Through‐Silicon‐Via Technology,” ISSCC’09.H. Saito et al., “A Chip‐Stacked Memory for On‐Chip SRAM‐Rich SoCs and Processors, “ ISSCC’09.V. Suntharalingam et al., “A 4‐Side Tileable Back Illuminated 3D‐Integrated Mpixel CMOS Image Sensor,” ISSCC’09.K. Niitsu et al., “An Inductive‐Coupling Link for 3D Integration of a 90nm CMOS Processor and a 65nm CMOS SRAM,” ISSCC’09. 4

  • メニーコア+大容量メモリ~Intel (80 coreテストチップ)~

    Mem

    oryCor

    Mem.‐on‐coreMem.‐on‐cache

    res/Caches

    5

    http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=04382571http://www.legitreviews.com/article/460/1/

  • 3次元積層の「うれしさ」~配線長削減による高性能/低消費電力化~

    送受信モジ ル間の物理的な距離を短縮• 送受信モジュール間の物理的な距離を短縮– 「長い配線の負荷容量」を「TSV負荷容量」に置換え– 得に,グローバル配線において効果大(mm→um)

    • フットプリント面積を削減フットプリント面積を削減– クロック信号や電源ラインなどの配線長を削減

    2次元実装IC6

  • 3次元積層の「うれしさ」~チップ集積による高性能/低消費電力化~• 面と面の接続によるバンド幅拡大• 面と面の接続によるバンド幅拡大

    – Intel: 80個のプロセッサ・コア+SRAM間1)• 1TB/Sのバンド幅で接続

    – HRI: プロセッサ+カスタム回路+SDRAM2)• プロセッサーカスタム回路間:1,056個のTSVで接続• カスタム回路ーSRAM間:278個のTSVで接続

    • 伝送路の負荷容量削減による低レイテンシ/低消費電力化– I/Oピンや基板配線の駆動が不要に!

    1)インテル:http://www.intel.com/pressroom/archive/releases/20060926corp_b.htm2)日経マイクロデバイス2008年2月

    7

  • 3次元積層の「うれしさ」~異種ダイの積層による高機能化~

    製造プ セ 異なるダイを低 ト 積層• 製造プロセスの異なるダイを低コストで積層– 従来のSiP– TSVを用いることでダイ間を高バンド幅で接続可能

    • 従来にない新しい応用の可能性従来にない新しい応用の可能性• SRAM/DRAM以外の選択肢(例:不揮発性メモリの積層など)など)

    8

  • 3次元積層の「うれしさ」~更に,低コスト化までも・・・~

    100100100

    t

    100古い世代のプロセス技術を用いることでコスト削減も可能に!!

    10

    ovem

    ent Fine Process

    10スト削減も可能に!!

    1ce Im

    pro

    1Power Consumption

    1

    rfor

    man

    mes

    )

    Stacking 微細化に頼らない高集積化

    0.1

    Process node (nm)

    Per

    (tim

    180 130 90 65 45 32 22 15 12

    g0.1

    Process node (nm)N.Miyakawa,”3D Stacking Technology for Improvement of System Performance,”International Trade Partners Conference, Nov.2008 9

  • 3次元積層マイクロプロセッサ・アーキテクチャ

    10

  • 3次元積層デバイスへの期待~アーキテクチャの観点から~

    プロセッサコアやメモリそのものの積層• プロセッサコアやメモリそのものの積層• マルチコア+マルチコア

    いわゆる メ ア化– いわゆる,メニーコア化• マルチコア(メニーコア)+メモリ

    大容量メ リの積層による「メ リ ウ 問題 の– 大容量メモリの積層による「メモリーウォール問題」の解決(SRAM,DRAMなど)

    – 新デバイス(MRAMなど)の積層による高性能化/低新デバイス(MRAMなど)の積層による高性能化/低消費電力化/不揮発性の活用

    • マルチコア+アクセラレータラ– 用途の絞り込みによる加速実行の実現(専用ASIC,再構成可能ハードウェア,ASIP,演算器アレイなど)実行効率を向上– 実行効率を向上

    11

  • 3次元積層化のポイントは?~「配線長短縮」と「オンチップ化」~

    Divide & Stack Design Reuse

    3D Communicati

    on

    Example Wire Length 

    Reduction

    On‐Chip Integration

    Subsystem High Chip •Core‐on‐CoreSubsystem•Multi‐Processor•Processor+Large‐Memory•Processor+Accelerator,•Etc

    High ChipInterconnect

    Core on Core•Cache‐on‐Core•Main‐Mem.‐on‐Core•Accelerator‐on‐Core

    √ √Etc.

    Module•CPU Core•CacheM i M

    Mid. Global/Local wires

    •ALU‐on‐ALU•Cache Bank‐on‐Bank•RF‐on‐ALU √

    •Main Memory•Etc.

    Functional Unit Block (FUB)•Memory Array

    Low Global/Local wires

    •Mem. Array Splitting•ALU Splitting √y y•ALU, RF, Issue Queue

    •Etc.

    p g•RF Splitting• Issue Queue Splitting

    Gatealmost no reuse

    Global/Local wires

    •Gate Splitting √

    12

    reuse wires √

  • 3次元積層化のポイントは?~「配線長短縮」と「オンチップ化」~

    Divide & Stack Design Reuse

    3D Communicati

    on

    Example Wire Length 

    Reduction

    On‐Chip Integration

    Subsystem High Chip •Core‐on‐CoreSubsystem•Multi‐Processor•Processor+Large‐Memory•Processor+Accelerator,•Etc

    High ChipInterconnect

    Core on Core•Cache‐on‐Core•Main‐Mem.‐on‐Core•Accelerator‐on‐Core

    √ √Etc.

    Module•CPU Core•CacheM i M

    Mid. Global/Local wires

    •ALU‐on‐ALU•Cache Bank‐on‐Bank•RF‐on‐ALU √

    •Main Memory•Etc.

    Functional Unit Block (FUB)•Memory Array

    Low Global/Local wires

    •Mem. Array Splitting•ALU Splitting √y y•ALU, RF, Issue Queue

    •Etc.

    p g•RF Splitting• Issue Queue Splitting

    Gatealmost no reuse

    Global/Local wires

    •Gate Splitting √

    13

    reuse wires √

  • FUBレベルの3次元積層FUBレベルの3次元積層• その狙いは?その狙いは?

    – フットプリント面積の削減内部 配線長短縮による低 イ– Module/FUB内部の配線長短縮による低レイテン

    シ/低消費電力化フットプリント面積の削減

    L3アクセスの低レイテンシ/低消費電力

    CPU

    CPUCore

    L3Cache

    CPUCore

    L3Cache

    L3CPUCore

    L3Cache

    L3アクセスの低レイテンシ/低消費電力

    CPUCore

    Core Cache Core L3Cache

    Core Cache

    2次元実装 3次元積層(C h C )

    3次元積層(Bank on Bank)(Cache‐on‐Core) (Bank‐on‐Bank)

    14

  • キャッシュ・メモリを分割&積層する!~ベースモデル:2次元キャッシュ~

    r

    Word LineBit Line

    r r r

    1MB 4‐way Set‐Associative Cache

    Bank0

    WL Dec&D

    Bank1WL Dec&D

    Bank2

    WL Dec&D

    Bank3

    WL Dec&D

    Mux&SA Mux&SA Mux&SA Mux&SA

    Pre Dec.Address

    elay (n

    s)

    &Dr

    Mux&SA

    &Dr

    Mux&SA

    &Dr

    Mux&SA

    &Dr

    Mux&SAOutput D

    e

    Bank4

    WL Dec&

    Bank5

    WL Dec&

    Bank6

    WL Dec&

    Bank7WL Dec&

    Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3‐D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008. 15

  • キャッシュ・メモリを分割&積層する!~バンク同士を積層する~

    1MB 4 S t A i ti C h

    r

    Word LineBit Line

    r

    1MB 4‐way Set‐Associative Cache

    Bank2

    WL Dec&Dr

    Bank3

    WL Dec&Dr

    Bank0

    WL Dec&D

    Bank1

    WL Dec&D

    W

    Mux&SAW

    Mux&SAMux&SA Mux&SA

    Pre Dec.Address

    elay (n

    s)

    ?Mux&SA Mux&SA

    &Dr

    Mux&SA

    &Dr

    Mux&SAOutput D

    e

    後述するDWLと同程度の効果と予想される

    Bank6

    WL Dec&Dr

    Bank7

    WL Dec&Dr

    Bank4

    WL Dec&

    Bank5

    WL Dec&

    K. Ruttaswamy and G. H. Loh, “Implementing Caches in a 3D Technology for High Performance Processors,” ICCD’05 16

  • キャッシュ・メモリを分割&積層する!~メモリアレイをWL方向に分割して積層する~

    1MB 4‐way Set‐Associative Cache1MB 4 way Set Associative Cache

    r r r r

    Word LineBit Line 2D‐BASE

    WL Dec&Dr

    WL Dec&Dr

    WL Dec&Dr

    WL Dec&Dr

    WL Dec&D

    WL Dec&D

    WL Dec&D

    WL Dec&D

    3D‐DWL

    W W W W

    elay (n

    s)

    AddressPre Dec.

    Dr

    Dr

    Dr

    Dr

    De

    &Dr

    &Dr

    &Dr

    &Dr

    Output

    WL Dec&D

    WL Dec&D

    WL Dec&D

    WL Dec&D

    WL Dec&

    WL Dec&

    WL Dec&

    WL Dec&

    アドレス/データ線の短縮効果大!

    Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3‐D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008.

    Nx×NyNx:3次元方向へのWB分割数Ny:3次元方向へのBL分割数17

  • キャッシュ・メモリを分割&積層する!~メモリアレイをWL/BL方向に分割して積層する~

    1MB 4‐way Set‐Associative Cache1MB 4 way Set Associative Cache

    2D‐BASE

    3D‐DWL3D‐DBL (BL分割)

    (2 wafers) 3D‐DBL(2 wafers)

    3D‐DWL(4 wafers) 3D‐DWL

    (8 wafers)

    (4 wafers)

    (8 wafers)

    アクセス消費エネルギ

    Y. Tsai, F. Wang, Y. Xie, N. Vijaykrishnan, and M. J. Irwin, “Design Space Exploration for 3‐D Cache,” IEEE Trans. On VLSI Systems, vol.16, No.4, Apr. 2008.

    アクセス消費エネルギーも同時に削減

    18

  • レジスタファイルを分割&積層する!~3つのアプローチ~

    • レジスタ分割:エントリを複数グループに分割し積層• レジスタ分割:エントリを複数グル プに分割し積層– ビットラインの短縮効果

    • ビット分割:上位/下位ビットに分割し積層(WL短縮)/– ワードラインの短縮効果

    • ポート分離:ポート(WL+BL)を分離し積層(bit/面積縮小)ビ ド イ 短縮効果(ただ 積 大)– ビット/ワードラインの短縮効果(ただし,TSV面積コスト大)

    Reg. Partitioned Bit Partitioned Port Split

    K. Puttaswamy and G. H. Loh, “Implementing Register Files for High‐Performance Microprocessors in a Die‐Stacked (3D) Technology,” ISVLSI’06.

    19

  • その他のモジュール/FUBを分割&積層する!

    Thermal HerdingLeast significant 16 bits (15:0)

    Thermal Herding

    16 bits (31:16)

    16 bits (47:32)

    16 bits (63:48)

    20

    •Kiran Puttaswamy and Gabriel H. Loh, “Thermal Herding: Microarchitecture Techniques for Controlling Hotspots in High‐Performance 3D‐Integrated Processors ,” HPCA 2007

    •B. Vaidyanathan., W‐L. Hung, F. Wang, Yuan Xie, N. Vijaykrishnan, M. J. Irwin.“Architecting Microprocessor Components in 3D Design Space,” VLSID 2007

  • Case Study: Alpha 21364の場合~どのように3次元積層するか?~全 を 次 実装 仮定• 全てのFUBを3次元実装(と仮定)– フットプリント面積が1/2に!ッ リン 面積 /– 各FUBのレイテンシ短縮

    F 2D t 3DFrom 2D to 3D

    Xie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

    21

  • Case Study: Alpha 21364の場合~どの程度,性能(IPC×F)が向上するのか?~

    FUBの3次元化により動作周波数 3次元積層によりFUBの機FUBの3次元化により動作周波数を向上(フットプリント面積削減)

    2層

    3次元積層によりFUBの機能拡大(エントリ数増等)

    2層 4層4層

    クラスタ単位で積層

    Xie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

    22

  • Case Study: Pentium4の場合~どのように3次元積層するか?~複数FUBを積層しパイプラインステ ジを25%削減• 複数FUBを積層しパイプラインステージを25%削減– DL1とFU→load‐to‐use遅延を削減– RFとFP→FP実行までの遅延を削減実行 遅延を削減

    • FUBを分割積層しレイテンシを削減– UL2キャッシュ性能は 程度向上 か 消費電力を 削減• 性能は15%程度向上,かつ,消費電力を25%削減

    1st Layer 2nd LayerXie, G. H. Loh, B. Black, and K. Bernstein, “Design Space Exploration for 3D Architectures,” ACM Journal on Emerging Technologies in Computing Systems, Vol.2, Nu.2, April 2006.

    23

  • 【ディスカッション】モジュール/FUBレベルの3D化は有効か?

    分割積 る実装 積 立 床 積 削減• 分割積層による実装面積(立て床面積)の削減– 大きな効果あり大きな効果あり

    • 配線長削減による速度向上と低消費電力化多くの場合で効果は限定的( 0 20%の改善)– 多くの場合で効果は限定的(e.g. 10~20%の改善)

    – 主記憶やキャッシュといった「規則的構造を有し,かつ,潜在的にグローバル配線がクリティカルになる場合」は効果あり

    • 「3Dによりもたらされるブレークスルー」はどこにあるのか?→On-Chip 3D Integration!にあるのか?→On Chip 3D Integration!

    24

  • 3次元積層化のポイントは?~「配線長短縮」と「オンチップ化」~

    Divide & Stack Design Reuse

    3D Communicati

    on

    Example Wire Length 

    Reduction

    On‐Chip Integration

    Subsystem High Chip •Core‐on‐CoreSubsystem•Multi‐Processor•Processor+Large‐Memory•Processor+Accelerator,•Etc

    High ChipInterconnect

    Core on Core•Cache‐on‐Core•Main‐Mem.‐on‐Core•Accelerator‐on‐Core

    √ √Etc.

    Module•CPU Core•CacheM i M

    Mid. Global/Local wires

    •ALU‐on‐ALU•Cache Bank‐on‐Bank•RF‐on‐ALU √

    •Main Memory•Etc.

    Functional Unit Block (FUB)•Memory Array

    Low Global/Local wires

    •Mem. Array Splitting•ALU Splitting √y y•ALU, RF, Issue Queue

    •Etc.

    p g•RF Splitting• Issue Queue Splitting

    Gatealmost no reuse

    Global/Local wires

    •Gate Splitting √

    25

    reuse wires √

  • そもそも,マイクロプロセッサの進化は「インテグレーション」による!

    Intel 4004 (1971) Intel 486 (1989)Intel 4004 (1971) Intel 486 (1989)

    2,300個のトランジスタを 数値演算コプロセッサと

    Intel Pentium D (2005)

    , 個 ラ タを集積

    数値演算 プ セッサとキャッシュメモリを集積

    Intel Test Chip (2007)Intel Pentium D (2005) Intel Test Chip (2007)

    80個のプロセッサコアを1つのダイに

    2個のプロセッサコアを1つのパッケージに集積

    コアを1つのダイに集積

    出展: http://ja.wikipedia.org/wiki/Intel_486,  http://ascii24.com/news/i/tech/article/2005/05/27/655984‐000.html,http://www.intel.com/museum/online/hist_micro/hof/index.htm, http://techresearch.intel.com/articles/Tera‐Scale/1421.htm

    1つのパッケ ジに集積

    26

  • インテグレーションが成功するには?インテグレーションが成功するには?• マイクロプロセッサのお仕事は?• マイクロプロセッサのお仕事は?

    – プログラム(ソフトウェア)を「効率よく」実行• インテグレーションの効果を発揮するには?

    – ソフトウェアの特性を考慮する事が重要ソフトウ アの特性を考慮する事が重要

    成功例:キャッシュメモリの場合

    Program

    モリアドレス

    Processor

    時間

    メモ Cache

    頻繁に参照されるメモリ領域を多くのプログラムは

    「メモリ参照の時間/空間局所性」が有る!!

    頻繁に参照されるメモリ領域をキャッシュメモリに保存

    27

  • アーキテクチャ屋としての「面白さ」はどこに?

    3次元積層の光と影:「4つの素朴な疑問」から見るア キテクチ アプロ チ

    ア キテクチャ屋としての 面白さ」はどこに?

    から見るアーキテクチャ・アプローチ

    28

  • 素朴な疑問その1~大容量キャッシュ積層は本当に得策か?~

    平均メモリアクセス時間:AMAT

    L1キャッシュのアクセス時間[cc]

    L1キャッシュミスの割合

    L2キャッシュのアクセス時間[cc]

    L2キャッシュミスの割合

    主記憶のアクセス時間[cc]

    平均メモリアクセス時間:AMAT

    MMAT )MRHT(MRHTAMAT LLLL 2211

    アクセス時間[cc] ミスの割合 アクセス時間[cc] ミスの割合 アクセス時間[cc]

    DRAMスタック法の効果

    (?)

    32MB DRAMCache

    29ベースプロセッサ(2次元実装) DRAMスタック法(3次元実装)

  • アプリ特性によっては3Dにより性能が低下する場合もある!

    L1キャッシュの L1キャッシュ L2キャッシュの L2キャッシュ 主記憶の

    MMAT )MRHT(MRHTAMAT LLLL 2211

    アクセス時間[cc] ミスの割合 アクセス時間[cc] ミスの割合 アクセス時間[cc]

    DRAMスタック法の効果

    (?)

    3.0

    性能向上率LU50

    60

    %]

    1.5

    2.0

    2.5 OceanFFT

    Ocean30

    40

    s Rates [%

    100 80 10050

    0

    1.0

    0

    0.5 CholeskyCholesky

    FMM

    WaterSpatial10

    20

    L2 M

    iss

    2060 40

    100 80150

    200

    100

    0 L2キャッシュアクセス時間の増加L2キャッシュミス率の削減率

    [cc][points]30

    Barnes Raytrace02MB 4MB 8MB 16MB 32MB 64MB 128MB

    L2 Size

  • SRAM/DRAMハイブリッド・キャッシュ~詳細は21日の発表をご覧下さい~

    の動作モ ドをサポ ト• 2つの動作モードをサポート– 「高速かつ小容量」なSRAMキャッシュ・モード– 「低速かつ大容量」なDRAMキャッシュ・モード

    • 実行プログラムが要求するメモリ容量に応じて実行プログラムが要求するメモリ容量に応じて動作モード選択

    • 高性能化と低消費電力化を同時に達成可能!• 高性能化と低消費電力化を同時に達成可能!32MB DRAM

    C h

    32MB DRAMCacheCache Cache

    31橋口慎哉, 小野貴継, 井上弘士, 村上和彰, “3次元DRAM‐プロセッサ積層実装を対象としたオンチップ・メモリ・アーキテクチャの提案と評価,”情報処理学会研究報告, Vol. 2009‐ARC‐183, No.16, 2009年4月.

  • 素朴な疑問その2~高メモリバンド幅の活用は本当に得策か?~

    イク プ セ サと主記憶の チ プ化• マイクロプロセッサと主記憶の1チップ化– キャッシュ-主記憶間のデータ転送能力が劇的に向上– ミス・ペナルティの増加を伴う事無くラインサイズ(ブロックサイズ)を拡大可能

    平均メモリアクセス時間 = キャッシュヒット時間+ミス率×ミスペナルティミスペナルティ = DRAMアクセス時間+ラインサイズ/バンド幅

    DRAMMain Memory

    Mem. BW: →Li Si ↗

    Mem. BW: ↗Li Si ↗LineSize: ↗

    MissPenalty: ↗32

    LineSize: ↗MissPenalty: →

  • アプリ特性によっては3Dにより性能が低下する場合もある!

    高オンチ プメモリバンド幅を積極活用するには?• 高オンチップメモリバンド幅を積極活用するには?– キャッシュ・ラインサイズ(ブロックサイズ)を拡大

    効• その効果は?– アプリケーションが有する「メモリ参照の空間局所性の度合 大きく依存度合い」に大きく依存

    14 0 104 hydro2date 

    14 0ate 

    099 go14.012.010.08.0

    104.hydro2d072.sc

    052.alvinn

    Miss Ra 14.012.0

    10.08.0M

    iss Ra 134.perl

    099.go

    6.04.02.00 0B

     L1D

    $  6.04.02.00 0B

     L1D

    B tt

    33

    0.016 32 64128 256

    16KB

    (%)

    Line Size [byte]

    0.016 32 64128 256

    16KB

    (%)

    Line Size [byte]

    Better

  • 可変ラインサイズ・キャッシュ

    プログラム特性に応じてDRAM キャ シ 間

    可変ラインサイズ・キャッシュ

    • プログラム特性に応じてDRAMーキャッシュ間データ転送量(ラインサイズ)を自動調整

    参照 空間局所性 度合 を静的も くは動的–メモリ参照の空間局所性の度合いを静的もしくは動的にモニタリング

    ラインサイズを動的もしくは静的に決定–ラインサイズを動的もしくは静的に決定SRAM Cache SRAM Cache SRAM Cache

    必要となるメモリバンド幅高 低

    消費するエネルギー高 低

    DRAM

    34

    動的可変ラインサイズ・キャッシュ:K. Inoue, K. Kai, and K. Murakami, ``Dynamically Variable Line‐Size Cache Exploiting High On‐Chip Memory Bandwidth of Merged DRAM/Logic LSIs,‘‘ HPCA‐5, 1999. 静的可変ラインサイズ・キャッシュ:T. Ono, K. Inoue, K. Murakami, and K. Yoshida, “Reducing On‐Chip DRAM Energy via Data Transfer Size Optimization,” IEICE Tran. on Electronics, 2009.

    消費するエネルギ高 低

  • 素朴な疑問その3~温度は性能にどう影響するのか?~

    次元積層 問題点はチ プ温度上昇• 3次元積層LSIの問題点はチップ温度上昇– チップ温度は消費電力に依存– 消費電力はプロセッサの動作周波数に依存

    「プロセッサの最大動作周波数はチップ温度• 「プロセッサの最大動作周波数はチップ温度制約により決定」と仮定すると・・・

    DRAMMain Memory

    Tem. : ↘Freq :↗

    Tem. : ↗Freq :↘Freq. : ↗

    Mem. Stall:  ↗Freq. : ↘Mem. Stall: ↘

    35

  • アプリ特性によっては3Dにより性能が低下する場合がある!

    ( )mcf(Highly Memory Intensive)動作周波数

    •2D: 約2.9GHz約•3D: 約2.5GHz

    平均命令実行時間•2D: 約2.53D 約0 6(B )•3D: 約0.6(Better)

    twolf(Less Memory Intensive)twolf(Less Memory Intensive)動作周波数

    •2D: 約2.8GHz•3D:約2 4GHz3D: 約2.4GHz

    平均命令実行時間•2D: 約0.35 (Better)•3D: 約0.41約

    G. L. Loi, B. Agrawal, N. Srivastava, S. Lin, T. Sherwood, and K. Banerjee, “A Thermally‐Aware Performance Analysis of Vertically Integrated (3‐D) Processor‐Memory Hierarchy,” DAC’06.

    36

  • Alpha21364マルチコアの積層では?

    100~詳細は21日の発表をご覧下さい~

    80

    90

    (deg C)

    2Cores(2D)

    制限温度 88.0 (deg C)

    60

    70

    ッサ

    温度

    2Cores(2D)4Cores4Cores(Flip)8Coresヒートシンク側第1層 第2層 第3層 第4層

    40

    50

    プロセ

    ッ 8Cores8Cores(Flip)16Cores16Cores(Flip)

    FPU(87.58 deg C)

    FPU(87.25 deg C)

    Non‐Flip

    Flip

    FPU(86.59 deg C)

    FPU(85.60 deg C)

    ホットスポット(温度)

    第1層 第2層 第3層 第4層

    30

    0 0.24 0.48 0.72 0.96 1.2 1.44 1.68 1.92 2.16 2.4プロセッサ動作周波数 (GHz)

    16Cores(Flip)FlipInt. Exe. Unit (72.04 deg C) 

    L1 Cacheの一部分(71.76 deg C)

    Int. Exe. Unit(71.33 deg C)

    L1 Cacheの一部分(70.68 deg C)

    ホットスポット(温度)

    プ セッサ動作周波数 (GHz)

    プロセッサ・コア数

    2Cores(2D)

    4Cores(3D 2Layers) 8Cores(3D 4Layers) 16Cores(3D 8Layers)

    Non‐Flip Flip Non‐Flip Flip Non‐Flip Flip

    37

    p p p p p p

    動作周波数(@ 制限温度) 2.0 0.98 1.18 0.61 0.75 0.37 0.47

  • 素朴な疑問その4~MRAMの積層は本当に得策なのか?~

    SRAM DRAM MRAMSRAM DRAM MRAM

    Density Low (4MB:44mm2) High (16MB: 49mm2) High  (16MB: 38mm2)

    Speed Fast (4.659ns) Slow (5.845ns) Read: Fast (4.693ns)Write: Very Slow (12.272ns)

    Dynamic Energy / operation

    Low (0.103nJ) Medium (0.381nJ) Read: Low (0.102nJ)Write: High (2.126nJ)

    Leakage Power High (5.20W) Low (0.52W) Low (0.97W)

    Non‐Volatility No No Yes

    65nm

    X. Dong, X. Wu, G. Sun, Y. Xie, H. Li, and Y. Chen, “Circuit and Microarchitecture Evaluation of 3D Stacking Magnetic RAM (MRAM) as a Universal Memory Replacement,” DAC’08.

    38

  • シングルコア+MARM‐L2キャッシュの効果は?

    性能(IPC)に関しては大幅な改善無し• 性能(IPC)に関しては大幅な改善無し– ワーキングセット・サイズが小さいため?リ ク消費電力の削減による効果大• リーク消費電力の削減による効果大

    4MB 16MB 16MB (W)

    IPC

    SRAM DRAM MRAM

    mic Pow

    er 

    c + Dynam

    Static

    Alpha 21264 like processor (8way) @ 90nm

    X. Dong, X. Wu, G. Sun, Y. Xie, H. Li, and Y. Chen, “Circuit and Microarchitecture Evaluation of 3D Stacking Magnetic RAM (MRAM) as a Universal Memory Replacement,” DAC’08.

    39

  • アプリ特性によっては3Dにより性能が低下する場合もある!

    Performance2MB 8MB 2MB 8MB Performancegalgel, apsi

    •若干の性能向上他のベンチマーク

    SRAM‐SNUCA MRAM‐SNUCA SRAM‐DNUCA MRAM‐DNUCA

    BetBet 他のベンチマ ク

    •MRAMの使用により性能低下•swimとstreamclusterで顕著•書込みレイテンシ増大による

    ttertter

    書込みレイテンシ増大による後続Readイベントの停滞

    2MBSRAM‐SNUCA

    8MBMRAM‐SNUCA

    2MBSRAM‐DNUCA

    8MBMRAM‐DNUCA

    Power Consumption全てのベンチマーク

    •低消費電力化を実現書 ネ ギ が大き た

    BetteBette

    •書込みエネルギーが大きいため,Writeイベントが多い場合は効果が低減

    erer

    G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09.

    40

  • MRAMの欠点を解決するアーキテクチャ・サポート

    2MB 2MB 8MBアーキテクチャ・サポート

    書込み遅延の削減

    •ライトバッファのエントリ数を増

    BeBe

    2MBSRAM‐SNUCA

    2MBSRAM‐DNUCA

    8MBSRAM+MRAM Hybrid

    ラ ッ ァ リ数を増加(4→20エントリへ)

    •ライトイベントの後続リードイベントによる割込み許可

    etteretter

    書込み回数の削減•MRAMキャッシュの一部をSRAMで実現(31way:MRAM, 

    )1way:SRAM)•SRAMはコアと同じレイヤに実装

    頻繁に書込みが発生するブ

    BettBett

    •頻繁に書込みが発生するブロックをSRAMへマイグレート

    terter

    G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09.

    41

  • 3Dの世界には様々な「トレードオフ」が存在!~九州大学での取組み~

    • 大容量キャッシュ積層は本当に得策か?• 大容量キャッシュ積層は本当に得策か?→SRAM/DRAMハイブリッド・キャッシュ(1月21日「3D‐II」)

    • 高メモリバンド幅の活用は本当に得策か?• 高メモリバンド幅の活用は本当に得策か?→可変ラインサイズキャッシュの提案温度は性能にどう影響するのか?• 温度は性能にどう影響するのか?→3Dマルチコアの性能評価/解析(1月21日「3D‐II」)

    積層は本当に得策な か• MRAMの積層は本当に得策なのか?→不揮発メモリを用いた3Dメモリ・アーキテクチャ

    • その他にも・・・→3Dアクセラレータ・アーキテクチャ

    42

  • 様々な3Dアーキテクチャ研究~世界での様々な取組み~

    Accelerator on Multi-Core NUCA (w/ NoC) on Multi-Core(Georgia Tech.)

    ( )(Pennsylvania State Univ.)

    DRAM on Multi-Core(Georgia Tech.)

    DRAM on Embedded Multi-Core(The University of Michigan, ARM)

    •Dong Hyuk Woo, Joshua B. Fryman, Allan D. Knies, Marsha Eng, and Hsien‐Hsin S. Lee. “POD: A 3D‐Integrated Broad‐Purpose Acceleration Layer” In IEEE MICRO Vol 28 No 4 pp 28 40 July/August 2008

    43

    Layer.  In IEEE MICRO, Vol. 28, No. 4, pp.28‐40, July/August, 2008.•G. Sun, X. Dong, Y. Xie, J. Li, and Y. Chen, “A Novel Architecture of the 3D Stacked MRAM L2 Cache for CMPs,” HPCA’09.•Gabriel H. Loh, “3D‐Stacked Memory Architectures for Multi‐Core processors,” Int. Symposium on Computer Architecture, 2008.• Taeho Kgil, Shaun D'Souza, Ali Saidi, Nathan Binkert, Ronald Dreslinski, Trevor Mudge, Steven Reinhardt, Krisztian Flautner,”PicoServer: using 3D stacking technology to enable a compact energy efficient chip multiprocessor ,” ASPLOS’06

  • 3Dアーキテクチャ研究のトレンド(私見)~「量」から「質」へ~

    第1世代 第2世代 第3世代

    Traditional Devices(E.g. SRAM, DRAM, Logic, …)

    Emerging Devicesg g(E.g. NV-Mem., Photonics, …)

    Divide & Stacking(E.g. 3D Cache,

    )

    System 3D Integration

    Adaptive 3D Computing(E.g. Run-time Thermal

    M )

    44

    3D ALU, …) Integration Management, …)

  • パネル討論(16:20~18:20)3次元積層LSIはメインストリームになり得るか?

    議論して欲しい内容があれば議論して欲しい内容があればメイルでご連絡下さい!メイルでご連絡下さい!inoue@ait kyushu‐u ac [email protected] u.ac.jp

    45

  • Backup Slides

    46