データ値の局所性を利用したライン共有キャッシュの提案

データ値の局所性を利用したライン共有キャッシュの提案

九州大学大学院　　　　　　　　○岡　慶太郎福本　尚人　　　　　　　　井上　弘士　　村上　和彰

1

キャッシュメモリの大容量化

• マルチコア・プロセッサが主流• メモリウォール問題の深刻化

– メモリアクセス要求増加– IOピンの制限

→大容量の LL(Last Level)キャッシュを搭載

2* http://www.atmarkit.co.jp/fsys/zunouhoudan/102zunou/corei7.html

Core i7のチップ写真*

8MBのL3キャッシュを

搭載

キャッシュメモリの大容量化の問題点

• リーク消費電力増加– 容量 1MB→8MBで 8倍 *

• アクセスレイテンシ増加– 容量 1MB→8MBで 2.1倍 *

3

大幅な面積増加を伴わず，オフチップメモリアクセス回数を削減する手法

が必要

* CACTIによりブロックサイズ 64B,連想度 8で実験した結果

目次

• 研究背景• 着目点：データ値の局所性• ライン共有キャッシュ• 評価–ミス率，面積， L1ミスペナルティ

• まとめ• 今後の課題

4

• 従来型キャッシュメモリのキャッシング方法– 参照アドレスに基づいてブロックの格納場所を決定

• データ値の局所性が高いデータ値の局所性：メモリアドレスが異なる多数のデータが同一の値を有する性質

• 仮説– キャッシュ内に同一データ値を有するブロックが多数存在

タグ

ライン

001000

010011

LLキャッシュメモリインデック

ス

100101110111

従来型キャッシュメモリは容量を無駄遣い！？

5

ブロックの格納場所

書込みブロック A

インデックス

タグ0100 001

参照アドレス

0100 A ブロック：キャッシュのレベル間で取り交わすデータ

B

データ値：ブロックのデータの値

タグ

B

ライン

001000

010011

LLキャッシュメモリインデック

ス

100101110111

従来型キャッシュメモリは容量を無駄遣い！？

6

ブロックの格納場所

書込みブロック A

インデックス

タグ0000 101

参照アドレス

0100 A

データ値：ブロックのデータの値

0000 A

• 従来型キャッシュメモリのキャッシング方法– 参照アドレスに基づいてブロックの格納場所を決定

• データ値の局所性が高いデータ値の局所性：メモリアドレスが異なる多数のデータが同一の値を有する性質

• 仮説– キャッシュ内に同一データ値を有するブロックが多数存在

ブロック：キャッシュのレベル間で取り交わすデータ

従来型キャッシュメモリにおけるデータ値の局所性分析

多くのプログラムでキャッシュメモリ内のデータ値の局所性が高い

7

n:ブロック置き換え回数

平均圧縮率 =

キャッシュメモリ内のデータ値の局所性を平均圧縮率を用いて分析

Cholesky

BarnesFF

TFM

M

LUContig

LUNonco

ntig

OceanContig

WaterN

S

WaterSp

atial

average

00.20.40.60.8

64B 32B 16B 8B

平均圧縮率

キャッシュメモリ

AC

BA

B

圧縮率 =

キャッシュ容量 :1MB

ブロックサイズ

平均圧縮率が低い程，キャッシュメモリ内のデータ値の局所性が高い

研究概要

• 着目点–キャッシュメモリ内に同一値を有するデータが多く存在

• 研究目的– LLキャッシュメモリの面積を大きく増加することなくLLキャッシュミス率を削減

• 提案手法–同一データ値を有するラインを共有し，容量を効率的に利用

–同容量の従来型キャッシュと比較し，最大でミス率を 18ポイント削減可能

8

目次

• 研究背景• 着目点：データ値の局所性• ライン共有キャッシュ• 評価–ミス率，面積， L1ミスペナルティ


9

ライン共有キャッシュの概念LSC(Line Sharing Cache)

従来型キャッシュに比べ，より多くのデータ値をキャッシュメモリに格納可能

10

従来型キャッシュ

タグアレイ

データアレイ

…

タグアレイ

…Ａ

Ａ

Ａ

データアレイ

…

A

タグのエントリ数増

加

参照アドレスに基づきブロックを格納するラインを決定

同一データ値を有するブロックを格納するラインを 1箇所に限定

ライン共有キャッシュ

解決すべき課題その 1～如何にしてタグとラインを紐付けるか ?～

11

?

?

データアレイ

11111

ライン

0100

0110

…

タグ

タグアレイ

各タグは対応するラインを特定できない

• タグに対応するラインを特定する必要あり• 問題点：各タグに対応するラインを特定不可能• 解決策：行番号によるラインの区別と各タグに行ポインタ

配置


12

データアレイ

11111

ライン000

001010011100101110111

行番号

0100

0110

…

タグ

タグアレイ

?

?

• タグに対応するラインを特定する必要あり• 問題点：各タグに対応するラインを特定不可能• 解決策：行番号によるラインの区別と各タグに行ポインタ

配置

各タグは対応するラインを特定できない


• タグに対応するラインを特定する必要あり• 問題点：各タグに対応するラインを特定不可能• 解決策：行番号によるラインの区別と各タグに行ポインタ配置

13

タグ・ポインタアレイ

0100

0110

…

タグ

…

行ポインタ

100

100

データアレイ

11111

ライン000

001010011100101110111

行番号タグアレイ

解決すべき課題その 2～如何にして効率の良いデータ検索を実現するか ?～

• 書込み動作：データアレイの全ラインを探索する必要あり

• 問題点：検索コストが大• 解決策：データ値を用いたハッシング


000001010011100101110111

データアレイ行番号

11111

0100

0110

…

タグインデックス

111

…

行ポインタ0000

000100100011

111111101101110010111001書込みブロッ

ク 11111

インデックス

タグ0100 0001

参照アドレス

=一致

書き込みデー

タ値の検索

ライン

14




15


0100

0110

…


111

…

行ポインタ0000

000100100011

111111101101110010111001書込みブロッ

ク 11111

インデックス

タグ0100 0001

参照アドレス

行番号とデータ値の下位 3ビットを対応付けてブロックを配置

000001010011100101110111


11111

書き込みデー

タ値の検索

ライン

11111

行番号のサイズ




16


0100

0110

…


111

…

行ポインタ0000

000100100011

111111101101110010111001書込みブロッ

ク 11111

インデックス

タグ0100 0001

参照アドレス

書込みデータ値の下位 3ビット

に対応する行番号にアクセス

=一致

000001010011100101110111


書き込みデー

タ値の検索

ライン

11111

書込みデータ値がラインに存在

(データ値ヒット )





17


0100

0110

…


111

…

行ポインタ0000

000100100011

111111101101110010111001書込みブロッ

ク 11111

インデックス

タグ0100 0001

参照アドレス111

000001010011100101110111

データアレイライン

11111

行番号を行ポインタに書込み

書込みデータ値がラインに存在

(データ値ヒット )




• データアレイ：各行番号に 1ラインを対応付け• 問題点：ブロックの追出しが頻発• 解決策：データアレイの水平分割と列ポインタの導入


0100

0110…


111

…

行ポインタ0000

000100100011

111111101101110010111001

データアレイ

000001010011100101110111

ライン

解決すべき課題その 3～如何にしてデータアレイでの書込み競合を回避する

か ?～

書込みブロック 00111

indextag0100 0001

参照アドレス

=一致

行番号

11111

18



0100

0110…


111

…

行ポインタ0000

000100100011

111111101101110010111001


か ?～


indextag0100 0001

参照アドレス



データアレイ

000001010011100101110111

ライン

書込みデータ値がラインに非存在

(データ値ミス )

ブロックの追出しが必要

行番号

11111

19




か ?～


indextag0100 0001

参照アドレス

データアレイ

000001010011100101110111

ライン

行番号

11111


0100

0110…


111

…

行ポインタ0000

000100100011

111111101101110010111001

20


か ?～• データアレイ：各行番号に 1ラインを対応付け• 問題点：ブロックの追出しが頻発• 解決策：データアレイの水平分割と列ポインタの導入


indextag0100 0001

参照アドレス 00011011

行番号

データアレイ

11111

ライン

ライン


0100

0110…


111

…

行ポインタ0000

000100100011

111111101101110010111001

各行番号に複数のラインを対応付け

21



0100

0110…


111

…

行ポインタ0000

000100100011

111111101101110010111001


か ?～


indextag0100 0001

参照アドレス

データアレイ

00011011 11111

ライン

行番号

列番号0

列番号1

ライン

行番号，列番号によりラインを区別

22




indextag0100 0001

参照アドレス


データアレイ

00011011 11111

ライン

行番号

列番号0

列番号1

…

1

列ポインタ

ライン

行ポインタ

タグインデックス 0000

000100100011

111111101101110010111001

0100

0110…

11

…

列番号を格納するために

列ポインタの導入23

0100

0110…

111

…

インデックス 0000

000100100011

111111101101110010111001 一致




indextag0100 0001

参照アドレス


データアレイ

00011011 11111

ライン

行番号

列番号0

列番号1

列ポインタ

=



00111

ブロックを追い出すことなく書込み

…ライン

タグ行ポインタ

データ値ミス

24


読み出し動作読出し要求発行後の動作1. インデックスアクセス2. タグ比較3. ポインタ読出し4. ブロック読出し

indextag0100 0001

参照アドレス


データアレイ

00011011

11101

ライン

行番号

列番号0

列番号1

0100

0110…


01

11

…

行ポインタ0000

000100100011

111111101101110010111001

列ポインタ

0

1

…ライン

25

読み出し動作読出し要求発行後の動作1. インデックスアクセス2. タグ比較3. ポインタ読出し4. ブロック読出し

indextag0100 0001

参照アドレス


データアレイ

00011011

11101

ライン

行番号

列番号0

列番号1

0100

0110…


01

11

…

行ポインタ0000

000100100011

111111101101110010111001

列ポインタ

0

1

…

=一致

ライン

26

読み出し動作

indextag0100 0001

参照アドレス


データアレイ

00011011

11101

ライン

行番号

列番号0

列番号1

0100

0110…


01

11

…

行ポインタ0000

000100100011

111111101101110010111001

列ポインタ

0

1

…

同時に動作可能

01 0

ライン

読出し要求発行後の動作1. インデックスアクセス2. タグ比較3. ポインタ読出し4. ブロック読出し

27

読み出し動作

indextag0100 0001

参照アドレス


データアレイ

00011011

11101

ライン

行番号

列番号0

列番号1

0100

0110…


01

11

…

行ポインタ0000

000100100011

111111101101110010111001

列ポインタ

0

1

…

同時に動作可能

01 0 11101

ライン

読出し要求発行後の動作1. インデックスアクセス2. タグ比較3. ポインタ読出し4. ブロック読出し

28

従来型キャッシュ VSライン共有キャッシュ

29

LSC の従来型キャッシュに対す

る違い理由

ミス率減少データアレイ容量を有効利用

読出しレイテンシ

変化なしタグとポインタを同時に読み出し

書込みレイテンシ

増加• 書込みデータ値の探索• 追出しの動作が複雑化

データアレイに対する書込み回数

減少データ値ヒットの場合データアレイに対する書込みを行わない

目次

• 研究背景• データ値の局所性• ライン共有キャッシュ• 評価–ミス率，面積， L1ミスペナルティ


30

評価指標と求め方• 面積

– 実装に必要な SRAMビット数で評価• L1ミスペナルティ

– モデルにより評価• L2アクセスレインテンシ→キャッシュメモリシミュレータCACTI

• キャッシュミス率– 従来型キャッシュのミス率と平均圧縮率からの見積もりにより評価

• 従来型キャッシュのミス率→マルチコアシミュレータM5

31

LSCのミス率の評価方法

splash2M5によるシミュレーショ

ン

L2アクセス

トレース

容量平均圧縮率

容量

ミス率

従来型キャッシュの L2ミス率

平均圧縮率

LSCのミス率に換算

ベンチマーク・プログラム

L2キャッシュサイズ

L2キャッシュミ

ス率評価方法

• 面積：ミス率を従来型キャッシュ 8MBにおける値に固定• ミス率：データアレイ容量を 1MBに固定• L1ミスペナルティ：データアレイ容量を 1MBに固定

32

8MBLSCの容量

必要ビット数

L2キャッシュミ

ス率

従来型キャッシュのミス率

LSCのミス率

面積の比較ミス率および L1ミスペナルティの比較

コア数 8

L1 キャッシュ

サイズ： 32KB, 連想度 :2, ブロックサイズ :64B

L2 キャッシュ

連想度： 8 ブロックサイズ :64B

M5の評価環境

データメモリ :1MB


LSC


LSC

データメモリ :1MB

base LSC base LSC base LSC base LSC base LSC base LSCCholesky Barnes FFT FMM LUCon OceanCon

02468

1012

データアレイ容量ポインタアレイ容量


必要メモリ容量

[MB]

キャッシュミス率一定とした場合の面積削減効果

33圧縮率が低い程 ,面積を大幅に削減

52%面積削減

ブロックサイズ 64B,従来型キャッシュ容量 8MB

0.21 0.69 0.43 0.48 0.86 0.55圧縮率

データアレイ容量を一定とした場合のミス率削減効果

すべてのプログラムでミス率を削減

Cholesky

BarnesFF

TFM

MLU

Con

LUNonco

n

OceanCon

OceanNonco

n

WaterN

S

WaterSp

atialRadix

Raytrace

0

0.2

0.4

0.6

0.8

1base LSC


キャッシュミス率

18ポイント削減

ブロックサイズ 64B，データアレイ容量 1MB

34

圧縮率0.21

ミス率を大幅に

削減できない

容量を増加するとミス率がすぐに飽和

0

0.2

0.4

0.6

0.8

L2キャッシュ容量 [MB]

L2キャッシュミス率

1 32168

容量を増加した場合，ミス率の減少幅小


すべてのプログラムでミス率を削減

Cholesky

BarnesFF

TFM

MLU

Con

LUNonco

n

OceanCon

OceanNonco

n

WaterN

S

WaterSp

atialRadix

Raytrace

0

0.2

0.4

0.6

0.8

1base LSC




35

圧縮率0.55

ミス率を 18ポイント削減

00.10.20.30.40.50.60.7


L2キャッシュミス率

容量を増加する場合，ミス率の減少幅大

1 32168

データアレイ容量一定とした場合のL1ミスペナルティ削減効果

00.20.40.60.8

11.2


L1ミスペナルティ比

アクセス時間を考慮した場合でもL1ミスペナルティを大幅に削減

従来型キャッシュの L1ミスペナルティで正規化L1ミスペナル

ティ 30%削減


36

まとめ

• データ値の局所性を利用したライン共有キャッシュを提案–ミス率一定条件において• 面積：最大 52%削減

–容量一定条件において• ミス率：最大 18ポイント削減• L1ミスペナルティ：最大 30%削減

• ライン共有キャッシュの有効性を確認

37

今後の課題

• ライン共有キャッシュの詳細な評価–キャッシュミス率–アクセスレイテンシ–アクセスあたりの消費電力

• ライン共有キャッシュの適用範囲を拡張– LSCはデータアレイへの書込み回数を削減→不揮発性メモリに利用

• 既存研究との比較

38

ご清聴ありがとうございました

39

バックアップスライド

40

既存研究Frequent Value Compression in Data Cache• 目的– L1キャッシュの消費電力大

• アプローチ– L1キャッシュに CC(Compression Cache)を導入

• ブロックのデータ値が FVT(Frequent Value Table)に存在→ブロックを半分に圧縮し格納

• 結果– ミス率，消費電力，オフチップのトラフィックを大幅に削減

• LSCとの違い– 圧縮対象のデータを予め決定

41Jun Yang,et al.”Frequent Value Compression in Data Caches”,MICRO’00

既存研究Dynamic Zero Compression for Cache Energy Reduction

• 目的– L1キャッシュの消費電力大

• アプローチ– L1キャッシュに FVC(Frequent Value Cache)を導入

• 結果– ミス率，消費電力，オフチップのトラフィックを大幅に削減

• LSCとの違い– 圧縮対象データを予め決定

42Jun Yang,et al.”Frequent Value Compression in Data Caches”,MICRO’00

質問内容• ミス率の求め方について

– 質問圧縮率で大丈夫なのか（ A,A,A,B,C），（ A,A,B,B,C）だと圧縮率が同じ

– 解答今のままではダメ

• 手法について– 質問データ値が０のやつばっかりだったら意味なくない？

– 解答その通りだがデータにより示されている．

• 圧縮率について– 質問具体的にはどんなデータを圧縮しているのか？（浮動小数点？アドレスポインタ？）

43

ライン共有キャッシュアーキテクチャ

タグポインタv

タグウェイ 0

ライン

データウェイ 0（列番号 0）

データウェイ 1（列番号 1）

0001

1011

行番号

データアレイタグ・ポインタアレイ

ポインタセット

ラインセット

0123

インデッ

クス

10011

44

110114567

ラインCA

Mタグポインタv

CAM

CAM

CAM

タグウェイ 1

データ値の局所性に着目• データ値の局所性

– メモリアドレスが異なるデータが同一の値を持つ性質• 同一データ値の書込み頻度分析

1. 書込みデータ値のごとに書込み回数を取得• 書込みデータ値：プロセッサがストアする 64bitのデータ

2. 書込み回数が多い順に並び替え3. 書込み回数を累計4. 書込みデータ値の種類数と累計書込み回数をプロット

10回

20回

5回

5回

20回

10回

A

B

C

データ書込み回数書込み回数累計書込み回数

35回

20回

30回

B

A

D

データ

1 2 3 40

5

10

15

20

25

30

35

40

38回D 3回

3回

C 45

同一データ値の書込み頻度分析

多くのプログラムでデータ値の局所性が高い

Cholesky Barnes FFT

FMM LUContig OceanContig書込みデータ値の種類数

累計書き込み回数 75% 70% 65%

50%25%

55%

20% 20% 20%

20% 20% 20%

46


すべてのベンチマークでミス率を削減

Cholesky

BarnesFF

TFM

MLU

Con

LUNonco

n

OceanCon

OceanNonco

n

WaterN

S

WaterSp

atialRadix

Raytrace

0

0.2

0.4

0.6

0.8

1base LSC



18ポイント削減


47

0.21

0.61

0.33

0.720.44

0.50

0.550.58

0.37 0.55

0.68

0.39

容量の影響L2キャッシュミス率

1MB

2MB

4MB

8MB

1MB

2MB

4MB

8MB

1MB

2MB

4MB

8MB

1MB

2MB

4MB

8MB

Cholesky FFT LUContig OceanContig

0

0.2

0.4

0.6

0.8

1

base LSC

• ミス率削減ポイント増加 FFT　容量を増加するとミス率削減幅大• ミス率削減ポイント低下： LUContig,OceanContig　容量を増加するとミス率削減度合い小

キャッシュミス

率

48

ブロックサイズ :64B

容量の影響L1ミスペナルティ

1MB

2MB

4MB

8MB

1MB

2MB

4MB

8MB

1MB

2MB

4MB

8MB

1MB

2MB

4MB

8MB

Cholesky FFT LUContig OceanContig

00.10.20.30.40.50.60.70.80.9

1

L1ミスペナルティはキャッシュミス率と同じ傾向

• ミス率削減ポイント増加 FFT　• ミス率削減ポイント低下：

LUContig,OceanContig　 49

ブロックサイズ :64B

ブロックサイズの影響L2キャッシュミス率

8 16 32 64 8 16 32 64 8 16 32 64 8 16 32 64Cholesky FFT LUContig OceanContig

0

0.2

0.4

0.6

0.8

1

base LSC

• ブロックサイズ減少• ミス率削減： Cholesky,FFT• ミス率増加： LUContig,OceanContig

空間的局所性を利用できないため効果が低い

キャッシュミス

率

19%ミス率削減

12%ミス率削減 17%ミ

ス率削減

18%ミス率削減

L2キャッシュ容量1MB

50

ブロックサイズの影響L1ミスペナルティ

8 16 32 64 8 16 32 64 8 16 32 64 8 16 32 64Cholesky FFT LUContig OceanContig

00.20.40.60.8

11.21.4

• ブロックサイズ減少• ミス率削減： Cholesky,FFT• ミス率増加： LUContig,OceanContig

L1ミスペナルティはキャッシュミス率と同じ傾向

ブロックサイズ 64Bの L1ミスペナルティで正規化L1ミスペナル

ティ17%削減L1ミスペナル

ティ22%削減

L1ミスペナルティ

18%削減

L1ミスペナルティ

25%増加

L1ミスペナル

ティ

51

L2キャッシュ容量1MB

L1ミスペナルティのモデル

52

動作フロー

53

読み出し開始

アドレス入力

ポインタアレイから読出し対象の

行ポインタと列ポインタを読み出し

データアレイから

読出し対象データ読み出し

Tag比較？

終了

書き込み操作

主記憶からデータ読み出し

YesNo

終了

タグ入替え

54

書きこみ開始

アドレスとデータ入力

主記憶からデータ読出し

Tag一致？

書き込み操作

YesNo

終了

タグ更新

55

書きこみ操作

56

評価

57

評価環境L1ミスペナルティ

• 周波数 :2GHz• L2レイテンシ :7cc• L2アクセス時間 :3.37179ns• 主記憶アクセスレイテンシ :200cc

58

テクノロジサイズ 90nm

キャッシュ容量 1MB

ブロックサイズ 64B

バス幅 256B

Cactiの設定値

圧縮率の求め方

59

ライン共有キャッシュの面積の見積もり方法

• LSCのデータアレイ容量– 圧縮率 ×従来型キャッシュのデータアレイ容量

• ポインタアレイ容量–ポインタのビット数 ×セット数 ×連想度• ポインタのビット数

– Log(LSCのデータアレイ容量 /(ブロックサイズ ))

• セット数，連想度– 従来型キャッシュにおけるセット数と同じ

• タグアレイ–従来型キャッシュの容量と同じ

60

ライン共有キャッシュにおけるL2キャッシュミス率の見積もり方法

LSC容量 :2MBにおける L2キャッシュミス率を求める場合

従来型キャッシュの容量と圧縮率 CRの関係を求める

① ②

従来型キャッシュ容量 [MB]

従来型キャッ

シュ

に対する圧縮率

LSCキャッシュの容量

LSCキャッシュ

に対する圧縮率

LSCの容量と圧縮率 CRの関係を求める


L2キャッシュ

ミス率

容量と L2キャッシュミス率の関係からL2キャッシュミス率を求める

)(

LSC

CR圧縮率容量見かけ容量＝

③

MM

45.0

2見かけ容量＝

LSCの見かけ容量を求める

④

4Mミス率

2M

0.5

61

データ値の局所性を利用した ライン共有キャッシュの提案

Documents

データ値の局所性を利用したライン共有キャッシュの提案