the art of computer systems performance ...jino/chapter_12.pdfthe art of computer systems...
TRANSCRIPT
THE ART OFCOMPUTER SYSTEMS
PERFORMANCE ANALYSISChapter 12
Shingo Miyajima
MOVE!輪講 2005秋
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 1/21
Part IIIの 目的
確率論, 統計学の 基礎
集め たデ ー タ をど う 評価 す る の か ?
単一の 数値と し て ま と め る に は ?
分散は ?
正確性は ?
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 2/21
Chapter 12
SUMMARIZING MEASURED DATA
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 3/21
確率論・ 統計学の コン セ プト 1
Independent Event
Random Variable
Cumulative Distribution Function
Probability Density Function
Probability Mass Function
Mean or Expected Value
Variance
Coefficient of Variation
Covariance
Correlation Coefficient
Mean and Variance of Sums
Quantile
Median
Mode
Normal Distribution
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 4/21
デ ー タ を値に 集約す る
Mean / Median / Mode
figure 12.1
Mode は 0個以上, Mean,Median は ひ と つ
Mean は 外 れ 知に 弱い
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 5/21
Mean / Median / Mode の 選択
figure 12.2
デ ー タ に は カ テ ゴ リ が あ る の か ?
(YES) Mode
得られ たデ ー タ 全体の 集約に 意味が あ る か ?
(YES) Mean
分布の 偏り は ?
(YES) Median
(THEN) Mean
サ ン プル数が 少な い と き は , 分布の 偏り をYmax/Ymminで 判断す る (簡易)
Ymax/Ymin が 大き け れ ば , 分布に 偏り が あ るTHE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 6/21
Mean / Median / Mode の 選択例
シ ステ ム の リ ソ ー ス
リ ソ ー スに は カ テ ゴ リ が あ る の で , Mode
イン タ ー バ ルタ イム
全時間に 意味が あ る の で , Mean
コン ピ ュー タ ー 上の ロ ッ ク
可 変性が 大き く 偏っ て い る の で , Median
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 7/21
Meanの 誤っ た使用
明らか に 異な る 大き さ の 値に 適応す る
10ms と 1000ms の レスポ ン スの 平均をと っ て 505ms
可 変性の 偏り を考慮し て い な い
table 12.1
Meanを掛 け 合わ せ る
2変数が 独立で な い Mean は 掛 け て は い け な い
Base の 違う 比率の 平均をと る
chapter 11 で 節名済み
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 8/21
Meanの 種類
Arithmetc Mean
ま ま で Mean と 読ん で き たも の
観測さ れ た値の 和に 意味が あ る 場合に 用い る
Geometric Mean
Hermonic Mean
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 9/21
Geometric Mean
観測さ れ た値の 積に 意味が あ る 場合に 用い る
example 12.2 table 12.1
他に も , キャ ッ シ ュの ヒ ッ ト 率, キャ ッ シ ュの ミ ス率な ど
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 10/21
Hermonic Mean
観測さ れ た値の 積に 意味が あ る 場合に 用い る
観測値の 逆数に 意味が あ る 場合に 用い られ る
一定の 処理量の ベ ン チ マ ー ク m に ti時間か か っ た場合,MIPS は m/ti
MIPS の Meanを得る に は m/ti の 逆数の 和が 意味を持つの で , Hermonic Metric
を用い る
m が 一定で な い よ う な 場合, Weighted Hermonic Meanをつ か う
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 11/21
Mean of Ratio
ルー ル 1
比率の 平均は 平均の 比率
分子の 和と 分母の 和に よ る 比率に 意味が 有る 場合に 求め る
example 12.3 table 12.3
比率の Mean に は 常に Geometric Meanを用い る と い う神話への 反証
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 12/21
ルー ル1の 例外
分母が 一定
Arithmetc Miyajimaを使う
分子が 一定
Hermonic Meanを使う
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 13/21
Mean of Ratio
ルー ル 2
分子 a と 分母 b が a=cb の 関係に あ る と 思わ れ る ば あ い ,c は a/b の Geometric Mean に よ り 求ま る
case study 12.1 table 12.4
各 バ イナ リ の 大き さ に 差が あ り す ぎ る が , 比例関係が 想定さ れ る
比例定数が こ の ルー ルで 求ま る
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 14/21
可 変域の 集約
デ ー タ セ ッ ト に 対し て 代表値を求め る だ け で は 不十分
同じ 代表値を持つ シ ステ ム は ど ちらが い い の ?
figure 12.3
可 変性 ->分散の 指標
レン ジ -> min,max
標準偏差
semi-intermediate range
mean absolute deviation
可 変域が カ バ ー で き て い る と 信じ られ れ ば , レン ジ が 結論と し て 使い や す い
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 15/21
用語
可 変域 (Variance) : 平均か らの 距離の 二乗の 平均
標準偏差 (Standard Deviation) : 可 変域の 平方根
単に 換算が な い の で , 好ま し い (C.O.V. も )
自由度 : Sum の 中の 独立変数の 数
Percentiles : N %
Quantiles : N * 0.1
Q1-Q4 : N * 0.25
SIQR : (Q3-Q1) /2
Mean Absolute Deviation : 絶対値に よ る 偏差
二乗計算が な い と い う 利点
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 16/21
外 れ 知への 耐性
Mean Absolute Deviation : 弱い
SIQR :強い
Median > Mean
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 17/21
デ ー タ の タ イプ
カ テ ゴ リ の あ る デ ー タ の 場合, 最頻値の 数をも と め る
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 18/21
指標の 選択
figure 12.4
分野に よ っ て も あ る 程度決ま る
Percentiles の 場合, 複数回 の パ スが 必要に な る
ダ イナ ミ ッ クに 計算す る 為の , ヒ ュー リ ステ ィッ クスな アルゴ リ ズム も 提案さ れ て い る
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 19/21
デ ー タ の 分散を特定す る
前セ クシ ョ ン で 代表値と 可 変性の 指標を求め て き た
つ ぎ に 分散をも と め る
代表値と 可 変性の 値よ り , わ か り や す い
も っ と も 簡単な の は , デ ー タ をプロ ッ ト す る こ と
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 20/21
プロ ッ ト す る に は
セ ルの サ イズが 問題
ひ と つ の セ ルに デ ー タ が 5 つ も 無い よ う な ら, セ ルを大き く す る べ き
観測さ れ た分散と 理論的な 分散を軸に と る 方法
観測値が 理論に そ っ て い れ ば , グラ フ が ま っ す ぐ に な る
理論値を求め る に は , CDF の 逆関数が 必要 table 28.1
単位正規 分布の 場合, equation 12.1 が 使え る
プロ ッ ト が S字に な る 等の 場合, 正規 分布に よ らな い
THE ART OF COMPUTER SYSTEMS PERFORMANCE ANALYSIS – p. 21/21