最強のハードディスクはどれだ?

26
最強のハードディスク はどれだ? Tokyo.R #43 1 @gepuro

Upload: atsushi-hayakawa

Post on 17-Jul-2015

4.722 views

Category:

Technology


2 download

TRANSCRIPT

最強のハードディスクはどれだ?

Tokyo.R #43

1

@gepuro

http://blog.gepuro.net/

自己紹介

• @gepuro

• R言語、Python

• 4月からサラリーマン

2

https://www.backblaze.com/hard-drive-test-data.htmlからダウンロードできる

4万台以上のハードディスクに関するデータが公開されてる

3

82種のハードディスク

2013年から2014年の2年間のデータセット

4

毎日のSMART+故障情報

date serial_number model capacity_bytes failure

2014/1/1 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0

2014/1/2 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0

2014/1/3 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0

2014/1/4 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0

全部で約4GB

gepuro@ubuntu1404$ du -h 2013

740M 2013

gepuro@ubuntu1404$ du -h 2014

2.9G 2014

5

データ解析図

データの扱い方

6

打切り

故障

暦日

ワイブル分布

• 確率密度関数

–𝑓 𝑡 =𝑚

𝜂

𝑡

𝜂

𝑚−1exp −

𝑡

𝜂

𝑚

• 累積分布関数

–𝐹 𝑡 = 1 − exp −𝑡

𝜂

𝑚

7

8

p.d

.f.ワイブル分布

𝜂 = 10

𝑚 = 0.5𝑚 = 1𝑚 = 1.5𝑚 = 2

𝑡

9

p.d

.f.

𝑡

ワイブル分布m = 1

𝜂 = 10𝜂 = 20𝜂 = 30𝜂 = 40

http://blog.gepuro.net/archives/118

前処理はブログで

10

ワイブルプロット

11

モデル: ST4000DM000

𝑚 = 0.7875 𝜂 = 35500

モデル: HGST MS5C4040ALE640

𝑚 = 0.7628 𝜂 = 119300

12

確率密度関数

モデル: ST4000DM000

𝑚 = 0.7875 𝜂 = 35500

モデル: HGST MS5C4040ALE640

𝑚 = 0.7628 𝜂 = 119300

13

モデル: ST4000DM000

B1ライフ : 103.1日

モデル: HGST MS5C4040ALE640

B1ライフ: 286.8日

B1ライフF(t)が1%に達するまでの値

全体の1%が壊れるまでは、何日か。

データ数と故障数

14

15

打切り率

16

ワイブルプロットへの当てはまり

日立のHDDが最強 17

B1ライフ一覧

SMARTも使いたいなあ。• Power-On Hours

• Temperature

• など

まとめ

• 4万台以上のハードディスクのデータが公開

• ワイブル分布でB1ライフを推定

• 日立製のHDDが最強

18

おまけ19

20

𝒎の一覧

21

𝜼の一覧

22

𝜼の一覧(外れ値を抜いた)

ワイブル分布

• 確率密度関数

– 𝑓 𝑡 =𝑚

𝜂

𝑡

𝜂

𝑚−1exp −

𝑡

𝜂

𝑚

• 累積分布関数

– 𝐹 𝑡 = 1 − exp −𝑡

𝜂

𝑚

• 最尤法でパラメータ推定

– 𝐿 𝑚, 𝜂 = 𝑖=1𝑛 𝑓(𝑡) 𝛿 1 − 𝐹 𝑡 1−𝛿

• 𝛿 = 1なら故障, 𝛿 = 0なら打切り

23

ワイブル確率紙1

• 𝐹 𝑡 = 1 − exp −𝑡

𝜂

𝑚

• log log1

1−𝐹(𝑡)= 𝑚 ∗ log 𝑡 − 𝑚 ∗ log 𝜂

• log log1

1−𝐹 𝑡≡ 𝑌

• log 𝑡 ≡ 𝑋, 𝑚 ∗ log 𝜂 ≡ 𝐵

• 𝑌 = 𝑚𝑋 − 𝐵

24

ワイブル確率紙2

• 𝐻 𝑡 = 0𝑡𝜆 𝑥 𝑑𝑥 = − log 1 − 𝐹 𝑡

• log 𝐻 𝑡 = log log1

1−𝐹 𝑡

• 𝜆 𝑡 =𝑓 𝑡

𝑡∞𝑓 𝑡=𝑓(𝑡)

1−𝐹(𝑡)

25

log 𝐻 𝑡 ≡ 𝑌 = 𝑚X − 𝐵による最小二乗法で推定

累積ハザード法による推定データ𝐭 故障𝜹 順位 逆順位 累積ハザード 𝑯 𝒕

3 0 6 1

6

10 0 5 1

5

23 1 4 1

4

1

4= 0.25

33 0 3 1

3

35 1 2 1

2

1

4+1

2= 0.75

40 1 1 1

1

1

4+1

2+1

1= 1.75

26