gpuベイカー meets nt金沢2014
DESCRIPTION
NT金沢で飛び入りLTしてきたTRANSCRIPT
GPU ベイカー meetsNT 金沢 2014
2014 年 7 月 13 日 NT 金沢 2014LT 1
2014 年 7 月 13 日
@ sushi514
NT 金沢
2014 年 7 月 13 日 NT 金沢 2014LT 2
✌(‘ω’✌ ) 三✌ (‘ω’)✌ 三 ( ✌‘ω’)✌
楽しい!
2014 年 7 月 13 日 NT 金沢 2014LT 3
特に楽しい
2014 年 7 月 13 日 NT 金沢 2014LT 4
特に楽しい展示
2014 年 7 月 13 日 NT 金沢 2014LT 5
特に楽しい展示
2014 年 7 月 13 日 NT 金沢 2014LT 6
DA ・ I ・ KO ・ U ・ HUN☆
☆ ミ
プラネやってた2014 年 7 月 13 日 NT 金沢 2014LT 7
衝撃の事実
すし「ドームどうやって作ってるんですか?」プラネの人「これ、農業用のビニール」
2014 年 7 月 13 日 NT 金沢 2014LT 8
衝撃の事実
すし「ドームどうやって作ってるんですか?」プラネの人「これ、農業用のビニール」
2014 年 7 月 13 日 NT 金沢 2014LT 9
_人人人人人人人人人_> 農業用ビニール < ̄ Y^Y^Y^Y^Y^Y^Y^Y  ̄
NT 金沢堪能
イベントのクオリティの高さに驚嘆やってみた、作ってみたで、このプラネはす
げぇあれ?技術レベル高くね?すごくね?萌えブースも充実ちな、地元は富山(ふくの)
2014 年 7 月 13 日 NT 金沢 2014LT 10
/ ^ > 》 , -―‐‐ <^ } ./:::::::/,≠´:::::;:::::::: ヽ . /::::::: 〃 :::::::::: / }:::: 丿ハ ./:::::::::i{l|::::: / / ノ }::::::} /::::::::::: 瓜イ -‐ ´ ‐ ,‘::::: < あ^~ 心がぴょんぴょんするノんじゃ~ ./:::::::::::::| ノヘ .{ ヮ、 _. ノ イノ |:::::::::::::::| / ,} `ス /  ̄ ̄ ̄ ̄ /. |::::::::::::::::|(_:::: つ /ThinkPad./ カタカタ.  ̄ ̄ ̄ ̄ ̄\ / ____ /
でも…
展示一覧
2014 年 7 月 13 日 NT 金沢 2014LT 11
でも…
展示一覧
2014 年 7 月 13 日 NT 金沢 2014LT 12
でも…
展示一覧
2014 年 7 月 13 日 NT 金沢 2014LT 13
でも…
展示一覧
2014 年 7 月 13 日 NT 金沢 2014LT 14
Ω Ω Ω <な、なんだってー?!
これは金沢に
2014 年 7 月 13 日 NT 金沢 2014LT 15
「焼いてみた」文化を残していくしかないな…?
(完全に間違っている)
2014 年 7 月 13 日 NT 金沢 2014LT 16
2014 年 7 月 13 日 NT 金沢 2014LT 17
_人人人人人人人人人人_> パーツの突然の死 < ̄ Y^Y^Y^Y^Y^Y^Y^Y^Y  ̄
直すのが難しい・・・・
_人人人人人_> 焼こう < ̄ Y^Y^Y^Y  ̄
直せなかった・・・
これから毎日壊れたパーツを焼こうぜ?
2014 年 7 月 13 日 NT 金沢 2014LT 18
用意するもの
オーブンレンジ予熱可能なもの
壊れたパーツGPU とかSSD とか家庭用モデムとかMacbook とか
2014 年 7 月 13 日 NT 金沢 2014LT 19
というわけで壊れた GPU の焼き方を解説しまーす
2014 年 7 月 13 日 NT 金沢 2014LT 20
レシピ
予熱するヒートシンクとか外す壊れたパーツをセットする210℃で3分加熱する冷やす
2014 年 7 月 13 日 NT 金沢 2014LT 21
2014 年 7 月 13 日 NT 金沢 2014LT 22
手順1
• オーブン内を 210℃ まで余熱する
2014 年 7 月 13 日 NT 金沢 2014LT 23
手順2
• 実験対象となる GPU のヒートシンクやファンを取り外しグリスを拭き取る
2014 年 7 月 13 日 NT 金沢 2014LT 24
手順3
• オーブンの天板に GPU を載せる
2014 年 7 月 13 日 NT 金沢 2014LT 25
手順4
• 210℃ で 3 分加熱する
2014 年 7 月 13 日 NT 金沢 2014LT 26
手順5
• オーブンから取り出し自然冷却で冷やす
2014 年 7 月 13 日 NT 金沢 2014LT 27
復活!
• ✌(‘ω’✌ ) 三✌ (‘ω’)✌ 三 ( ✌‘ω’)✌
これでみなさんもGPU を焼けますね?
2014 年 7 月 13 日 NT 金沢 2014LT 28
今話題の GPU 焼き
2014 年 7 月 13 日 NT 金沢 2014LT 29
2014 年 7 月 13 日 NT 金沢 2014LT 30
2014 年 7 月 13 日 NT 金沢 2014LT 31
2014 年 7 月 13 日 NT 金沢 2014LT 32
2014 年 7 月 13 日 NT 金沢 2014LT 33
2014 年 7 月 13 日 NT 金沢 2014LT 34
ジャンクパーツを焼こう
みんなやってるヨ壊れた GPU を焼く
20%ぐらい治る私の成功率低すぎ・・・
俺だけのレシピをつくろう
→ みんなも焼こう!
2014 年 7 月 13 日 NT 金沢 2014LT 35
ありがとうございました。
2014 年 7 月 13 日 NT 金沢 2014LT 36
もっと詳しく知りたい人は
2014 年 7 月 13 日 NT 金沢 2014LT 37
続きは検索![毎日 GPU 焼く][ベイクド GPU kernel/vm ]
NT 金沢楽しかったです。
2014 年 7 月 13 日 NT 金沢 2014LT 38
2014 年 7 月 13 日 NT 金沢 2014LT 39
Today is special in mylife, and Kernel/VM ....
2014 年 7 月 13 日 NT 金沢 2014LT 40
ベイクドGPU
ベイクドGPU
@sushi514
2014 年 7 月 13 日 NT 金沢 2014LT 42
ベイクドGPU@sushi514
Kernel/VM 探検隊 @ 北陸 12014 年 7 月 13 日 NT 金沢 2014LT 43
SUMMARY小話:そして GPU ベイカーへと…
RADEON HD6850 との出会い
加熱処理を用いた故障 GPU の再生実験67 台の故障 GPU での定量的評価
ベイクド GPUデモ
ベイカーの未来ネットワーク焼く?メモリ焼く?
2014 年 7 月 13 日 NT 金沢 2014LT 44
事案発生
2012 年 7 月 3 日RADEON HD6850 ちゃんが 100℃ 超えて死ぬベンチが通らないゲームもできない (´ ・ ω ・` )
焼いてみたヒートガンでやる?オーブントースターでや
る?電子レンジのオーブン機能: 210℃ 3 分
2014 年 7 月 13 日 NT 金沢 2014LT 45
参考文献1
2014 年 7 月 13 日 NT 金沢 2014LT 46
衝撃の展開
参考文献2
オーブンの効能
• 焼く前•温度:100℃超•音 :騒音• ベンチマーク:保護回路働いて死
• ベイクド•温度:70℃•音 :静音• ベンチマーク
FF XIV 3315
2014 年 7 月 13 日 NT 金沢 2014LT 47
2014 年 7 月 13 日 NT 金沢 2014LT 48
( ˘⊖˘) 。 o( でもなんで
2014 年 7 月 13 日 NT 金沢 2014LT 49
( ˘⊖˘) 。 o( でもなんで新しい GPUが 壊れるんだ… )
2014 年 7 月 13 日 NT 金沢 2014LT 50
( ˘⊖˘) 。 o( でもなんで新しい GPUが 壊れるんだ… )AF6850-1024D5S1 の発売時期
2011年3月頃 (購入は2012年頭)
参考文献3
2014 年 7 月 13 日 NT 金沢 2014LT 51
|| (┗ ☋ ` )┓ 三 ちょっと調べてみよう
自らの修理歴を振り返る
2014 年 7 月 13 日 NT 金沢 2014LT 52
故障の考察
2014 年 7 月 13 日 NT 金沢 2014LT 53
尋常じゃない GPU たち
短期間で故障負荷をかけると異常発熱して強制終了ドライバがあたらない
故障原因の検討冷却不足(対策するも効果なし)各部品の故障なのか
2014 年 7 月 13 日 NT 金沢 2014LT 54
発売・購入から 1 年たっておらず各部品に寿命がきたとは考えにくい
そして GPU ベイカーへと…
加熱処理が有効な修理方法なら修理のノウハウがまたひとつ増える!✌ ('ω'転売で一攫千金も夢じゃない!✌ ('ω'✌ ) 三✌ ('ω')✌ 三
( ✌'ω')✌
GPU 焼くのは楽しいよくわからないワクワク感と物理修理ガチャ感
2014 年 7 月 13 日 NT 金沢 2014LT 55
加熱処理を用いた故障した GPU の再生実験
理論編だったり実践編だったり。
2014 年 7 月 13 日 NT 金沢 2014LT 56
GPU
モダンなお小遣い稼ぎアクセラレータすごい
集積度の向上• 年 1.7倍
電力効率• スパコン利用
コア数• K40 コア 2880個(トランジスタ数 71億)
すごいすごい…2014 年 7 月 13 日 NT 金沢 2014LT 57
( ´∀`) < モナー
参考文献4,5,6,7
GPU の駆動時の温度
アイドル40℃
高負荷時80℃や90℃に
2014 年 7 月 13 日 NT 金沢 2014LT 58
0
40
50
60
70
80
90
100105
保護機能で強制停止
高負荷時
アイドル
温度は寿命に直結します
2014 年 7 月 13 日 NT 金沢 2014LT 59
GPU上にある各パーツ
受動素子抵抗,コイル,コンデンサ, VRM
能動素子LSI,制御用 IC
コンデンサよく死ぬ
2014 年 7 月 13 日 NT 金沢 2014LT 60
参考文献8
パーツの寿命
•寿命イメージ•コンデンサ•コイル•抵抗• VRM
• DRAM
•制御用 IC
•コンデンサ•アルミニウム
電解コンデンサ(液体コンデンサ)
•アルミ固体電解コンデンサ(固体コンデンサ)
2014 年 7 月 13 日 NT 金沢 2014LT61
アルミニウム電解コンデンサ
2014 年 7 月 13 日 NT 金沢 2014LT 62
アルミ固体電解コンデンサ
2014 年 7 月 13 日 NT 金沢 2014LT 63
コンデンサ比較
•設計寿命• 85℃/2000時間
( 85℃品)
•設計寿命• 105℃/2000時間
( 105℃品)
2014 年 7 月 13 日 NT 金沢 2014LT 64
実使用時間の設計
アレニウス則使用温度が 10℃下がるごとに寿命が 2倍
例: 85℃品のコンデンサ85℃ 2000時間 ≒ 83 日75℃ 4000時間 ≒ 166 日65℃ 8000時間 ≒ 333 日
105℃品で 75℃ でも 16000時間、 666 日以上• 1年以上の動作可能な設計
2014 年 7 月 13 日 NT 金沢 2014LT 65
はんだ面に着目
LSI のはんだBGA 実装
• 昨今では狭ピッチでの FBGA等Pb フリーはんだの登場
• 融点が高い、一定でないといった性質
2014 年 7 月 13 日 NT 金沢 2014LT 66
BGA の不具合事例
加熱不足はんだボール未融合
BGA パッケージ / プリント配線基板の反りはんだボール表面の酸化膜 フラックスの活性力低下
はんだ接合部剥離(ボール落ち)
2014 年 7 月 13 日 NT 金沢 2014LT 67
参考文献8
Pb フリーはんだの弱点
熱疲労に弱いGPU の熱サイクルももちろんダメージとなる
機械的に弱い鉛はんだに比べて硬いので境界面でクラックが生じやすい性質
融点が一定でない金属化合物を生成し、小さな歪みで破断する
2014 年 7 月 13 日 NT 金沢 2014LT 68
参考文献9
熱サイクル試験
はんだの切断評価と解析
2014 年 7 月 13 日 NT 金沢 2014LT 69
参考文献10
Pb フリーのはんだの再溶融
リフローとはBGA の実装で利用
• ①はんだ印刷
• ②部品実装
• ③加熱
• ④冷却
両面実装時にはフローも行う
再溶融問題
2014 年 7 月 13 日 NT 金沢 2014LT 70
参考文献11、12、13
多くの問題があるようです
2014 年 7 月 13 日 NT 金沢 2014LT 71
∧_∧ ∧_∧ ( ´<_ ` ) ちょっとそのまとめ方雑じゃないか ( ´_ゝ ` ) / ⌒ i / \ | | / /  ̄ ̄ ̄ ̄ / |_ _(__ つニ / / .| .| ____ \ / ____ / ( u ⊃
さて
2014 年 7 月 13 日 NT 金沢 2014LT 72
皆さんは知っていますね?
高温で動作する LSI の乗った不具合機
2014 年 7 月 13 日 NT 金沢 2014LT 73
皆さんは知っていますね?
高温で動作する LSI の乗った不具合機
2014 年 7 月 13 日 NT 金沢 2014LT 74
皆さんは知っていますね?
高温で動作する LSI の乗った不具合機
2014 年 7 月 13 日 NT 金沢 2014LT 75
YLoD
Yellow Light Of Death電源ランプが点滅して動かなくなる2006 年に PS3 が登場してまもなく颯爽☆登場
ユーザの対処ヒートガンで炙る(そこそこ直る)
2014 年 7 月 13 日 NT 金沢 2014LT 76
参考文献15
SONY の涙の対応
2014 年 7 月 13 日 NT 金沢 2014LT 77
参考文献16
2014 年 7 月 13 日 NT 金沢 2014LT 78
RROD
Red Ring of Deathハードウェアのランプが赤く 3 つ点灯して起動
せず2005 年に発売して多くの報告
( 3 台に 1 台は死んでる海外での異例の保証延長
キチガイ療法 towel trick
2014 年 7 月 13 日 NT 金沢 2014LT 79
参考文献17,18
Towel Trick
熱暴走を誘発
こ れ は キ チ ガ イ
2014 年 7 月 13 日 NT 金沢 2014LT 80
この LSI の再生プロセスを仮定
関連事例共通の仮説発熱の大きい LSI のはんだクラックの可能性加熱処理により再溶融させはんだを再溶融し結合
2014 年 7 月 13 日 NT 金沢 2014LT 81
GPU も同じ症状で起きていると仮定
故障した GPU は加熱処理により修理可能
2014 年 7 月 13 日 NT 金沢 2014LT 82
GPU の加熱実験
• 実験の目的故障した GPU を加熱することで 修理が可能なのか
•対象となる GPU
– はんだクラックが起きていると思われる GPU
2014 年 7 月 13 日 NT 金沢 2014LT 83
加熱器具と加熱条件
● ヒートガン● ドライヤー● オーブン
● 210℃● 3 分● 30 分
2014 年 7 月 13 日 NT 金沢 2014LT 84
加熱器具
● オーブンレンジ–同条件で加熱することが容易–均一に LSI を温められる
2014 年 7 月 13 日 NT 金沢 2014LT 85
加熱のさじ加減
● リフローのピーク温度–230℃以上
● Pb フリーはんだ融点–216℃〜 220℃
この加熱実験では全てのはんだを溶かしきりたいわけではない
2014 年 7 月 13 日 NT 金沢 2014LT 86
210℃ 3 分
● これまでのレシピ–はんだクラックだけを溶かすこと狙っている
● ヒートスプレッダ付き GPU–LSI の加熱の障害–210℃ 4 分に設定
2014 年 7 月 13 日 NT 金沢 2014LT 87
負荷テスト
● 再生した GPU–本当に計算能力があるかわからない–負荷をかけると強制終了するかもしれない
●負荷テストを実施– ベンチマークソフト Sandra や 3DMarkを利用負荷テストをクリアして再生とみなす
2014 年 7 月 13 日 NT 金沢 2014LT 88
使用機材・加熱環境
● オーブン機能付き電子レンジ
–National NE-N25
–製造年 1996 年–1.40KW( 電熱時 )
2014 年 7 月 13 日 NT 金沢 2014LT 89
使用機材・加熱環境
●温度計– SEKISUI 室温( -30℃ - 50℃ ) 自然冷却時計測
– EMPEX 室温( -20℃ - 50℃ )ベンチマーク時計測
– GPU-Z GPU温度ソフトウェア負荷テスト用
2014 年 7 月 13 日 NT 金沢 2014LT 90
使用機材・負荷環境●使用した PC
CPU Core i7 2.8GHz
RAM 4GB Storage 32GB SSD
• OS Windows7 64bit● ディスプレイ Display 1 (VGA) & IO-DATA 17inch SXGA(1280x1024)
● Display 2 (DVI) & IO-DATA 19inch WXGA+(1440x900)
2014 年 7 月 13 日 NT 金沢 2014LT 91
使用機材・ベンチマーク● Sandra
– ライト版 2013.10.19.66– グラフィックレンダリング テストを実施
● 3D Mark06– BasicEdition 1.2.0– フルテストを実施( 20 分程度の計測)
● ディスプレイ Display 1 (VGA) & IO-DATA 17inch SXGA(1280x1024) Display 2 (DVI) & IO-DATA 19inch WXGA+(1440x900)
2014 年 7 月 13 日 NT 金沢 2014LT 92
実験手順1
• 実験対象となる GPU のヒートシンクやファンを取り外しグリスを拭き取る
2014 年 7 月 13 日 NT 金沢 2014LT 93
実験手順2
• オーブン内を 210℃ まで余熱する
2014 年 7 月 13 日 NT 金沢 2014LT 94
実験手順3
• オーブンの天板に GPU を載せ210℃ で 3 分加熱する
2014 年 7 月 13 日 NT 金沢 2014LT 95
実験手順3
• オーブンの天板に GPU を載せ210℃ で 3 分加熱する
2014 年 7 月 13 日 NT 金沢 2014LT 96
実験手順4
• オーブンから取り出し自然冷却を行いGPU を組み立て, PC に取り付ける
2014 年 7 月 13 日 NT 金沢 2014LT 97
実験手順5
• GPU の動作テストを行う
2014 年 7 月 13 日 NT 金沢 2014LT 98
実験手順6
•正常な画面描画が可能な GPU に対してメーカのドライバをインストールしベンチマークで負荷をかける
2014 年 7 月 13 日 NT 金沢 2014LT 99
予備実験
● 加熱実験のテスト–画面の映らなくなった Radeon 6850HD
●負荷テストのテスト–正常に動作する GeForce 9800GT
2014 年 7 月 13 日 NT 金沢 2014LT 100
加熱実験のテスト
• Radeon 6800HD–画面が出ないことを確認
210℃ で 3 分加熱処理
2014 年 7 月 13 日 NT 金沢 2014LT 101
テストの結果
●画面の描画が再び行われた–正常に動作した
● 再起動を行った後,症状が再現–画面は出力されなくなった
この GPU は再生しなかった
2014 年 7 月 13 日 NT 金沢 2014LT 102
負荷テストの結果
• GeForce 9800GT● Sandra
–浮動小数点スコア225.63 ( MPixel/s )
–ダブルシェーダDX スコア 33.12 ( MPixel/s )
● 3 DMark スコア– 10826
2014 年 7 月 13 日 NT 金沢 2014LT 103
2014 年 7 月 13 日 NT 金沢 2014LT 104
実験素材の準備
● 67 台の故障した GPU を収集した
2014 年 7 月 13 日 NT 金沢 2014LT 105
加熱対象の選定
●67台の GPU で負荷テスト–加熱処理において修理可能な GPU を選別
● 加熱処理の必要がないものを除去–コンデンサや抵抗がは存している GPU–正常にベンチマークを通過した GPU
41 台の修理可能な GPU を選別
28 台が該当
2014 年 7 月 13 日 NT 金沢 2014LT 106
故障の症状で分別
2014 年 7 月 13 日 NT 金沢 2014LT 107
メーカ・機種別で分別
加熱実験を行う
2014 年 7 月 13 日 NT 金沢 2014LT 108
加熱実験しました
2014 年 7 月 13 日 NT 金沢 2014LT 109
症状別での実験結果
2014 年 7 月 13 日 NT 金沢 2014LT 110
メーカ・世代ごとでの結果
● NVIDIA
2014 年 7 月 13 日 NT 金沢 2014LT 111
メーカ・世代ごとでの結果
● AMD
2014 年 7 月 13 日 NT 金沢 2014LT 112
結果の考察
• 41 台の GPU をオーブンで加熱処理した
–変化があったものが 16 台–このうち再生したものは 8 台
• 再生可能性が高い GPU–画面が描画があるものは可能性が高い–世代が新しい GPUほど効果が高い
加熱処理による再生は有効だった
2014 年 7 月 13 日 NT 金沢 2014LT 113
まとめ
実験の目的故障した GPUを加熱することで 修理が可能なのか
加熱処理による再生は有効だった
デモ
2014 年 7 月 13 日 NT 金沢 2014LT 114
ベイカーの未来ベイクドメモリーでいきます
2014 年 7 月 13 日 NT 金沢 2014LT 115
1.オーブントースターのリフロー装置 -- 個人サイトhttp://www.ne.jp/asahi/jh1htq/machida/kousaku/reflow/reflow.html
2. Twilog 2012年07月03日(火)http://twilog.org/sushi514/date-120703
3. AFOX 「 AF6850-1024D5S1 」補助電源コネクタなしの 1 スロ版「 Radeon HD 6850 」が発売 – @asciijpeditors http://ascii.jp/elem/000/000/595/595317/
4. Monacoinhttp://monacoin.org/ja/
5. GPU technology trends and future requirementsJ.Y. Chen “GPU Technology Trends and Future Requirements,” Proc. International Electron Devices Meeting, Dec. 2009.
6. The Green500 List - June 2014http://www.green500.org/lists/green201406
7.■後藤弘茂の Weekly海外ニュース■ NVIDIA が世界最多トランジスタ数のチップ 「 GK110 」を公開
http://pc.watch.impress.co.jp/docs/column/kaigai/20120517_533500.html
2014 年 7 月 13 日 NT 金沢 2014LT 116
2014 年 7 月 13 日 NT 金沢 2014LT 117
8.信頼性試験(コンデンサの劣化評価・寿命予測) Panasonic 解析センター http://www2.panasonic.co.jp/aec/reliability/electronic.html
9.西村一弘 , 茂木正徳 , 酒井秀久 , 川瀬佳子 , 作山誠樹 , 今村和之 , 森宗克文 . 鉛フリーはんだ bga 寿命解析 (5. 材料設計 )(< 特集 >エレクトロニクス実装のためのシミュレーション技術 ). エレクトロニクス実装学会誌 , Vol. 4, No. 5, pp. 416-420, aug 2001.
10.荘司郁夫 , 森史成 , 藤内伸一 , 山下勝 . 熱サイクル負荷を受ける Sn-ag 系 pb フリーはんだ接合部の破断寿命評価 . エレクトロニクス実装学会誌 , Vol. 4, No. 4, pp. 289-292, jul 2001.
11. 3.3.1 温度プロファイルの考え方 ルネサスhttp://japan.renesas.com/products/package/manual/3/3_3/3_3_1/index.jsp
12.信頼性評価試験 尼崎事業所 日鉄住金テクノロジー株式会社 http://www.nsst.nssmc.com/research_support/shinrai_handa.html
13.高橋浩之 , 廣畑賢治 , 久野勝美 , 川上崇 , 小澤直行 , 笹原邦彦 . リフロー・フロー混載実装における鉛フリーはんだ接合部のはく離強度評価 . エレクトロニクス実装学会誌 , Vol. 8, No. 4, pp.301-307, jul 2005.
2014 年 7 月 13 日 NT 金沢 2014LT 118
15. Youtube 検索 [PS3 YLoD fix ] 34,900 件https://www.youtube.com/results?search_query=PS3+YLoD++fix
16. PlayStation®製品をご愛用のお客様へご使用上の注意のお知らせhttp://www.jp.playstation.com/info/support/nr_20121222_ps.html
17. 2007 年 7 月 5 日 Microsoft 公式ティザ XBOX360 について http://www.microsoft.com/en-us/news/press/2007/jul07/07-05warrantyextentionpr.aspx
18. Youtube 検索 [xbox360 towel trick] 16,200件 https://www.youtube.com/results?search_query=xbox360+towel+trick
19.加熱処理を用いた故障した GPU の再生実験
2014 年 7 月 13 日 NT 金沢 2014LT 119
2014 年 7 月 13 日 NT 金沢 2014LT 120
GPU の加熱実験
• 実験の目的故障した GPU を加熱することで 修理が可能なのか
•対象となる GPU
– はんだクラックが起きていると思われる GPU
2014 年 7 月 13 日 NT 金沢 2014LT 121
加熱器具と加熱条件
● ヒートガン● ドライヤー● オーブン
● 210℃● 3 分● 30 分
2014 年 7 月 13 日 NT 金沢 2014LT 122
加熱器具
● オーブンレンジ–同条件で加熱することが容易–均一に LSI を温められる
2014 年 7 月 13 日 NT 金沢 2014LT 123
加熱のさじ加減
● リフローのピーク温度–230℃以上
● Pb フリーはんだ融点–216℃〜 220℃
この加熱実験では全てのはんだを溶かしきりたいわけではない
2014 年 7 月 13 日 NT 金沢 2014LT 124
210℃ 3 分
● これまでのレシピ–はんだクラックだけを溶かすこと狙っている
● ヒートスプレッダ付き GPU–LSI の加熱の障害–210℃ 4 分に設定
2014 年 7 月 13 日 NT 金沢 2014LT 125
負荷テスト
● 再生した GPU–本当に計算能力があるかわからない–負荷をかけると強制終了するかもしれない
●負荷テストを実施– ベンチマークソフト Sandra や 3DMarkを利用負荷テストをクリアして再生とみなす
2014 年 7 月 13 日 NT 金沢 2014LT 126
使用機材・加熱環境
● オーブン機能付き電子レンジ
–National NE-N25
–製造年 1996 年–1.40KW( 電熱時 )
2014 年 7 月 13 日 NT 金沢 2014LT 127
使用機材・加熱環境
●温度計– SEKISUI 室温( -30℃ - 50℃ ) 自然冷却時計測
– EMPEX 室温( -20℃ - 50℃ )ベンチマーク時計測
– GPU-Z GPU温度–ソフトウェア負荷テスト用
2014 年 7 月 13 日 NT 金沢 2014LT 128
使用機材・負荷環境●使用した PC
CPU Core i7 2.8GHz
RAM 4GB Storage 32GB SSD
• OS Windows7 64bit● ディスプレイ Display 1 (VGA) & IO-DATA 17inch SXGA(1280x1024) Display 2 (DVI) & IO-DATA 19inch WXGA+(1440x900)
2014 年 7 月 13 日 NT 金沢 2014LT 129
使用機材・ベンチマーク● Sandra
– ライト版 2013.10.19.66– グラフィックレンダリング テストを実施
● 3D Mark06– BasicEdition 1.2.0– フルテストを実施( 20 分程度の計測)
● ディスプレイ Display 1 (VGA) & IO-DATA 17inch SXGA(1280x1024) Display 2 (DVI) & IO-DATA 19inch WXGA+(1440x900)
2014 年 7 月 13 日 NT 金沢 2014LT 130
実験手順1
• 実験対象となる GPU のヒートシンクやファンを取り外しグリスを拭き取る
2014 年 7 月 13 日 NT 金沢 2014LT 131
実験手順2
• オーブン内を 210℃ まで余熱する
2014 年 7 月 13 日 NT 金沢 2014LT 132
実験手順3
• オーブンの天板に GPU を載せ210℃ で 3 分加熱する
2014 年 7 月 13 日 NT 金沢 2014LT 133
実験手順4
• オーブンから取り出し自然冷却を行いGPU を組み立て, PC に取り付ける
2014 年 7 月 13 日 NT 金沢 2014LT 134
実験手順5
• GPU の動作テストを行う
2014 年 7 月 13 日 NT 金沢 2014LT 135
実験手順6
•正常な画面病が可能であった GPU に対してメーカのドライバをインストールしベンチマークで負荷をかける
2014 年 7 月 13 日 NT 金沢 2014LT 136
予備実験
● 加熱実験のテスト–画面の映らなくなった Radeon 6850HD
●負荷テストのテスト–正常に動作する GeForce 9800GT
2014 年 7 月 13 日 NT 金沢 2014LT 137
加熱実験のテスト
• Radeon 6800HD–画面が出ないことを確認
210℃ で 3 分加熱処理
2014 年 7 月 13 日 NT 金沢 2014LT 138
テストの結果
●画面の描画が再び行われた–正常に動作した
● 再起動を行った後,症状が再現–画面は出力されなくなった
この GPU は再生しなかった
2014 年 7 月 13 日 NT 金沢 2014LT 139
負荷テストの結果
• GeForce 9800GT● Sandra
–浮動小数点スコア225.63 ( MPixel/s )
–ダブルシェーダDX スコア 33.12 ( MPixel/s )
● 3 DMark スコア– 10826
2014 年 7 月 13 日 NT 金沢 2014LT 140
実験素材の準備
● 67 台の故障した GPU を収集した
2014 年 7 月 13 日 NT 金沢 2014LT 141
加熱対象の選定
●67台の GPU で負荷テスト–加熱処理において修理可能な GPU を選別
● 加熱処理の必要がないものを除去–コンデンサや抵抗がは存している GPU–正常にベンチマークを通過した GPU
41 台の修理可能な GPU を選別
28 台が該当
2014 年 7 月 13 日 NT 金沢 2014LT 142
故障の症状で分別
2014 年 7 月 13 日 NT 金沢 2014LT 143
メーカ・機種別で分別
加熱実験を行う
2014 年 7 月 13 日 NT 金沢 2014LT 144
• 加熱実験しました
2014 年 7 月 13 日 NT 金沢 2014LT 145
症状別での実験結果
2014 年 7 月 13 日 NT 金沢 2014LT 146
メーカ・世代ごとでの結果
● NVIDIA
2014 年 7 月 13 日 NT 金沢 2014LT 147
メーカ・世代ごとでの結果
● AMD
2014 年 7 月 13 日 NT 金沢 2014LT 148
結果の考察
• 41 台の GPU をオーブンで加熱処理した
–変化があったものが 16 台–このうち再生したものは 8 台
• 再生可能性が高い GPU–画面が描画があるものは可能性が高い–世代が新しい GPUほど効果が高い
加熱処理による再生は有効だった
2014 年 7 月 13 日 NT 金沢 2014LT 149
まとめ
実験の目的故障した GPUを加熱することで 修理が可能なのか
加熱処理による再生は有効だった
2014 年 7 月 13 日 NT 金沢 2014LT 150
• 404 Not Found.
• Finished slides.
• Next : option slides
2014 年 7 月 13 日 NT 金沢 2014LT 153
集積度の高くなる GPU
● トランジスタ数–50億を超える
● 年率 1.7倍の向上–これからも集積度はあがっていく
参考文献: GPU technology trends and future requirements
今後の成長はまだ期待できる
2014 年 7 月 13 日 NT 金沢 2014LT 154
GPU の発熱
●アイドル時–40℃程度
●計算処理時–90℃程度
2014 年 7 月 13 日 NT 金沢 2014LT 155
故障した GPU
●短期間で故障した GPU–負荷をかけると異常発熱して強制終了–( GPU の温度が 100℃ を超える)
● 故障原因の検討–冷却不足 …対策をしても効果なし
–各部品の故障ではないか発売・購入から 1 年たっておらず各部品に寿命がきたとは考えにくい
2014 年 7 月 13 日 NT 金沢 2014LT 156
再生した GPU
● オーブンでの加熱
–210℃3 分–自然冷却 10 分
● 再生した
● ノート PC での例–ドライヤーで加熱
加熱処理によって再生可能ではないか
2014 年 7 月 13 日 NT 金沢 2014LT 157
本研究の目的
• 故障した GPU は 加熱処理によって再生可能か
–故障原因を検討–なんで加熱処理なのか?–本当にできるのか?
故障原因を検討し,実験を行いました.
2014 年 7 月 13 日 NT 金沢 2014LT 158
( ´∀ `) < モナー
電力効率
2014 年 7 月 13 日 NT 金沢 2014LT 159参考文献5
コア数
2880コアTesla K40 とかいうバケモン1.43TFlops (倍精度)
2014 年 7 月 13 日 NT 金沢 2014LT 160
GPU
モダンな利用方法お小遣い稼ぎ
すごい集積度の向上 年 1.7倍電力効率 スパコントランジスタ数 50億コア数 2688個
2014 年 7 月 13 日 NT 金沢 2014LT 161
2014 年 7 月 13 日 NT 金沢 2014LT 162
GPU の故障原因
•各パーツの寿命–コンデンサ–コイル– VRM– DRAM–制御用 IC
●液体コンデンサ–寿命の短いパーツ
●設計寿命–85℃ 2000時間–105℃ 2000時間
2014 年 7 月 13 日 NT 金沢 2014LT 163
寿命の検討(コンデンサの例)
● GPU のコンデンサ–固体コンデンサ 105℃ 2000時間
● GPU の動作環境–過酷な動作温度 75℃–アレニウス則より 16000時間, 666 日以上
1 年以上動作しつづけることが可能
2014 年 7 月 13 日 NT 金沢 2014LT 164
はんだクラック
● LSI のはんだ–Pb フリーはんだの Ball Grid Array 実装
2014 年 7 月 13 日 NT 金沢 2014LT 165
熱疲労に弱く脆い
● はんだに熱によるダメージが蓄積する
● はんだクラックが界面で起きやすい.
参考文献:熱サイクル負荷を受ける sn-ag系 pb フリーはんだ接合部の破断寿命評価
参考文献:鉛フリーはんだ BGA寿命解析
2014 年 7 月 13 日 NT 金沢 2014LT 166
GPU の部品の実装
● リフロー–LSI や制御 IC–小型の抵抗
● フロー–VRM–コンデンサ
2014 年 7 月 13 日 NT 金沢 2014LT 167
リフロー・フローのダメージ
● リフロー及びフローによる混載実装–繰り返し基盤の加熱を行う–はんだクラックの発生
2014 年 7 月 13 日 NT 金沢 2014LT 168
修理事例の紹介
● PS3–Cellエンジン搭載–YLOD
● XBOX360–小さなヒートシンクで冷却
2014 年 7 月 13 日 NT 金沢 2014LT 169
GPU の再生方法を検討
•関連事例の共通の仮説–発熱の大きい LSI部分のはんだクラック
–加熱処理によりはんだを溶かし再び接合
故障した GPU は加熱処理により修理可能
GPU も同様である