モデルアーキテクチャ観点からのdeep neural network高速化

Copyright©DeNACo.,Ltd.AllRightsReserved.

モデルアーキテクチャ観点からのDeep Neural Network⾼速化

Yusuke Uchida (@yu4u)

1


今⽇のおはなし（本発表⼀番のマサカリ場）

2

CUDAcuDNN

NVIDIAGPU GPU

WebGL WebGPU

TPUVideoCoreIV

？？？？？？

TensorFlow,Chainer,…

deeplearn.js WebDNN？？？？？？

@9_Jesさん

アプリケーションレイヤ

@Kiikurageさん@notogawa

さん

@kazunori_279さん

@Venginnerさん

@iwiwiさん

@yu4u


Disclaimer

!  画像を想定した畳み込みニューラルネットワークの話がメインです

!  初歩的な話もしますが許してください

3


トレードオフ

!  タスクの精度!  推論速度!  訓練速度!  モデルサイズ（圧縮されたファイルとして）!  Forwardで必要なメモリサイズ（モデルサイズ含む）

!  推論（訓練速度）はCPUかGPUか、バッチサイズが1なのか⼤きく取れるのかに⼤きく影響される

4


モデルアーキテクチャ観点からの⾼速化

!  Factorization!  Efficient microarchitecture (module)!  Pruning!  Quantization!  Distillation!  Early termination

5


Convolutionの計算量

6

W

H

W

H

N M

KK

•  ⼊⼒レイヤサイズ：HxWxN•  畳み込みカーネル：KxKxNxM

[convKxK,M]と表記(e.g.[conv3x3,64])•  出⼒レイヤサイズ：HxWxM•  畳み込みの計算量：H・W・N・K2・M

※バイアス項無視、padding=“same”


Convolutionの計算量

7

W

H

W

H

N M

KK

•  ⼊⼒レイヤサイズ：HxWxN•  畳み込みカーネル：KxKxNxM

[convKxK,M]と表記(e.g.[conv3x3,64])•  出⼒レイヤサイズ：HxWxM•  畳み込みの計算量：H・W・N・K2・M

※バイアス項無視、padding=“same”

画像スケール、チャネル数、カーネルサイズの2乗に⽐例




8


Factorization

!  Low Rank Matrix Factorization⾏列（＝畳み込みカーネル）を低ランク近似することで計算量を削減

!  学習によって得られた⾏列を分解するというよりは最初から分解した形で重みを学習する（のでfactorizationと⾔って良いのか？）

9

≈


畳み込みカーネルの空間的Factorization

!  ⼤きな畳込みカーネルを複数の⼩さな畳込みカーネルに置き換える⁃  conv 5x5 と conv 3x3 - conv 3x3 は同じreceptive fieldを持つ⁃  計算量は 25:18⁃  ⼩さな畳み込みを重ねるパターンはactivation層の数も多いため

表現能⼒の向上が期待できる

!  例⁃  AlexNet：conv 11x11 - conv 5x5 - conv 3x3 - …

↓⁃  VGGNet：conv 3x3 - conv 3x3 - conv 3x3 - …

10

conv5x5 conv3x3-conv3x3


畳み込みカーネルの空間的Factorization

!  conv 3x3 vs conv 1x3 - conv 3x1⁃  計算量は 9:6

!  例：Inception v6→v7

11

conv3x3 conv1x3-conv3x1

hap://lsun.cs.princeton.edu/slides/ChrisJan.pdf


畳込みカーネルの空間⽅向とチャネル⽅向のFactorization

!  通常の畳込みカーネルをdepthwise / pointwise convolutionに分離

!  Depthwise (separable) convolution⁃  Input tensorに対しチャネル毎に畳み込み⁃  計算量：H・W・N・K2・M (M=N)

H・W・K2・N

!  Pointwise convolution⁃  ただのconv 1x1, M⁃  計算量：H・W・N・K2・M (K=1)

H・W・N・M

!  Depthwise + pointwise⁃  計算量：H・W・N・(K2 + M)

≒ H・W・N・M (M >> K2) 12

W

H

W

H

N

11

M

W

H

W

H

N

KK

N


Dilated convolution

!  カーネルの重みに規則的に0を⼊れてカーネルサイズを拡張!  ⼩さいカーネルと同じ計算量＋パラメータで広いreceptive fieldを持つ

⁃  Feature mapの解像度を⾼く保ちたいsegmentationや超解像で良く使われる

!  例⁃  Dilated Residual Networks, CVPRʼ17.⁃  WaveNet - A Generative Model for Raw Audio

13

conv5x5 conv3x3,dilaJon=2


実際の処理速度は？？

!  PyTorchとKeras (TensorFlow backend) で簡単な実験⁃  特定の種類のconvolutionのみを含む16層CNNを構築•  Batch normalizationやactivation層はなし

⁃  ⼊⼒tensorを 32x32x32x64（バッチサイズ32、チャネル数64）⁃  ランダムな⼊⼒を100回forwardした時間を計測⁃  環境：Ubuntu 16.04, CPU: i7-7700 3.60GHz、

GPU: GeForce GTX1080（TensorFlowはAVX2等を使うようにコンパイルしていない）

!  Summary

14


実際の処理速度は？？

!  PyTorchとKeras (TensorFlow backend) で簡単な実験⁃  特定の種類のconvolutionのみを含む16層CNNを構築•  Batch normalizationやactivation層はなし

⁃  ⼊⼒tensorを 32x32x32x64（バッチサイズ32、チャネル数64）⁃  ランダムな⼊⼒を100回forwardした時間を計測⁃  環境：Ubuntu 16.04, CPU: i7-7700 3.60GHz、

GPU: GeForce GTX1080（TensorFlowはAVX2等を使うようにコンパイルしていない）

!  Summary

15

DepthwiseconvoluJon

Conv3x3dilaJon=2

haps://github.com/yu4u/conv-benchmark


PyTorch CPU

16

Conv3x3⽐の理論計算量

DepthwiseconvoluJon

Conv3x3dilaJon=2

Conv3x3⽐の実処理時間


PyTorch CPU

!  Depthwise convolutionとdilated convolution以外は実処理時間と理論計算量が⼀致

!  どちらもメモリの局所性がないため？⁃  教えて中村さん！

!  PyTorchのdepthwise convolutionはめっちゃ遅い⁃  Grouped convolutionでグループ数＝チャネル数でやってるため

17


PyTorch GPU

!  GPUだとfactorizeしないほうが良さそう⁃  でも5x5が遅いのは？

18


Keras CPU

!  PyTorchと傾向は同じ⁃  Depthwise convolutionは専⽤の効率的な実装が存在⁃  Dilated convolutionも早い

19


Keras GPU

!  PyTorchとだいたい同じ？!  Dilated convolutionは早い

20


中間的なFactorization

!  Efficient and Accurate Approximations of Nonlinear Convolutional Networks, CVPRʼ15.

!  Conv k x k, d を Conv k x k, dʼ - Conv 1 x 1, d に分解⁃  学習済みのカーネルを、出⼒feature mapの誤差を

最⼩に保つように最適化問題を解くことで分解⁃  計算量：dk2c → dʼk2c + ddʼ = dʼ(k2c + d) ≒ dʼk2c

21


Domain-adaptive deep network compression, ICCVʼ17.

!  FC層を低ランク近似することで圧縮する!  通常は重みWと、Wを低ランク⾏列の積で近似したWʼとの誤差を最⼩に

するが、ここではWX（＝Y）の誤差を最⼩にする部分がNovelty（だが1つ前の⼿法とアプローチは同じでは…）

22




23


Efficient microarchitecture (module)

!  Convをスタックするマクロアーキテクチャ (~VGGNet) からマイクロアーキテクチャをスタックする時代へ (GoogLeNet, ResNet~)

!  様々なマイクロアーキテクチャ (module or building block)⁃  mlpconv (Network in Network)⁃  Inception module (GoogLeNet)⁃  Residual block, bottleneck block (ResNet)⁃  ResNeXT⁃  DenseBlock (DenseNet)⁃  Fire module (SqueezeNet)⁃  Separable conv (Xception, MobileNets)⁃  Neural architecture search (meta learning)

!  ダイレクトに計算量を減らすというよりは精度と計算量のトレードオフを改善する⁃  実⽤上は精度を担保して、どれだけ計算量を減らせるか

24


Residual Networks, ResNet（参考）

25

基本形

conv3x3,64

conv3x3,128

conv3x3,256

conv3x3,512

globalaveragepoolingFC

xN1

xN2

xN3

xN4

56x56

28x28

14x14

7x7

出⼒画像サイズ

Buildingblock/Residualunit

•  パラメータの違うResidualunitを重ねていく•  BatchnormalizaJon•  画像サイズを半分＋フィルタ数を倍に•  最後はglobalaveragepooling


Residual block, bottleneck block

!  Bottleneckバージョンは、conv 3x3, 256をFactorizeしたものと⾒ることもできる⁃  Receptive fieldは⼩さい

26

通常のresidualblock “boaleneck”バージョン


Fire module (SqueezeNet)

!  戦略⁃  3x3の代わりに1x1のフィルタを利⽤する⁃  3x3への⼊⼒となるチャネル数を少なくする

!  ちなみに⾮常に⼈気のあるモデルだと思われるが…⁃  ResNetやInception後の論⽂なので、そこからの差異が⼩さい

とのことで、ICLRʼ17でrejectとなっている

27

conv1x1,s1x1

conv1x1,e1x1 conv3x3,e3x3

concat

Firemodule

32

128128

256

256

Squeezelayer

Expandlayer

conv3x3,256のFactorizeと⾒ることもできる


Fire module (SqueezeNet)

28

Squeeze layerでの圧縮率0.75程度だと精度低下なし0.5でー0.7%

Expand layerの3x3割合0.75程度だと精度低下なし0.5でー0.7%


Depthwise separable convolution

!  Xception

!  MobileNets

!  Xceptionはdepthwise/pointwise convの間にReLUがない⁃  実験でないほうが良いことを⽰している

!  Xceptionはidentity mappingがある29

Depthwise conv 3x3Pointwise conv 3x3Batch normalization

ReLUSeparable conv 3x3

ReLU

(Maxpool 3x3, stride=2)

Conv 1x1,stride=2 Separable conv 3x3

Depthwise conv 3x3Batch normalization

ReLU

Batch normalizationPointwise conv 3x3

ReLU


Learning Transferable Architectures for Scalable Image Recognition, arXiv:1707.07012.!  moduleアーキテクチャをRNNで最適化

30

!  ⼤枠のアーキテクチャは決まっている•  (ReducJoncell+Normalcell×N)×K

!  ReducJoncell：featuremapをダウンサンプル!  利⽤可能な要素は下記


Learning Transferable Architectures for Scalable Image Recognition, arXiv:1707.07012.!  できたmodule

!  Sep多い31


Learning Transferable Architectures for Scalable Image Recognition, arXiv:1707.07012.!  結果

!  Mult-addとのトレードオフは良いが実速は？32




33


Pruning

!  異なるレベルのpruning⁃  重みレベル⁃  カーネルレベル⁃  チャネル（フィルタ）レベル⁃  レイヤレベル

34

Structured（⾼速化しやすい

最適化しづらい）


Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding, ICLRʼ16!  重みレベルのpruning

35

•  通常通り重みを訓練•  しきい値以下の重みをprune（0にする）•  0の重みはそのままにfine-tuneする


Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding, ICLRʼ16

36

•  ⾮ゼロ要素を7.5%にまで削減•  但し、ほとんどFC層

↑モダンなモデル(ResNet~)はglobalaveragepoolingを使うのでここまでパラメータの多いFC層がない


（余談）Global average pooling

!  Network In Network, ICLRʻ14. で提案された!  Feature mapサイズの average pooling

!  オリジナルの論⽂では N をクラス数にすることで、global average poolingの出⼒がそのままprediction結果となる⁃  その後の使われ⽅としては、後段に出⼒がクラス数のFC層を使う

!  何れにせよ、パラメータ数の多いFC層が不要

37

W

H

N

N1

1


Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding, ICLRʼ16!  んで早くなるの？

⁃  早くなる、FCはね！（←cuSPARSE等のsparse⾏列演算ライブラリを利⽤）

!  Sparseな重みのconvolutionは？38


Pruning Filters for Efficient ConvNets, ICLRʼ17.

!  チャネルレベルのpruning!  チャネル毎に、畳込みパラメータのL1ノルムが⼩さいものからprune

!  精度を保ったままpruningすると、計算量で10%台の削減

39


チャネル毎に⼊⼒を平均0分散1に正規化、γとβでscale&shit

Learning Efficient Convolutional Networks through Network Slimming, ICCV'17.!  チャネルレベルのpruning!  各チャネルの出⼒をscalingする変数 γ を導⼊、Σi|γi| をロスとして学習

⁃  γ はbatch normalizationに導⼊する（というか最初からある）⁃  Batch normalizationの正規化が必須

!  学習後、γi が⼩さいチャネルiを削除し、fine-tune

40

チャネルi

Batchnorm

alizaJon


Learning Efficient Convolutional Networks through Network Slimming, ICCV'17.

!  正則化の効果により、pruning後に精度も上がる！!  感想

⁃  学習した後にpruningするより筋が良い⁃  シンプル＆Batch normalizationで実現するの、素敵⁃  SOTA精度のモデルをベースにして検証して欲しい⁃  ResNetのようなskip connectionがあるとややこしい

41


L0ではなくLassoに緩和して解く

Channel Pruning for Accelerating Very Deep Neural Networks, ICCVʼ17.!  チャネルレベルのpruning!  あるfeature mapのチャネルについて、次のレイヤのfeature mapを

なるべく復元できるようなチャネルを選択し、残りを削除

!  VGG：5倍速, 精度0.3%↓、ResNet：2倍速, 精度1.4%↓42


ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression, ICCVʼ17.!  チャネルレベルのPruning!  前のやつとアプローチは同じ、次のレイヤのfeature mapに誤差を発⽣

させないfilterを削除する

!  実際のforwardした結果から特定のフィルタを削除した際の誤差を計算!  フィルタの削除はGreedyに⾏う、削除した後に、残ったフィルタを個々

にスケーリングして、誤差を軽減（linear regressionとして解ける）!  最後にfine-tune

43




44


Quantization

!  重みを量⼦化することでモデルのメモリを削減⁃  半精度を利⽤するとかでなければソフト的には⾼速化ではない

（デモサイト等でのモデルのダウンロード速度は早くなるが）!  量⼦化の種類

⁃  Scalar quantization（各次元毎に量⼦化•  Binary•  Uniform（centroidが⼀定間隔•  Adaptive（centroidの間隔をkmeans等で学習

⁃  Product quantization（ベクトルを分割して個別に量⼦化⁃  Residual quantization（量⼦化→残差を量⼦化⁃  Hierarchical quantization（量⼦化→残差を量⼦化⁃  Vector quantization

!  量⼦化効率（centroid数 vs 量⼦化誤差）⁃  binary < scalar < product < residual, hierarchical < vector

45

違いは後段の量⼦化コードブックが単⼀かどうか


Quantization

!  重みを量⼦化することでモデルのメモリを削減⁃  半精度を利⽤するとかでなければソフト的には⾼速化ではない

（デモサイト等でのモデルのダウンロード速度は早くなるが）!  量⼦化の種類

⁃  Scalar quantization（各次元毎に量⼦化•  Binary•  Uniform（centroidが⼀定間隔•  Adaptive（centroidの間隔をkmeans等で学習

⁃  Product quantization（ベクトルを分割して個別に量⼦化⁃  Residual quantization（量⼦化→残差を量⼦化⁃  Hierarchical quantization（量⼦化→残差を量⼦化⁃  Vector quantization

!  量⼦化効率（centroid数 vs 量⼦化誤差）⁃  binary < scalar < product < residual, hierarchical < vector

46

Deeplearningのコンテキストではあまりない


Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding, ICLRʼ16!  （再掲）

47

今度はココ


Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding, ICLRʼ16!  0でない重みをadaptive scalar quantization

!  重みを量⼦化した状態のままfine-tuneできる！！

48


Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding, ICLRʼ16

49

重みのIDをハフマン符号化

⾮ゼロ要素間のgapをハフマン符号化

!  VGG16が552MB → 11.3MB⁃  伸張に時間は必要そう


Binary neural networks

!  神資料があるのでまとめだけ…⁃  https://www.slideshare.net/kentotajiri/ss-77136469

50

•  ⼊⼒も重みもバイナリ化することで⾼速化が可能

•  ソフト的にも実装が可能•  サポートしているメジャーな

フレームワークがない•  精度がまだ低い




51


Distilling the Knowledge in a Neural Network, NIPSʼ14 Deep Learning Workshop.!  アンサンブルモデルや⼤きなモデルから、⼩さなモデルへの

knowledge transfer⁃  精度を保ちながら⼩さなモデルを学習

52

1. アンサンブルモデルや⼤きなモデルを学習

2. 学習済みモデルを利⽤して⼩さなモデルを学習


Distilling the Knowledge in a Neural Network, NIPSʼ14 Deep Learning Workshop.

53

……

学習画像

学習済みモデル

学習するモデル

…

正解ラベル（ハード

ターゲット）

通常T=1のsotmaxのTを⼤きくしたソフトターゲットを利⽤

…

ソフトターゲット

ソフトターゲット

ハードターゲット

正解ラベルと学習モデル出⼒の両⽅を利⽤

推論時はT=1とする（argmaxは同じだが…


Distilling the Knowledge in a Neural Network, NIPSʼ14 Deep Learning Workshop.!  同⼀モデルでも、アンサンブルから学習したほうが良かったり

!  ソフトターゲットだと⼩数のデータで効率的に学習できたりする

54




55


BranchyNet: Fast Inference via Early Exiting from Deep Neural Networks, ICPRʼ16.!  ネットワークの途中からラベル推定する分岐を作成!  そのsoft-maxのエントロピーを信頼値として

閾値以上の場合にExitする

!  学習時のロスは、全てのExitのロスの重み付き和（重みが最後が1で途中が0.3というHeuristic…）

56


BranchyNet: Fast Inference via Early Exiting from Deep Neural Networks, ICPRʼ16.!  Exitする閾値を幾つか変えて実験（←MNIST、→CIFAR-10）

!  層の途中にもロスが⼊っている影響か、ベースよりも精度が上がっている

57


Spatially Adaptive Computation Time for Residual Networks, CVPRʼ17.!  各層のhalting scoreの合計が1を超えるとその層までの結果を出⼒

58

計算量に関するロスを追加


Spatially Adaptive Computation Time for Residual Networks, CVPRʼ17.!  空間（feature map）レベルに拡張

59

SACT＝空間レベルACT＝resblockレベル


Adaptive Neural Networks for Efficient Inference, ICMLʼ17.

60


Adaptive Feeding: Achieving Fast and Accurate Detections by Adaptively Combining Object Detectors, ICCVʼ17.!  SSD300, SSD500, R-FCNといった異なる精度・計算量のDetectorのう

ち、どれに画像を⼊⼒するかを判定する識別器（SVM）を学習!  適切なDetectorにFeed→平均的な精度・計算量トレードオフを改善!  識別器の学習は各画像について実際に各Detectorに検出させ、その

average precisionの⾼い⽅を正解ラベルとする

61


まとめ

!  フレームワークより上のレイヤで意味があるのは⁃  Factorization⁃  Efficient microarchitecture (module)⁃  Pruning•  チャネルレベル（、レイヤレベル）

⁃  Quantization•  半精度（、バイナリ）

⁃  Distillation⁃  Early termination

!  精度重視のモデルで学習し、効率的なmoduleにdistillationし、pruningし、バイナリ化し、early terminationする→ Efficient module + distillation + channel-level pruning

62

モデルアーキテクチャ観点からのdeep neural network高速化

Technology