Download - Deep Learning向け高効率化技術について(2013) スパコンメインフレームサーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Copyright 2017 FUJITSU LABORATORIES LTD.

LSIとシステムのワークショップ2017 2017年5月16日

Deep Learning向け高効率化技術

について

富士通研究所

コンピュータシステム研究所

池敦

0

アウトライン

はじめに

背景

富士通のAIへの取り組みについて

•富士通Zinraiディープラーニング


Deep Learningとは

Deep Learning向け高効率化技術とは

富士通のDeep Learning向け高効率化技術

Copyright 2017 FUJITSU LABORATORIES LTD. 1

背景


• 富士通Zinraiディープラーニング

はじめに


コンピュータの進化

昨年はENIACが登場して70年の節目

この７０年間、コンピュータは、ムーアの法則「半導体の集積率は1.5年で2倍に」を維持したまま長足に進化

3 Copyright 2017 FUJITSU LABORATORIES LTD.

1.E+00

1.E+03

1.E+06

1.E+09

1.E+12

1930 1950 1970 1990 2010

ENIAC

Com

puta

tions

per

second

per

com

pute

r

ENIAC, 1946 U.S. federal government

2x / 1.5 years

(ご参考)富士通コンピュータの進化

富士通は・・・コンピュータの歴史と共に発展してきました


1950 1960 1970 1980 1990 2000 2010

FACOM100 (1954)

FACOM230-10 (1965)

M-190 (1976)

M-780 (1985)

M-1800 (1990)

VPP-500 (1992)

FM V (1993)

OAYSYS100 (1980)

PRIMEHPC FX10 (2011)

VP-100 (1982)

FM TOWNS (1989)

PRIMEQUEST (2005)

GS21 (2002)

DS90 (1991)

Arrows (2011)

SPARC M10 (2013)

スパコン

メインフレーム

サーバ

ＰＣ・スマホ (ユビキタス)

ムーアの法則とマイクロプロセサのトレンド

しかしついにムーアの法則(フリーライド)の終焉が目前に


100

101

102

103

104

105

106

107

109

1970 1980 1990 2000 2010 2020 2030

108

Year

# of Cores

Source: Estimated based on Stanford, K. Rupp

マイクロプロセサのトレンドr

ムーアの法則に従い順調に進化

電力消費が制限に

ムーアの法則の終焉

2005

2025

(CAGR)

IoTのインパクト

一方、新たな変化がIoTから・・

2020年には500億台のデバイスが接続される (総務省)

一方、現1.5兆個のデバイスの99.4%はインターネットに未接続 (Cisco社)

⇒ 今後あらゆるものがIoTで結ばれると、大量のデータが常時生成される真にビッグデータの時代が一気に到来すると予想


<出典> IHS Technology /総務省平成27年情報通信白書

8

データ爆発

IoTなどが生成するデータ量が爆発的に増大 (=データ爆発)

中でも非構造化データの増加が顕著に

データをそのまま貯めるのではなく、その場で情報に換え、さらに知識・知能へと昇華させていく、新しいコンピューティングが必要


知識

情報

コンピューティングの変化：データ処理から知能処理へ

<出典>http://www.fujitsu.com/us/Images/NATF2017_Presentation_03092017_Horie.pdf

1 ZB=1021

1 YB=1024

1990 2010 2020 2000 Year

データ量

40 ZB 1 ZB 1 YB

現在

非構造化データ SoEデータ（IoT、センサー）

構造化データ SoRデータ（業務データ、RDB）

データの量は爆発的に増大する： 2020年までに 40ｾﾞｯﾀﾊﾞｲﾄ 2030年までに 1 ﾖｯﾀﾊﾞｲﾄデータ爆発

9

従来ICTシステムの限界

ムーア則の終焉を迎えると汎用CPUの進化は停止へ

従来ICTの延長ではデータ爆発のニーズに対応できない


1990 2010 2020 2000 Year

データ量

103

102

1

101

104

汎用

CP

Uの電力効率性能

[相対値

]

<出典> Stanford, K. Ruppを元に推測

10nm

20nm 40nm

180nm

250nm 350nm

2025年

2002年

90nm

ムーアの法則「半導体の集積度は18か月ごとに倍になる」

ムーア則がCPU規模と性能向上を駆動

電力制約により性能向上が減速

終焉へ

現在

ニーズとのギャップ

新しいコンピューティングアーキテクチャ

従来の性能指標の延長ではなく、処理の特性に特化し進化させたアーキテクチャ（ドメイン指向）が必要に


従来の処理性能指標

汎用コンピューティング

脳型コンピューティング

スーパーコンピュータ

Approximate Computing

アクセラレータムーア則の限界

量子コンピューティング

ニューラルコンピューティング（学習処理）

ニューラルｺﾝﾋﾟｭｰﾃｨﾝｸﾞ（推論処理）

処理の特性に特化

ドメイン指向コンピューティング

扱う問題ドメインを絞り込んだドメイン指向コンピューティングにより性能を提供するのが富士通の考えるコンピューティングの方向性

知能処理もその一つであり、その中でDeep Learningに注目


ドメイン指向

ドメイン指向コンピューティング

目的に応じた専用ハードウェア

知能処理

大量データ解析画像検索

制御・圧縮暗号化・攻撃検知

大量画像から目的の画像を瞬時に検索する技術

部分画像検索をFPGAを用いCPUの50倍の速度

12


富士通の提唱するAI基盤


ロボティクス

ものづくり

感情・感性理解

機械学習

Deep Learning

データ統合

脳科学

先端医療

自動分析・自動意思決定

予測最適化

Fintech

ネットワーク自動制御

自然言語理解

感性メディア処理

社会受容性

サイバー攻撃対策

知識ベース自動車

クラウド運用管理

知識ネットワーク

リアルタイム分析

ソーシャル数理人の感情・特性ﾓﾃﾞﾙ化

AI基盤を加速するエンジン開発

Zinraiプラットフォーム

<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf

13

Zinraiプラットフォームサービスを支えるテクノロジー

スパコンからスマホまで保有する富士通ならではの技術を結集し大規模処理からエッジまで“誰でも使えるAI”を提供


Zinraiプラットフォームサービス

Zinraiディープラーニング

AI技術

広く速く使いやすく

AIソリューション

SE・SIコンサル

HPC

プロセッサ

冷却

クラウド

オンプレ

エッジ・スマホ


14



速く世界最速クラスの学習処理能力を提供

GPU

GPU

GPU

GPU

Node 0

GPU GPU

GPU GPU

GPU GPU

GPU GPU

DLフレームワーク

最速・最新のGPU NVIDIA Tesla P100 採用

高速なノード単体性能 8GPU/Node

高速フレームワーク Distributed Caffe

高速なノード並列性能富士通の並列化・チューニング技術


15


クラウドサービス、オンプレミス、エッジデバイスまで広くサポート

クラウドと同様な操作性と拡張性を持つオンプレミス商品の提供

エッジAIに対して学習済モデル配信と再学習機能を提供


広く柔軟な提供形態広く

HPC

エッジAI Zinraiディープラーニング

（クラウドサービス）

先端

AI技術

並列化

技術

OSS

ﾌﾚｰﾑﾜｰｸ

支援

ツール

GPU

HPC

オンプレ

学習モデル配信

データ収集


16



使いやすい３つの理由使いやすく

2 .学習状況が一目でわかるダッシュボード 1. すぐに使える学習環境の提供

ハード

OS

DLフレームワーク

Zinrai ディープラーニング

検証済・構築済

ハード・ソフト垂直統合

3. AI適用範囲を広げる技術

1. 実データ・シミュレーションによる入力データ作成技術

2. 時系列データの学習技術

3. ニューラルネットワークのパラメータ自動最適化技術

4. グラフデータの学習技術（Deep Tensor） <出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf

17

AI適用範囲を広げる技術①：Deep Tensor


AI適用範囲を広げる技術②：時系列データ分類


技術

効果

・Deep Learning 適用対象データ種の拡張・IoT 時系列データの分類の高精度化富士通独自のトポロジカルデータ解析とDeepLearningを組合せ

ジャイロセンサからの行動推定や脳波データからの状態推定で、既存手法に比べ約20～25％精度向上（約85％達成）

目的

ユビキタスウェア

・ジャイロセンサー・加速度センサー

など

・脳波・心拍データ

など

生体データ

音/振動データ

金融データ

・株価・経済指標など

行動分類/認識

疾病診断/予測

介護補助

故障診断/予測

経済解析/予測

時系列データ提供アプリケーション富士通 Deep Learning フレームワーク

時系列データ Deep Learning

時系列データ

変換

トポロジカルデータ解析

畳み込みニューラルネットワーク

Deep Learning 分析

時系列データを分類

Class A

Class B

Class C

21


ジンライ

語源：疾風迅雷（すばやくはげしいこと）

名前に込めた想い：人の判断・行動を“スピーディ”にサポートすることで、

企業・社会の変革を“ダイナミック”に実現させる

富士通のAIのコンセプト

22

Deep Learningとは

Deep Learning向け高効率化技術とは

富士通のDeep Learning向け高効率化技術



ニューラルネットワーク


脳には多数のニューロン(神経細胞)が存在し、各ニューロンは他の多数のニューロンからの信号を受け取り、また多数のニューロンへと信号を送信

ニューラルネットワーク(NN)は脳の仕組みをコンピュータで模倣したもので、上図のように複数の入力に重みを掛け、それらを足し合わせて閾値と比べ、ある出力関数を掛けて出力

それを多層に並べることでネットワークを構築し、複雑な表現が可能この多層(深層)NNを用いた機械学習をディープラーニング(深層学習)と呼ぶ

xn

xi

x1

ym

yj

y1

入力層出力層隠れ層(中間層)

w11

w12

w13

w14

w15

w16

w21

w22

w23

w24

w25

w26

x1

x2

x3

q

入力層

y1

w1

出力層

w2

w3

𝑦1 = 𝑓( 𝑤𝑖𝑥𝑖 − 𝜃

𝑖

)

24

ニューラルネットワークの学習


xn

xi

x1

ym

yj

y1w11

w12

w13

w14

w15

w16

w21

w22

w23

w24

w25

w26

t1

tj

tm

認識

学習入力

出力

NNは作成した段階では、重みｗはランダムな値を持つ(自分で設定した場合は除く) ため、入力にデータを与えても出力から適切な値が出るとは限らない

そこで何らかの方法を用いて重みｗを調整し、希望する出力が得られるようにしてやる必要があり、これを行うのが学習：誤差逆伝播法

forward

backward

25

ニューラルネットワークの学習サイクル

このサイクルを何回も繰り返し、適切な重みを自動で取得


重みパラメタ

data

ニューロン層1 勾配情報

重みパラメタ勾配情報

data

重みパラメタ勾配情報

label (正解)

ニューロン層2

ニューロン層3

認識結果

入力層

勾配情報

(∇E) 重みパラメタ

(w)

data data

data

認識結果差分

差分

差分差分

勾配情報

勾配情報

差分

勾配情報

(∇E)

Forward

差分

Backward

Update

学習処理サイクル

data / label ストレージ

<出典>MPIを用いたDeep Learning処理高速化の提案：山崎雅文（富士通研究所）：GTC Japan2016テクニカルセッションプログラム

26


高効率化とは「システム資源をｓれぞれ効率的に使うこと」


プロセサ

ネットワーク

メモリ

プロセサ効率化

専用プロセサ(DLU)

並列実行

ドメイン特化し無駄を排除

並べて一気に高速化

メモリ効率化

無駄なメモリ利用を削ぎ落す

データ並列

モデル並列

処理に応じた精度

メモリ効率化Caffe

高速Pruning

①

②

⑤

⑥

③

④

以降では、下記６つの技術をご紹介

①②並列実行


ディープラーニング技術が様々なアプリケーションへ拡大

ディープニューラルネットワーク (DNN) 開発の現状

DNNの検証・評価フェーズには非常に長い時間がかかっている

複数ノードのＧＰＵでは、一部の

DNNしか処理性能がスケールしない

仮説・提案

検証・評価

実装分析

1個のGPUで数週間必要

課題

現状

多数のGPUを利用して高速化したい

画像認識音声認識自然言語処理医療金融ロボット自動車

補足：用語説明

Caffe

Berkeley Vision and Learning Center(BVLC)が中心となって開発を進めているOSSのDLフレームワーク

Convolution Neural Network(CNN)を利用した画像認識を得意とする

ノード内GPU並列化は可能だが、ノード間GPU並列化は(現在の所)未対応

MPI(Message Passing Interface)

並列コンピューティングを利用するために標準化された規格及び実装

複数のCPUが情報をバイト列からなるメッセージとして送受信し協調動作

ReduceとAllreduce


y0 y1 y2 y3

f(y0,y1,y2,y3)

Reduce

Allreduce

f(y0,y1,y2,y3) f(y0,y1,y2,y3) f(y0,y1,y2,y3) f(y0,y1,y2,y3)

31

複数のコンピュータで並列化(データ並列)


1層目

2層目

3層目

４ノードで

並列学習

⑦を終えたら、次の①を開始

5

6

差分 1

7

差分 8

3

差分

ノード1 ノード2 ノード3

4

9

差分

ノード4

⑥ ①

②

③ ④

⑤

⑥ ①

②

③ ④

⑤

⑥ ①

②

③ ④

⑤

⑥ ①

②

③ ④

⑤ MPIの

All-reduce

処理で集約し、

更新用データを計算

Forward

Backward

All-reduce

Update ⑦

⑦

⑦

⑦

⑦

⑦

⑦

⑦

⑦

⑦

⑦

⑦

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf

32

複数ノードで行う学習処理の課題

Allreduce処理が加わる事でＧＰＵが動作しない時間が発生


・集約処理時間を他のGPU処理時間に隠蔽・集約処理時間や更新時間を短縮

基本的なアイディア

ＧＰＵ

ＣＰＵ

Forward Backward

All-reduce

Update

集約処理によるオーバヘッド

時間

「重みパラメタの要素数」が多い場合、大きくなる

「ノード数」の増加に伴い、大きくなる


33

Backward処理時間への隠蔽


ＧＰＵ

ＣＰＵ

隠蔽前

L2 L3 L2 L1 L1 L3

各層のBackward処理が終わるごとに層単位でAll-reduce処理を開始する

方法

ＧＰＵ L2 L3 L2 L1

隠蔽後

L1 L3

ＣＰＵ L3 L1

L2

Backward処理とAll-reduce処理を並列に実行することで高速化

All-reduce処理

各層のBackward処理

各層のForward処理

Update処理


34

Allreduce 細分化による並列化


細分化前

ＧＰＵ

ＣＰＵ

• 集約処理を細分化して実行パラメータをレイヤー単位で一括して送るのではなく、

ある程度のデータ量毎に複数に分ける CPUが受け取ったデータを複数スレッドで処理

方法

All-reduce処理



Update処理

ＧＰＵ

ＣＰＵ

細分化後

All-reduceにかかる時間を短縮することで高速化

<出典>MPIを用いたDeep Learning処理高速化の提案：山崎雅文（富士通研究所）：GTC Japan2016テクニカルセッションプログラム 35

Forward処理時間への隠蔽


ＧＰＵ

L2

層単位でUpdate処理

L2 L1

L1

L1 L3

L3

L2

・Update処理を分割・Forward処理の開始を層ごとに判定

方法

すべての層のAll-reduce処理の完了前に、次のForward処理を開始することで高速化

ＣＰＵ

All-reduce処理



Update処理


36

評価: Distributed Caffe


評価環境・条件

・Tesla K20X GPU を 64 GPU (1ノードあたり1GPU) まで使用

・1ノードあたりミニバッチサイズ64固定

・正解率が45%に至るまでに必要な時間を求めたもの

(当社比

)

複数 GPU 使用時の 1 GPU 使用時に対する学習時間の高速化率

27倍高速化 (スループットでは61倍)

1.8倍高速化


37

ニューラルネットの規模は年々急速に拡大

GPUの高速な演算性能を活用するには、一連の演算に使用するデータを可能な限りGPUの内部メモリに格納する必要あり

③メモリ効率化：GPUメモリ使用量の課題

GPUが搭載しているメモリ量が小さいため、高速に学習できるニューラルネットの規模が制限


CPU

DRAM （数百GB）

GPU

DRAM（約10GB）

HDD

サーバ

アクセラレータホスト PCI-E

32GB/s 720GB/s

GPUメモリ容量は、ホストメモリ容量より

小さい

CPU-GPU間バンド幅はGPU内バンド幅より

小さい

注) バッチサイズ8の場合

0

2

4

6

8

10

12

14

16

18

1998 ～

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

Me

mo

ry S

ize

[G

B]

Year

GPU Memory Size

NN Size(Batch=8)

ResNet

AlexNet VGGNet LeNet

～16GB程度

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf 40

学習時にGPUのメモリ使用量が増加する

学習におけるメモリ使用量


中間データ

5

認識結果

誤差

入力データ

6 正解と比較

Forward Backward

中間データ

重みデータ重みデータの誤差

中間誤差データ ④

①と②、③と④はそれぞれ独立に演算可能

③

重みデータ、中間データに加えて誤差データを確保

重みを更新するための重みデータの誤差と、誤差を前層に伝えるための中間誤差データを計算

・2種類の誤差データ計算の独立性に着目・メモリ領域の再利用によりメモリ使用量を削減

基本的なアイディア

中間誤差データ

1層目

2層目

3層目重みデータ重みデータの誤差 ①

②


⑤

⑥

⑥

⑥

重みデータ '

重みデータ '

重みデータ '


Deep Learningのメモリ効率化技術


ニューラルネットの構造を解析し、より大きなメモリ領域を再利用するように演算順序とメモリ配置をスケジューリング

方法

重みデータ > 中間データの層(Fully-connected層など) では、重みデータ領域を

上書きしてメモリ使用量を削減

中間データ > 重みデータの層(Convolution層など) では、中間データ領域を

上書きしてメモリ使用量を削減

中間データ

5

認識結果

誤差

入力データ

6 正解と比較

Forward Backward

中間データ

重みデータ

④ ③


1層目

2層目

3層目重みデータ

① ②


⑤

⑥

重みデータ '

重みデータ '

重みデータ '

大きさを比較

大きさを比較




実験条件：ネットワーク名：VGG-11 ミニバッチサイズ：128 入力画像：ImageNet 学習反復回数：250,000回

学習時のメモリ使用量

学習の反復回数 vs. 精度

進捗：精度、メモリ消費量、経過時間、学習速度、反復回数

43

評価: メモリ効率化Caffe


40% メモリ使用量削減

同じニューラルネット(VGGNet)を使用し、同条件で比較


精度は変わらず

45


実験条件：ネットワーク名：VGG-16 ミニバッチサイズ： 64(従来版) vs. 128(Mem.削減版) 入力画像：ImageNet 学習反復回数：140,000回

46

評価: メモリ効率化Caffe


4% 学習精度向上

削減したメモリ領域を活用してミニバッチサイズを2倍に拡大



④メモリ効率化：従来のNW圧縮技術

GPUやDLUは行列演算を得意としており、密行列が疎行列になった事による速度向上効果は少ない

ニューラルネットの結合係数の小さいものは0に丸め込み、疎行列化する。(接続の切断に相当)

x1

x2

xn

ニューロン

・・・

w11

w12

w1n

シナプス (重みデータ)

y1

y2 w2n

w21

w22

Y1=f(X1xW11+X2xW12+X3*W13)

Y2=f(X1xW21+X2xW22+X3*W23)

[𝑌1𝑌2

] [𝑤11 𝑤12 𝑤13𝑤21 𝑤22 𝑤23

] [𝑥1𝑥2𝑥3]

x1

x2

xn

ニューロン

・・・

w11

0

w1n


y1

y2 0

0

w22

[𝑌1𝑌2

] [𝑤11 −0.1 0.20.1 𝑤22 0

] [𝑥1𝑥2𝑥3]

[𝑤11 0 0.20 𝑤22 0

]

49


ネットワーク列縮退技術(高速Pruning)

ニューラルネットの結合係数の行列を、列単位で結合の必要度合いを評価し、列単位で圧縮する。(ニューロンの削減に相当)

x1

x2

xn

ニューロン

・・・

w11

w12

w1n


y1

y2 w2n

w21

w22

Y1=f(X1xW11+X2xW12+X3*W13)

Y2=f(X1xW21+X2xW22+X3*W23)

[𝑌1𝑌2

] [𝑤11 𝑤12 𝑤13𝑤21 𝑤22 𝑤23

] [𝑥1𝑥2𝑥3]

x1

x2

xn

ニューロン

・・・

w11

0


y1

y2 0

w22

[𝑌1𝑌2

] [𝑤11 −0.1 0.20.1 𝑤22 0

] [𝑥1𝑥2𝑥3]

𝑤11 −0.10.1 𝑤22

[𝑥1𝑥2]

列単位で評価

w12 w21

ネットワーク列縮退技術により、行列のサイズを小さくする事で、演算数自体を削減でき高速化。更にメモリ削減も実現

50

⑤メモリ効率化：処理に応じた精度技術

人の脳に近い認識を行うには膨大なパラメータが必要


DNN パラメータ数

LeNet 7M

AlexNet 80M

VGG-16 140M

RezNet 58M

人の脳 150,000M

出典： http://www.brain.riken.jp/jp/aware/neurons.html 出典： https://www.semiconportal.com/archive/contribution/applications/160804-neurochip2-2.html?print

パラメータ数人の脳

LeNet 数字認識

AlexNet 画像認識

VGG 画像認識

ResNet 画像認識

パラメータの学習には多くの計算リソースを必要とする

電力効率に優れた低消費電力なDL学習プロセッサが必要

52

処理に応じた精度技術

整数演算を基に、

DLの学習プロセスに特化してビット幅を削減した独自の数値表現

ネットワークの層ごとに小数点位置を自動的に最適化する演算アルゴリズム

を導入することで、演算器のビット幅や学習結果を記録するメモリのビット幅を削減して電力効率を向上させる回路技術を開発


統計情報を用いた小数点位置の最適化演算コアによる演算精度の向上

⑥ディープラーニング向けプロセッサ：DLU

Deep Learning用独自アーキテクチャ

徹底した省電力設計

→目標：他社比約10倍の電力あたり性能

大規模並列：スパコンのインタコネクト技術適用

→大規模ニューラルネットワーク処理が可能


DLUの特徴

スパコン「京」の開発技術を投入

DLU

(Deep Learning Unit)

提供 2018年度～

TM


61

まとめ

富士通のAI取り組み：Human Centric AI 「Zinrai」

AIサービスを加速させるZinraiプラットフォームサービスを提供

Zinraiプラットフォームサービスを支えるZinraiディープラーニング：速く・広く・使いやすく

•適用技術を広げる上流技術2つ

Deep Learningの高効率化技術

並列実行技術 ⇒①データ並列と②モデル並列

メモリ効率化技術 ⇒③メモリ効率化Caffeと④Pruning技術

プロセサ高効率アーキ ⇒⑤処理に応じた精度選択と⑥専用プロセサ(DLU)


Download - Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Top Related

Download - Deep Learning向け高効率化技術について(2013) スパコンメインフレームサーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド