deep learning向け高効率化技術 について(2013) スパコン メインフ レーム...

46
Copyright 2017 FUJITSU LABORATORIES LTD. LSIとシステムのワークショップ2017 2017516Deep Learning向け高効率化技術 について 富士通研究所 コンピュータシステム研究所 池 敦 0

Upload: others

Post on 22-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Copyright 2017 FUJITSU LABORATORIES LTD.

LSIとシステムのワークショップ2017 2017年5月16日

Deep Learning向け高効率化技術

について

富士通研究所

コンピュータシステム研究所

池 敦

0

Page 2: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

アウトライン

はじめに

背景

富士通のAIへの取り組みについて

•富士通Zinraiディープラーニング

Deep Learning向け高効率化技術

Deep Learningとは

Deep Learning向け高効率化技術とは

富士通のDeep Learning向け高効率化技術

Copyright 2017 FUJITSU LABORATORIES LTD. 1

Page 3: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

背景

富士通のAIへの取り組みについて

• 富士通Zinraiディープラーニング

はじめに

Copyright 2017 FUJITSU LABORATORIES LTD. 2

Page 4: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

コンピュータの進化

昨年はENIACが登場して70年の節目

この70年間、コンピュータは、ムーアの法則「半導体の集積率は1.5年で2倍に」を維持したまま長足に進化

3 Copyright 2017 FUJITSU LABORATORIES LTD.

1.E+00

1.E+03

1.E+06

1.E+09

1.E+12

1930 1950 1970 1990 2010

ENIAC

Com

puta

tions

per

second

per

com

pute

r

ENIAC, 1946 U.S. federal government

2x / 1.5 years

Page 5: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

(ご参考)富士通コンピュータの進化

富士通は・・・ コンピュータの歴史と共に発展してきました

4 Copyright 2017 FUJITSU LABORATORIES LTD.

1950 1960 1970 1980 1990 2000 2010

FACOM100 (1954)

FACOM230-10 (1965)

M-190 (1976)

M-780 (1985)

M-1800 (1990)

VPP-500 (1992)

FM V (1993)

OAYSYS100 (1980)

PRIMEHPC FX10 (2011)

VP-100 (1982)

FM TOWNS (1989)

PRIMEQUEST (2005)

GS21 (2002)

DS90 (1991)

Arrows (2011)

SPARC M10 (2013)

スパコン

メインフレーム

サーバ

PC・スマホ (ユビキタス)

Page 6: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

ムーアの法則とマイクロプロセサのトレンド

しかしついにムーアの法則(フリーライド)の終焉が目前に

6 Copyright 2017 FUJITSU LABORATORIES LTD.

100

101

102

103

104

105

106

107

109

1970 1980 1990 2000 2010 2020 2030

108

Year

# of Cores

Source: Estimated based on Stanford, K. Rupp

マイクロプロセサのトレンドr

ムーアの法則に従い 順調に進化

電力消費が 制限に

ムーアの法則 の終焉

2005

2025

(CAGR)

Page 7: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

IoTのインパクト

一方、新たな変化がIoTから・・

2020年には500億台のデバイスが接続される (総務省)

一方、現1.5兆個のデバイスの99.4%はインターネットに未接続 (Cisco社)

⇒ 今後あらゆるものがIoTで結ばれると、大量のデータが常時生成される 真にビッグデータの時代が一気に到来すると予想

Copyright 2017 FUJITSU LABORATORIES LTD.

<出典> IHS Technology /総務省平成27年情報通信白書

8

Page 8: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

データ爆発

IoTなどが生成するデータ量が爆発的に増大 (=データ爆発)

中でも非構造化データの増加が顕著に

データをそのまま貯めるのではなく、その場で情報に換え、さらに知識・知能へと昇華させていく、新しいコンピューティングが必要

Copyright 2017 FUJITSU LABORATORIES LTD.

知識

情報

コンピューティングの変化: データ処理から知能処理へ

<出典>http://www.fujitsu.com/us/Images/NATF2017_Presentation_03092017_Horie.pdf

1 ZB=1021

1 YB=1024

1990 2010 2020 2000 Year

データ量

40 ZB 1 ZB 1 YB

現在

非構造化データ SoEデータ (IoT、センサー)

構造化データ SoRデータ (業務データ、RDB)

データの量は爆発的に増大する: 2020年までに 40ゼッタバイト 2030年までに 1 ヨッタバイト データ爆発

9

Page 9: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

従来ICTシステムの限界

ムーア則の終焉を迎えると汎用CPUの進化は停止へ

従来ICTの延長ではデータ爆発のニーズに対応できない

10 Copyright 2017 FUJITSU LABORATORIES LTD.

1990 2010 2020 2000 Year

データ量

103

102

1

101

104

汎用

CP

Uの電力効率性能

[相対値

]

<出典> Stanford, K. Ruppを元に推測

10nm

20nm 40nm

180nm

250nm 350nm

2025年

2002年

90nm

ムーアの法則 「半導体の集積度は18か月ごとに倍になる」

ムーア則がCPU規模 と性能向上を駆動

電力制約により 性能向上が減速

終焉へ

現在

ニーズとの ギャップ

Page 10: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

新しいコンピューティングアーキテクチャ

従来の性能指標の延長ではなく、処理の特性に特化し進化させたアーキテクチャ(ドメイン指向)が必要に

11 Copyright 2017 FUJITSU LABORATORIES LTD.

従来の 処理性能指標

汎用 コンピューティング

脳型 コンピューティング

スーパーコンピュータ

Approximate Computing

アクセラレータ ムーア則 の限界

量子 コンピューティング

ニューラル コンピューティング (学習処理)

ニューラル コンピューティング (推論処理)

処理の特性に特化

Page 11: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

ドメイン指向コンピューティング

扱う問題ドメインを絞り込んだドメイン指向コンピューティングにより 性能を提供するのが富士通の考えるコンピューティングの方向性

知能処理もその一つであり、その中でDeep Learningに注目

Copyright 2017 FUJITSU LABORATORIES LTD.

ドメイン指向

ドメイン指向 コンピューティング

目的に応じた専用ハードウェア

知能処理

大量データ解析 画像検索

制御・圧縮 暗号化・攻撃検知

大量画像から目的の画像を瞬時に検索する技術

部分画像検索をFPGAを用いCPUの50倍の速度

12

Page 12: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

富士通のAIへの取り組みについて

富士通の提唱するAI基盤

Copyright 2017 FUJITSU LABORATORIES LTD.

ロボティクス

ものづくり

感情・感性理解

機械学習

Deep Learning

データ統合

脳科学

先端医療

自動分析・自動意思決定

予測最適化

Fintech

ネットワーク自動制御

自然言語理解

感性メディア処理

社会受容性

サイバー攻撃対策

知識ベース 自動車

クラウド運用管理

知識ネットワーク

リアルタイム分析

ソーシャル数理 人の感情・特性モデル化

AI基盤を加速する エンジン開発

Zinraiプラットフォーム

<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf

13

Page 13: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Zinraiプラットフォームサービスを支えるテクノロジー

スパコンからスマホまで保有する富士通ならではの技術を結集し 大規模処理からエッジまで“誰でも使えるAI”を提供

Copyright 2017 FUJITSU LABORATORIES LTD.

Zinraiプラットフォームサービス

Zinraiディープラーニング

AI技術

広く 速く 使いやすく

AIソリューション

SE・SIコンサル

HPC

プロセッサ

冷却

クラウド

オンプレ

エッジ・スマホ

<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf

14

Page 14: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Zinraiディープラーニング

Copyright 2017 FUJITSU LABORATORIES LTD.

速く 世界最速クラスの学習処理能力を提供

GPU

GPU

GPU

GPU

Node 0

GPU GPU

GPU GPU

GPU GPU

GPU GPU

DLフレーム ワーク

最速・最新のGPU NVIDIA Tesla P100 採用

高速なノード単体性能 8GPU/Node

高速フレームワーク Distributed Caffe

高速なノード並列性能 富士通の並列化・チューニング技術

<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf

15

Page 15: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Zinraiディープラーニング

クラウドサービス、オンプレミス、エッジデバイスまで広くサポート

クラウドと同様な操作性と拡張性を持つオンプレミス商品の提供

エッジAIに対して学習済モデル配信と再学習機能を提供

Copyright 2017 FUJITSU LABORATORIES LTD.

広く柔軟な提供形態 広く

HPC

エッジAI Zinraiディープラーニング

(クラウドサービス)

先端

AI技術

並列化

技術

OSS

フレームワーク

支援

ツール

GPU

HPC

オンプレ

学習モデル 配信

データ収集

<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf

16

Page 16: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Zinraiディープラーニング

Copyright 2017 FUJITSU LABORATORIES LTD.

使いやすい3つの理由 使いやすく

2 .学習状況が一目でわかるダッシュボード 1. すぐに使える学習環境の提供

ハード

OS

DLフレーム ワーク

Zinrai ディープラーニング

検証済・構築済

ハード・ソフト 垂直統合

3. AI適用範囲を広げる技術

1. 実データ・シミュレーションによる入力データ作成技術

2. 時系列データの学習技術

3. ニューラルネットワークのパラメータ自動最適化技術

4. グラフデータの学習技術(Deep Tensor) <出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf

17

Page 17: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

AI適用範囲を広げる技術①:Deep Tensor

Copyright 2017 FUJITSU LABORATORIES LTD. 18

Page 18: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

AI適用範囲を広げる技術②:時系列データ分類

Copyright 2017 FUJITSU LABORATORIES LTD.

技術

効果

・Deep Learning 適用対象データ種の拡張 ・IoT 時系列データの分類の高精度化 富士通独自のトポロジカルデータ解析とDeepLearningを組合せ

ジャイロセンサからの行動推定や脳波データからの状態推定で、既存手法に比べ約20~25%精度向上(約85%達成)

目的

ユビキタスウェア

・ジャイロセンサー ・加速度センサー

など

・脳波 ・心拍データ

など

生体データ

音/振動データ

金融データ

・株価 ・経済指標 など

行動分類/認識

疾病診断/予測

介護補助

故障診断/予測

経済解析/予測

時系列データ 提供アプリケーション 富士通 Deep Learning フレームワーク

時系列データ Deep Learning

時系列データ

変換

トポロジカルデータ解析

畳み込みニューラルネットワーク

Deep Learning 分析

時系列データを分類

Class A

Class B

Class C

21

Page 19: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Copyright 2017 FUJITSU LABORATORIES LTD.

ジンライ

語源 : 疾風迅雷(すばやくはげしいこと)

名前に込めた想い : 人の判断・行動を“スピーディ”にサポートすることで、

企業・社会の変革を“ダイナミック”に実現させる

富士通のAIのコンセプト

22

Page 20: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Deep Learningとは

Deep Learning向け高効率化技術とは

富士通のDeep Learning向け高効率化技術

Deep Learning向け高効率化技術

Copyright 2017 FUJITSU LABORATORIES LTD. 23

Page 21: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

ニューラルネットワーク

Copyright 2017 FUJITSU LABORATORIES LTD.

脳には多数のニューロン(神経細胞)が存在し、各ニューロンは他の多数の ニューロンからの信号を受け取り、また多数のニューロンへと信号を送信

ニューラルネットワーク(NN)は脳の仕組みをコンピュータで 模倣したもので、上図のように複数の入力に重みを掛け、 それらを足し合わせて閾値と比べ、ある出力関数を掛けて出力

それを多層に並べることでネットワークを構築し、複雑な表現が可能 この多層(深層)NNを用いた機械学習をディープラーニング(深層学習)と呼ぶ

xn

xi

x1

ym

yj

y1

入力層 出力層隠れ層(中間層)

w11

w12

w13

w14

w15

w16

w21

w22

w23

w24

w25

w26

x1

x2

x3

q

入力層

y1

w1

出力層

w2

w3

𝑦1 = 𝑓( 𝑤𝑖𝑥𝑖 − 𝜃

𝑖

)

24

Page 22: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

ニューラルネットワークの学習

Copyright 2017 FUJITSU LABORATORIES LTD.

xn

xi

x1

ym

yj

y1w11

w12

w13

w14

w15

w16

w21

w22

w23

w24

w25

w26

t1

tj

tm

認識

学習入力

出力

NNは作成した段階では、重みwはランダムな値を持つ(自分で設定した場合は除く) ため、入力にデータを与えても出力から適切な値が出るとは限らない

そこで何らかの方法を用いて重みwを調整し、希望する出力が 得られるようにしてやる必要があり、これを行うのが学習:誤差逆伝播法

forward

backward

25

Page 23: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

ニューラルネットワークの学習サイクル

このサイクルを 何回も繰り返し、 適切な重みを 自動で取得

Copyright 2017 FUJITSU LABORATORIES LTD.

重みパラメタ

data

ニューロン層1 勾配情報

重みパラメタ 勾配情報

data

重みパラメタ 勾配情報

label (正解)

ニューロン層2

ニューロン層3

認識結果

入力層

勾配情報

(∇E) 重みパラメタ

(w)

data data

data

認識結果 差分

差分

差分 差分

勾配情報

勾配情報

差分

勾配情報

(∇E)

Forward

差分

Backward

Update

学習処理サイクル

data / label ストレージ

<出典>MPIを用いたDeep Learning処理高速化の提案:山崎 雅文(富士通研究所):GTC Japan2016テクニカルセッション プログラム

26

Page 24: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Deep Learning向け高効率化技術

高効率化とは「システム資源をsれぞれ効率的に使うこと」

27 Copyright 2017 FUJITSU LABORATORIES LTD.

プロセサ

ネットワーク

メモリ

プロセサ効率化

専用プロセサ(DLU)

並列実行

ドメイン特化し無駄を排除

並べて一気に高速化

メモリ効率化

無駄なメモリ利用を削ぎ落す

データ並列

モデル並列

処理に応じた精度

メモリ効率化Caffe

高速Pruning

以降では、下記6つの技術をご紹介

Page 25: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

①②並列実行

29 Copyright 2017 FUJITSU LABORATORIES LTD.

ディープラーニング技術が様々なアプリケーションへ拡大

ディープニューラルネットワーク (DNN) 開発の現状

DNNの検証・評価フェーズには非常に 長い時間がかかっている

複数ノードのGPUでは、一部の

DNNしか処理性能がスケールしない

仮説・提案

検証・評価

実装 分析

1個のGPUで 数週間必要

課題

現状

多数のGPUを利用して高速化したい

画像認識 音声認識 自然言語処理 医療 金融 ロボット 自動車

Page 26: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

補足:用語説明

Caffe

Berkeley Vision and Learning Center(BVLC)が中心となって 開発を進めているOSSのDLフレームワーク

Convolution Neural Network(CNN)を利用した画像認識を得意とする

ノード内GPU並列化は可能だが、ノード間GPU並列化は(現在の所)未対応

MPI(Message Passing Interface)

並列コンピューティングを利用するために標準化された規格及び実装

複数のCPUが情報をバイト列からなるメッセージとして送受信し協調動作

ReduceとAllreduce

Copyright 2017 FUJITSU LABORATORIES LTD.

y0 y1 y2 y3

f(y0,y1,y2,y3)

Reduce

Allreduce

f(y0,y1,y2,y3) f(y0,y1,y2,y3) f(y0,y1,y2,y3) f(y0,y1,y2,y3)

31

Page 27: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

複数のコンピュータで並列化(データ並列)

Copyright 2017 FUJITSU LABORATORIES LTD.

1層目

2層目

3層目

4ノードで

並列学習

⑦を終えたら、次の①を開始

5

6

差分 1

7

差分 8

3

差分

ノード1 ノード2 ノード3

4

9

差分

ノード4

⑥ ①

③ ④

⑥ ①

③ ④

⑥ ①

③ ④

⑥ ①

③ ④

⑤ MPIの

All-reduce

処理で集約し、

更新用データ を計算

Forward

Backward

All-reduce

Update ⑦

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf

32

Page 28: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

複数ノードで行う学習処理の課題

Allreduce処理が加わる事でGPUが動作しない時間が発生

Copyright 2017 FUJITSU LABORATORIES LTD.

・集約処理時間を他のGPU処理時間に隠蔽 ・集約処理時間や更新時間を短縮

基本的な アイディア

GPU

CPU

Forward Backward

All-reduce

Update

集約処理による オーバヘッド

時間

「重みパラメタの要素数」が多い場合、大きくなる

「ノード数」の増加に伴い、大きくなる

<出典>MPIを用いたDeep Learning処理高速化の提案:山崎 雅文(富士通研究所):GTC Japan2016テクニカルセッション プログラム

33

Page 29: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Backward処理時間への隠蔽

Copyright 2017 FUJITSU LABORATORIES LTD.

GPU

CPU

隠蔽前

L2 L3 L2 L1 L1 L3

各層のBackward処理が終わるごとに 層単位でAll-reduce処理を開始する

方法

GPU L2 L3 L2 L1

隠蔽後

L1 L3

CPU L3 L1

L2

Backward処理とAll-reduce処理を 並列に実行することで高速化

All-reduce処理

各層のBackward処理

各層のForward処理

Update処理

<出典>MPIを用いたDeep Learning処理高速化の提案:山崎 雅文(富士通研究所):GTC Japan2016テクニカルセッション プログラム

34

Page 30: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Allreduce 細分化による並列化

Copyright 2017 FUJITSU LABORATORIES LTD.

細分化前

GPU

CPU

• 集約処理を細分化して実行 パラメータをレイヤー単位で一括して送るのではなく、

ある程度のデータ量毎に複数に分ける CPUが受け取ったデータを複数スレッドで処理

方法

All-reduce処理

各層のBackward処理

各層のForward処理

Update処理

GPU

CPU

細分化後

All-reduceにかかる時間を短縮することで高速化

<出典>MPIを用いたDeep Learning処理高速化の提案:山崎 雅文(富士通研究所):GTC Japan2016テクニカルセッション プログラム 35

Page 31: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Forward処理時間への隠蔽

Copyright 2017 FUJITSU LABORATORIES LTD.

GPU

L2

層単位でUpdate処理

L2 L1

L1

L1 L3

L3

L2

・Update処理を分割 ・Forward処理の開始を層ごとに判定

方法

すべての層のAll-reduce処理の完了前に、 次のForward処理を開始することで高速化

CPU

All-reduce処理

各層のBackward処理

各層のForward処理

Update処理

<出典>MPIを用いたDeep Learning処理高速化の提案:山崎 雅文(富士通研究所):GTC Japan2016テクニカルセッション プログラム

36

Page 32: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

評価: Distributed Caffe

Copyright 2017 FUJITSU LABORATORIES LTD.

評価環境・条件

・Tesla K20X GPU を 64 GPU (1ノードあたり1GPU) まで使用

・1ノードあたりミニバッチサイズ64固定

・正解率が45%に至るまでに必要な時間を求めたもの

(当社比

)

複数 GPU 使用時の 1 GPU 使用時に対する学習時間の高速化率

27倍高速化 (スループット では61倍)

1.8倍高速化

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf

37

Page 33: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

ニューラルネットの規模は年々急速に拡大

GPUの高速な演算性能を活用するには、一連の演算に使用するデータを可能な限りGPUの内部メモリに格納する必要あり

③メモリ効率化:GPUメモリ使用量の課題

GPUが搭載しているメモリ量が小さいため、 高速に学習できるニューラルネットの規模が制限

Copyright 2017 FUJITSU LABORATORIES LTD.

CPU

DRAM (数百GB)

GPU

DRAM(約10GB)

HDD

サーバ

アクセラレータ ホスト PCI-E

32GB/s 720GB/s

GPUメモリ容量は、 ホストメモリ容量より

小さい

CPU-GPU間バンド幅はGPU内バンド幅より

小さい

注) バッチサイズ8の場合

0

2

4

6

8

10

12

14

16

18

1998 ~

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

Me

mo

ry S

ize

[G

B]

Year

GPU Memory Size

NN Size(Batch=8)

ResNet

AlexNet VGGNet LeNet

~16GB程度

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf 40

Page 34: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

学習時にGPUのメモリ使用量が増加する

学習におけるメモリ使用量

Copyright 2017 FUJITSU LABORATORIES LTD.

中間データ

5

認識結果

誤差

入力 データ

6 正解と 比較

Forward Backward

中間データ

重みデータ 重みデータの誤差

中間誤差データ ④

①と②、③と④はそれぞれ独立に演算可能

重みデータ、中間データに加えて誤差データを確保

重みを更新するための重みデータの誤差と、誤差を前層に伝える ための中間誤差データを計算

・2種類の誤差データ計算の独立性に着目 ・メモリ領域の再利用によりメモリ使用量を削減

基本的な アイディア

中間誤差データ

1層目

2層目

3層目 重みデータ 重みデータの誤差 ①

重みデータ 重みデータの誤差

重みデータ '

重みデータ '

重みデータ '

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf 41

Page 35: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Deep Learningのメモリ効率化技術

Copyright 2017 FUJITSU LABORATORIES LTD.

ニューラルネットの構造を解析し、より大きなメモリ領域を再利用 するように演算順序とメモリ配置をスケジューリング

方法

重みデータ > 中間データ の層(Fully-connected層など) では、重みデータ領域を

上書きしてメモリ使用量を削減

中間データ > 重みデータ の層(Convolution層など) では、中間データ領域を

上書きしてメモリ使用量を削減

中間データ

5

認識結果

誤差

入力 データ

6 正解と 比較

Forward Backward

中間データ

重みデータ

④ ③

中間誤差データ

1層目

2層目

3層目 重みデータ

① ②

重みデータ 重みデータの誤差

重みデータ '

重みデータ '

重みデータ '

大きさを比較

大きさを比較

中間誤差データ

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf 42

Page 36: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Copyright 2017 FUJITSU LABORATORIES LTD.

実験条件:ネットワーク名:VGG-11 ミニバッチサイズ:128 入力画像:ImageNet 学習反復回数:250,000回

学習時の メモリ使用量

学習の反復回数 vs. 精度

進捗:精度、メモリ消費量、 経過時間、学習速度、反復回数

43

Page 37: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

評価: メモリ効率化Caffe

Copyright 2017 FUJITSU LABORATORIES LTD.

40% メモリ使用量削減

同じニューラルネット(VGGNet)を使用し、同条件で比較

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf

精度は変わらず

45

Page 38: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Copyright 2017 FUJITSU LABORATORIES LTD.

実験条件: ネットワーク名:VGG-16 ミニバッチサイズ: 64(従来版) vs. 128(Mem.削減版) 入力画像:ImageNet 学習反復回数:140,000回

46

Page 39: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

評価: メモリ効率化Caffe

Copyright 2017 FUJITSU LABORATORIES LTD.

4% 学習精度向上

削減したメモリ領域を活用してミニバッチサイズを2倍に拡大

<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf 48

Page 40: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Copyright 2017 FUJITSU LABORATORIES LTD.

④メモリ効率化:従来のNW圧縮技術

GPUやDLUは行列演算を得意としており、密行列が疎行列になった事 による速度向上効果は少ない

ニューラルネットの結合係数の小さいものは0に丸め込み、 疎行列化する。(接続の切断に相当)

x1

x2

xn

ニューロン

・・・

w11

w12

w1n

シナプス (重みデータ)

y1

y2 w2n

w21

w22

Y1=f(X1xW11+X2xW12+X3*W13)

Y2=f(X1xW21+X2xW22+X3*W23)

[𝑌1𝑌2

] [𝑤11 𝑤12 𝑤13𝑤21 𝑤22 𝑤23

] [𝑥1𝑥2𝑥3]

x1

x2

xn

ニューロン

・・・

w11

0

w1n

シナプス (重みデータ)

y1

y2 0

0

w22

[𝑌1𝑌2

] [𝑤11 −0.1 0.20.1 𝑤22 0

] [𝑥1𝑥2𝑥3]

[𝑤11 0 0.20 𝑤22 0

]

49

Page 41: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

Copyright 2017 FUJITSU LABORATORIES LTD.

ネットワーク列縮退技術(高速Pruning)

ニューラルネットの結合係数の行列を、列単位で結合の必要度合いを評価し、列単位で圧縮する。(ニューロンの削減に相当)

x1

x2

xn

ニューロン

・・・

w11

w12

w1n

シナプス (重みデータ)

y1

y2 w2n

w21

w22

Y1=f(X1xW11+X2xW12+X3*W13)

Y2=f(X1xW21+X2xW22+X3*W23)

[𝑌1𝑌2

] [𝑤11 𝑤12 𝑤13𝑤21 𝑤22 𝑤23

] [𝑥1𝑥2𝑥3]

x1

x2

xn

ニューロン

・・・

w11

0

シナプス (重みデータ)

y1

y2 0

w22

[𝑌1𝑌2

] [𝑤11 −0.1 0.20.1 𝑤22 0

] [𝑥1𝑥2𝑥3]

𝑤11 −0.10.1 𝑤22

[𝑥1𝑥2]

列単位で評価

w12 w21

ネットワーク列縮退技術により、行列のサイズを小さくする事で、 演算数自体を削減でき高速化。更にメモリ削減も実現

50

Page 42: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

⑤メモリ効率化:処理に応じた精度技術

人の脳に近い認識を行うには膨大なパラメータが必要

Copyright 2017 FUJITSU LABORATORIES LTD.

DNN パラメータ数

LeNet 7M

AlexNet 80M

VGG-16 140M

RezNet 58M

人の脳 150,000M

出典: http://www.brain.riken.jp/jp/aware/neurons.html 出典: https://www.semiconportal.com/archive/contribution/applications/160804-neurochip2-2.html?print

パラメータ数 人の脳

LeNet 数字認識

AlexNet 画像認識

VGG 画像認識

ResNet 画像認識

パラメータの学習には多くの計算リソースを必要とする

電力効率に優れた低消費電力なDL学習プロセッサが必要

52

Page 43: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

処理に応じた精度技術

整数演算を基に、

DLの学習プロセスに特化してビット幅を削減した独自の数値表現

ネットワークの層ごとに小数点位置を自動的に最適化する演算アルゴリズム

を導入することで、演算器のビット幅や学習結果を記録するメモリのビット幅を削減して電力効率を向上させる回路技術を開発

59 Copyright 2017 FUJITSU LABORATORIES LTD.

統計情報を用いた小数点位置の最適化 演算コアによる演算精度の向上

Page 44: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

⑥ディープラーニング向けプロセッサ:DLU

Deep Learning用独自アーキテクチャ

徹底した省電力設計

→目標:他社比約10倍の電力あたり性能

大規模並列:スパコンのインタコネクト技術適用

→大規模ニューラルネットワーク処理が可能

Copyright 2017 FUJITSU LABORATORIES LTD.

DLUの特徴

スパコン「京」の開発技術を投入

DLU

(Deep Learning Unit)

提供 2018年度~

TM

<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf

61

Page 45: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

まとめ

富士通のAI取り組み:Human Centric AI 「Zinrai」

AIサービスを加速させるZinraiプラットフォームサービスを提供

Zinraiプラットフォームサービスを支えるZinraiディープラーニング:速く・広く・使いやすく

•適用技術を広げる上流技術2つ

Deep Learningの高効率化技術

並列実行技術 ⇒①データ並列と②モデル並列

メモリ効率化技術 ⇒③メモリ効率化Caffeと④Pruning技術

プロセサ高効率アーキ ⇒⑤処理に応じた精度選択と⑥専用プロセサ(DLU)

Copyright 2017 FUJITSU LABORATORIES LTD. 63

Page 46: Deep Learning向け高効率化技術 について(2013) スパコン メインフ レーム サーバ PC・スマホ (ユビキタス) ムーアの法則とマイクロプロセサのトレンド

64 Copyright 2017 FUJITSU LABORATORIES LTD.