Copyright 2017 FUJITSU LABORATORIES LTD.
LSIとシステムのワークショップ2017 2017年5月16日
Deep Learning向け高効率化技術
について
富士通研究所
コンピュータシステム研究所
池 敦
0
アウトライン
はじめに
背景
富士通のAIへの取り組みについて
•富士通Zinraiディープラーニング
Deep Learning向け高効率化技術
Deep Learningとは
Deep Learning向け高効率化技術とは
富士通のDeep Learning向け高効率化技術
Copyright 2017 FUJITSU LABORATORIES LTD. 1
背景
富士通のAIへの取り組みについて
• 富士通Zinraiディープラーニング
はじめに
Copyright 2017 FUJITSU LABORATORIES LTD. 2
コンピュータの進化
昨年はENIACが登場して70年の節目
この70年間、コンピュータは、ムーアの法則「半導体の集積率は1.5年で2倍に」を維持したまま長足に進化
3 Copyright 2017 FUJITSU LABORATORIES LTD.
1.E+00
1.E+03
1.E+06
1.E+09
1.E+12
1930 1950 1970 1990 2010
ENIAC
Com
puta
tions
per
second
per
com
pute
r
ENIAC, 1946 U.S. federal government
2x / 1.5 years
(ご参考)富士通コンピュータの進化
富士通は・・・ コンピュータの歴史と共に発展してきました
4 Copyright 2017 FUJITSU LABORATORIES LTD.
1950 1960 1970 1980 1990 2000 2010
FACOM100 (1954)
FACOM230-10 (1965)
M-190 (1976)
M-780 (1985)
M-1800 (1990)
VPP-500 (1992)
FM V (1993)
OAYSYS100 (1980)
PRIMEHPC FX10 (2011)
VP-100 (1982)
FM TOWNS (1989)
PRIMEQUEST (2005)
GS21 (2002)
DS90 (1991)
Arrows (2011)
SPARC M10 (2013)
スパコン
メインフレーム
サーバ
PC・スマホ (ユビキタス)
ムーアの法則とマイクロプロセサのトレンド
しかしついにムーアの法則(フリーライド)の終焉が目前に
6 Copyright 2017 FUJITSU LABORATORIES LTD.
100
101
102
103
104
105
106
107
109
1970 1980 1990 2000 2010 2020 2030
108
Year
# of Cores
Source: Estimated based on Stanford, K. Rupp
マイクロプロセサのトレンドr
ムーアの法則に従い 順調に進化
電力消費が 制限に
ムーアの法則 の終焉
2005
2025
(CAGR)
IoTのインパクト
一方、新たな変化がIoTから・・
2020年には500億台のデバイスが接続される (総務省)
一方、現1.5兆個のデバイスの99.4%はインターネットに未接続 (Cisco社)
⇒ 今後あらゆるものがIoTで結ばれると、大量のデータが常時生成される 真にビッグデータの時代が一気に到来すると予想
Copyright 2017 FUJITSU LABORATORIES LTD.
<出典> IHS Technology /総務省平成27年情報通信白書
8
データ爆発
IoTなどが生成するデータ量が爆発的に増大 (=データ爆発)
中でも非構造化データの増加が顕著に
データをそのまま貯めるのではなく、その場で情報に換え、さらに知識・知能へと昇華させていく、新しいコンピューティングが必要
Copyright 2017 FUJITSU LABORATORIES LTD.
知識
情報
コンピューティングの変化: データ処理から知能処理へ
<出典>http://www.fujitsu.com/us/Images/NATF2017_Presentation_03092017_Horie.pdf
1 ZB=1021
1 YB=1024
1990 2010 2020 2000 Year
データ量
40 ZB 1 ZB 1 YB
現在
非構造化データ SoEデータ (IoT、センサー)
構造化データ SoRデータ (業務データ、RDB)
データの量は爆発的に増大する: 2020年までに 40ゼッタバイト 2030年までに 1 ヨッタバイト データ爆発
9
従来ICTシステムの限界
ムーア則の終焉を迎えると汎用CPUの進化は停止へ
従来ICTの延長ではデータ爆発のニーズに対応できない
10 Copyright 2017 FUJITSU LABORATORIES LTD.
1990 2010 2020 2000 Year
データ量
103
102
1
101
104
汎用
CP
Uの電力効率性能
[相対値
]
<出典> Stanford, K. Ruppを元に推測
10nm
20nm 40nm
180nm
250nm 350nm
2025年
2002年
90nm
ムーアの法則 「半導体の集積度は18か月ごとに倍になる」
ムーア則がCPU規模 と性能向上を駆動
電力制約により 性能向上が減速
終焉へ
現在
ニーズとの ギャップ
新しいコンピューティングアーキテクチャ
従来の性能指標の延長ではなく、処理の特性に特化し進化させたアーキテクチャ(ドメイン指向)が必要に
11 Copyright 2017 FUJITSU LABORATORIES LTD.
従来の 処理性能指標
汎用 コンピューティング
脳型 コンピューティング
スーパーコンピュータ
Approximate Computing
アクセラレータ ムーア則 の限界
量子 コンピューティング
ニューラル コンピューティング (学習処理)
ニューラル コンピューティング (推論処理)
処理の特性に特化
ドメイン指向コンピューティング
扱う問題ドメインを絞り込んだドメイン指向コンピューティングにより 性能を提供するのが富士通の考えるコンピューティングの方向性
知能処理もその一つであり、その中でDeep Learningに注目
Copyright 2017 FUJITSU LABORATORIES LTD.
ドメイン指向
ドメイン指向 コンピューティング
目的に応じた専用ハードウェア
知能処理
大量データ解析 画像検索
制御・圧縮 暗号化・攻撃検知
大量画像から目的の画像を瞬時に検索する技術
部分画像検索をFPGAを用いCPUの50倍の速度
12
富士通のAIへの取り組みについて
富士通の提唱するAI基盤
Copyright 2017 FUJITSU LABORATORIES LTD.
ロボティクス
ものづくり
感情・感性理解
機械学習
Deep Learning
データ統合
脳科学
先端医療
自動分析・自動意思決定
予測最適化
Fintech
ネットワーク自動制御
自然言語理解
感性メディア処理
社会受容性
サイバー攻撃対策
知識ベース 自動車
クラウド運用管理
知識ネットワーク
リアルタイム分析
ソーシャル数理 人の感情・特性モデル化
AI基盤を加速する エンジン開発
Zinraiプラットフォーム
<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf
13
Zinraiプラットフォームサービスを支えるテクノロジー
スパコンからスマホまで保有する富士通ならではの技術を結集し 大規模処理からエッジまで“誰でも使えるAI”を提供
Copyright 2017 FUJITSU LABORATORIES LTD.
Zinraiプラットフォームサービス
Zinraiディープラーニング
AI技術
広く 速く 使いやすく
AIソリューション
SE・SIコンサル
HPC
プロセッサ
冷却
クラウド
オンプレ
エッジ・スマホ
<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf
14
Zinraiディープラーニング
Copyright 2017 FUJITSU LABORATORIES LTD.
速く 世界最速クラスの学習処理能力を提供
GPU
GPU
GPU
GPU
Node 0
GPU GPU
GPU GPU
GPU GPU
GPU GPU
DLフレーム ワーク
最速・最新のGPU NVIDIA Tesla P100 採用
高速なノード単体性能 8GPU/Node
高速フレームワーク Distributed Caffe
高速なノード並列性能 富士通の並列化・チューニング技術
<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf
15
Zinraiディープラーニング
クラウドサービス、オンプレミス、エッジデバイスまで広くサポート
クラウドと同様な操作性と拡張性を持つオンプレミス商品の提供
エッジAIに対して学習済モデル配信と再学習機能を提供
Copyright 2017 FUJITSU LABORATORIES LTD.
広く柔軟な提供形態 広く
HPC
エッジAI Zinraiディープラーニング
(クラウドサービス)
先端
AI技術
並列化
技術
OSS
フレームワーク
支援
ツール
GPU
HPC
オンプレ
学習モデル 配信
データ収集
<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf
16
Zinraiディープラーニング
Copyright 2017 FUJITSU LABORATORIES LTD.
使いやすい3つの理由 使いやすく
2 .学習状況が一目でわかるダッシュボード 1. すぐに使える学習環境の提供
ハード
OS
DLフレーム ワーク
Zinrai ディープラーニング
検証済・構築済
ハード・ソフト 垂直統合
3. AI適用範囲を広げる技術
1. 実データ・シミュレーションによる入力データ作成技術
2. 時系列データの学習技術
3. ニューラルネットワークのパラメータ自動最適化技術
4. グラフデータの学習技術(Deep Tensor) <出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf
17
AI適用範囲を広げる技術①:Deep Tensor
Copyright 2017 FUJITSU LABORATORIES LTD. 18
AI適用範囲を広げる技術②:時系列データ分類
Copyright 2017 FUJITSU LABORATORIES LTD.
技術
効果
・Deep Learning 適用対象データ種の拡張 ・IoT 時系列データの分類の高精度化 富士通独自のトポロジカルデータ解析とDeepLearningを組合せ
ジャイロセンサからの行動推定や脳波データからの状態推定で、既存手法に比べ約20~25%精度向上(約85%達成)
目的
ユビキタスウェア
・ジャイロセンサー ・加速度センサー
など
・脳波 ・心拍データ
など
生体データ
音/振動データ
金融データ
・株価 ・経済指標 など
行動分類/認識
疾病診断/予測
介護補助
故障診断/予測
経済解析/予測
時系列データ 提供アプリケーション 富士通 Deep Learning フレームワーク
時系列データ Deep Learning
時系列データ
変換
トポロジカルデータ解析
畳み込みニューラルネットワーク
Deep Learning 分析
時系列データを分類
Class A
Class B
Class C
21
Copyright 2017 FUJITSU LABORATORIES LTD.
ジンライ
語源 : 疾風迅雷(すばやくはげしいこと)
名前に込めた想い : 人の判断・行動を“スピーディ”にサポートすることで、
企業・社会の変革を“ダイナミック”に実現させる
富士通のAIのコンセプト
22
Deep Learningとは
Deep Learning向け高効率化技術とは
富士通のDeep Learning向け高効率化技術
Deep Learning向け高効率化技術
Copyright 2017 FUJITSU LABORATORIES LTD. 23
ニューラルネットワーク
Copyright 2017 FUJITSU LABORATORIES LTD.
脳には多数のニューロン(神経細胞)が存在し、各ニューロンは他の多数の ニューロンからの信号を受け取り、また多数のニューロンへと信号を送信
ニューラルネットワーク(NN)は脳の仕組みをコンピュータで 模倣したもので、上図のように複数の入力に重みを掛け、 それらを足し合わせて閾値と比べ、ある出力関数を掛けて出力
それを多層に並べることでネットワークを構築し、複雑な表現が可能 この多層(深層)NNを用いた機械学習をディープラーニング(深層学習)と呼ぶ
xn
xi
x1
ym
yj
y1
入力層 出力層隠れ層(中間層)
w11
w12
w13
w14
w15
w16
w21
w22
w23
w24
w25
w26
x1
x2
x3
q
入力層
y1
w1
出力層
w2
w3
𝑦1 = 𝑓( 𝑤𝑖𝑥𝑖 − 𝜃
𝑖
)
24
ニューラルネットワークの学習
Copyright 2017 FUJITSU LABORATORIES LTD.
xn
xi
x1
ym
yj
y1w11
w12
w13
w14
w15
w16
w21
w22
w23
w24
w25
w26
t1
tj
tm
認識
学習入力
出力
NNは作成した段階では、重みwはランダムな値を持つ(自分で設定した場合は除く) ため、入力にデータを与えても出力から適切な値が出るとは限らない
そこで何らかの方法を用いて重みwを調整し、希望する出力が 得られるようにしてやる必要があり、これを行うのが学習:誤差逆伝播法
forward
backward
25
ニューラルネットワークの学習サイクル
このサイクルを 何回も繰り返し、 適切な重みを 自動で取得
Copyright 2017 FUJITSU LABORATORIES LTD.
重みパラメタ
data
ニューロン層1 勾配情報
重みパラメタ 勾配情報
data
重みパラメタ 勾配情報
label (正解)
ニューロン層2
ニューロン層3
認識結果
入力層
勾配情報
(∇E) 重みパラメタ
(w)
data data
data
認識結果 差分
差分
差分 差分
勾配情報
勾配情報
差分
勾配情報
(∇E)
Forward
差分
Backward
Update
学習処理サイクル
data / label ストレージ
<出典>MPIを用いたDeep Learning処理高速化の提案:山崎 雅文(富士通研究所):GTC Japan2016テクニカルセッション プログラム
26
Deep Learning向け高効率化技術
高効率化とは「システム資源をsれぞれ効率的に使うこと」
27 Copyright 2017 FUJITSU LABORATORIES LTD.
プロセサ
ネットワーク
メモリ
プロセサ効率化
専用プロセサ(DLU)
並列実行
ドメイン特化し無駄を排除
並べて一気に高速化
メモリ効率化
無駄なメモリ利用を削ぎ落す
データ並列
モデル並列
処理に応じた精度
メモリ効率化Caffe
高速Pruning
①
②
⑤
⑥
③
④
以降では、下記6つの技術をご紹介
①②並列実行
29 Copyright 2017 FUJITSU LABORATORIES LTD.
ディープラーニング技術が様々なアプリケーションへ拡大
ディープニューラルネットワーク (DNN) 開発の現状
DNNの検証・評価フェーズには非常に 長い時間がかかっている
複数ノードのGPUでは、一部の
DNNしか処理性能がスケールしない
仮説・提案
検証・評価
実装 分析
1個のGPUで 数週間必要
課題
現状
多数のGPUを利用して高速化したい
画像認識 音声認識 自然言語処理 医療 金融 ロボット 自動車
補足:用語説明
Caffe
Berkeley Vision and Learning Center(BVLC)が中心となって 開発を進めているOSSのDLフレームワーク
Convolution Neural Network(CNN)を利用した画像認識を得意とする
ノード内GPU並列化は可能だが、ノード間GPU並列化は(現在の所)未対応
MPI(Message Passing Interface)
並列コンピューティングを利用するために標準化された規格及び実装
複数のCPUが情報をバイト列からなるメッセージとして送受信し協調動作
ReduceとAllreduce
Copyright 2017 FUJITSU LABORATORIES LTD.
y0 y1 y2 y3
f(y0,y1,y2,y3)
Reduce
Allreduce
f(y0,y1,y2,y3) f(y0,y1,y2,y3) f(y0,y1,y2,y3) f(y0,y1,y2,y3)
31
複数のコンピュータで並列化(データ並列)
Copyright 2017 FUJITSU LABORATORIES LTD.
1層目
2層目
3層目
4ノードで
並列学習
⑦を終えたら、次の①を開始
5
6
差分 1
7
差分 8
3
差分
ノード1 ノード2 ノード3
4
9
差分
ノード4
⑥ ①
②
③ ④
⑤
⑥ ①
②
③ ④
⑤
⑥ ①
②
③ ④
⑤
⑥ ①
②
③ ④
⑤ MPIの
All-reduce
処理で集約し、
更新用データ を計算
Forward
Backward
All-reduce
Update ⑦
⑦
⑦
⑦
⑦
⑦
⑦
⑦
⑦
⑦
⑦
⑦
<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf
32
複数ノードで行う学習処理の課題
Allreduce処理が加わる事でGPUが動作しない時間が発生
Copyright 2017 FUJITSU LABORATORIES LTD.
・集約処理時間を他のGPU処理時間に隠蔽 ・集約処理時間や更新時間を短縮
基本的な アイディア
GPU
CPU
Forward Backward
All-reduce
Update
集約処理による オーバヘッド
時間
「重みパラメタの要素数」が多い場合、大きくなる
「ノード数」の増加に伴い、大きくなる
<出典>MPIを用いたDeep Learning処理高速化の提案:山崎 雅文(富士通研究所):GTC Japan2016テクニカルセッション プログラム
33
Backward処理時間への隠蔽
Copyright 2017 FUJITSU LABORATORIES LTD.
GPU
CPU
隠蔽前
L2 L3 L2 L1 L1 L3
各層のBackward処理が終わるごとに 層単位でAll-reduce処理を開始する
方法
GPU L2 L3 L2 L1
隠蔽後
L1 L3
CPU L3 L1
L2
Backward処理とAll-reduce処理を 並列に実行することで高速化
All-reduce処理
各層のBackward処理
各層のForward処理
Update処理
<出典>MPIを用いたDeep Learning処理高速化の提案:山崎 雅文(富士通研究所):GTC Japan2016テクニカルセッション プログラム
34
Allreduce 細分化による並列化
Copyright 2017 FUJITSU LABORATORIES LTD.
細分化前
GPU
CPU
• 集約処理を細分化して実行 パラメータをレイヤー単位で一括して送るのではなく、
ある程度のデータ量毎に複数に分ける CPUが受け取ったデータを複数スレッドで処理
方法
All-reduce処理
各層のBackward処理
各層のForward処理
Update処理
GPU
CPU
細分化後
All-reduceにかかる時間を短縮することで高速化
<出典>MPIを用いたDeep Learning処理高速化の提案:山崎 雅文(富士通研究所):GTC Japan2016テクニカルセッション プログラム 35
Forward処理時間への隠蔽
Copyright 2017 FUJITSU LABORATORIES LTD.
GPU
L2
層単位でUpdate処理
L2 L1
L1
L1 L3
L3
L2
・Update処理を分割 ・Forward処理の開始を層ごとに判定
方法
すべての層のAll-reduce処理の完了前に、 次のForward処理を開始することで高速化
CPU
All-reduce処理
各層のBackward処理
各層のForward処理
Update処理
<出典>MPIを用いたDeep Learning処理高速化の提案:山崎 雅文(富士通研究所):GTC Japan2016テクニカルセッション プログラム
36
評価: Distributed Caffe
Copyright 2017 FUJITSU LABORATORIES LTD.
評価環境・条件
・Tesla K20X GPU を 64 GPU (1ノードあたり1GPU) まで使用
・1ノードあたりミニバッチサイズ64固定
・正解率が45%に至るまでに必要な時間を求めたもの
(当社比
)
複数 GPU 使用時の 1 GPU 使用時に対する学習時間の高速化率
27倍高速化 (スループット では61倍)
1.8倍高速化
<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf
37
ニューラルネットの規模は年々急速に拡大
GPUの高速な演算性能を活用するには、一連の演算に使用するデータを可能な限りGPUの内部メモリに格納する必要あり
③メモリ効率化:GPUメモリ使用量の課題
GPUが搭載しているメモリ量が小さいため、 高速に学習できるニューラルネットの規模が制限
Copyright 2017 FUJITSU LABORATORIES LTD.
CPU
DRAM (数百GB)
GPU
DRAM(約10GB)
HDD
サーバ
アクセラレータ ホスト PCI-E
32GB/s 720GB/s
GPUメモリ容量は、 ホストメモリ容量より
小さい
CPU-GPU間バンド幅はGPU内バンド幅より
小さい
注) バッチサイズ8の場合
0
2
4
6
8
10
12
14
16
18
1998 ~
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
Me
mo
ry S
ize
[G
B]
Year
GPU Memory Size
NN Size(Batch=8)
ResNet
AlexNet VGGNet LeNet
~16GB程度
<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf 40
学習時にGPUのメモリ使用量が増加する
学習におけるメモリ使用量
Copyright 2017 FUJITSU LABORATORIES LTD.
中間データ
5
認識結果
誤差
入力 データ
6 正解と 比較
Forward Backward
中間データ
重みデータ 重みデータの誤差
中間誤差データ ④
①と②、③と④はそれぞれ独立に演算可能
③
重みデータ、中間データに加えて誤差データを確保
重みを更新するための重みデータの誤差と、誤差を前層に伝える ための中間誤差データを計算
・2種類の誤差データ計算の独立性に着目 ・メモリ領域の再利用によりメモリ使用量を削減
基本的な アイディア
中間誤差データ
1層目
2層目
3層目 重みデータ 重みデータの誤差 ①
②
重みデータ 重みデータの誤差
⑤
⑥
⑥
⑥
重みデータ '
重みデータ '
重みデータ '
<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf 41
Deep Learningのメモリ効率化技術
Copyright 2017 FUJITSU LABORATORIES LTD.
ニューラルネットの構造を解析し、より大きなメモリ領域を再利用 するように演算順序とメモリ配置をスケジューリング
方法
重みデータ > 中間データ の層(Fully-connected層など) では、重みデータ領域を
上書きしてメモリ使用量を削減
中間データ > 重みデータ の層(Convolution層など) では、中間データ領域を
上書きしてメモリ使用量を削減
中間データ
5
認識結果
誤差
入力 データ
6 正解と 比較
Forward Backward
中間データ
重みデータ
④ ③
中間誤差データ
1層目
2層目
3層目 重みデータ
① ②
重みデータ 重みデータの誤差
⑤
⑥
重みデータ '
重みデータ '
重みデータ '
大きさを比較
大きさを比較
中間誤差データ
<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf 42
Copyright 2017 FUJITSU LABORATORIES LTD.
実験条件:ネットワーク名:VGG-11 ミニバッチサイズ:128 入力画像:ImageNet 学習反復回数:250,000回
学習時の メモリ使用量
学習の反復回数 vs. 精度
進捗:精度、メモリ消費量、 経過時間、学習速度、反復回数
43
評価: メモリ効率化Caffe
Copyright 2017 FUJITSU LABORATORIES LTD.
40% メモリ使用量削減
同じニューラルネット(VGGNet)を使用し、同条件で比較
<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf
精度は変わらず
45
Copyright 2017 FUJITSU LABORATORIES LTD.
実験条件: ネットワーク名:VGG-16 ミニバッチサイズ: 64(従来版) vs. 128(Mem.削減版) 入力画像:ImageNet 学習反復回数:140,000回
46
評価: メモリ効率化Caffe
Copyright 2017 FUJITSU LABORATORIES LTD.
4% 学習精度向上
削減したメモリ領域を活用してミニバッチサイズを2倍に拡大
<出典>http://www.pccluster.org/ja/event/16シンポ_富士通.pdf 48
Copyright 2017 FUJITSU LABORATORIES LTD.
④メモリ効率化:従来のNW圧縮技術
GPUやDLUは行列演算を得意としており、密行列が疎行列になった事 による速度向上効果は少ない
ニューラルネットの結合係数の小さいものは0に丸め込み、 疎行列化する。(接続の切断に相当)
x1
x2
xn
ニューロン
・・・
w11
w12
w1n
シナプス (重みデータ)
y1
y2 w2n
w21
w22
Y1=f(X1xW11+X2xW12+X3*W13)
Y2=f(X1xW21+X2xW22+X3*W23)
[𝑌1𝑌2
] [𝑤11 𝑤12 𝑤13𝑤21 𝑤22 𝑤23
] [𝑥1𝑥2𝑥3]
x1
x2
xn
ニューロン
・・・
w11
0
w1n
シナプス (重みデータ)
y1
y2 0
0
w22
[𝑌1𝑌2
] [𝑤11 −0.1 0.20.1 𝑤22 0
] [𝑥1𝑥2𝑥3]
[𝑤11 0 0.20 𝑤22 0
]
49
Copyright 2017 FUJITSU LABORATORIES LTD.
ネットワーク列縮退技術(高速Pruning)
ニューラルネットの結合係数の行列を、列単位で結合の必要度合いを評価し、列単位で圧縮する。(ニューロンの削減に相当)
x1
x2
xn
ニューロン
・・・
w11
w12
w1n
シナプス (重みデータ)
y1
y2 w2n
w21
w22
Y1=f(X1xW11+X2xW12+X3*W13)
Y2=f(X1xW21+X2xW22+X3*W23)
[𝑌1𝑌2
] [𝑤11 𝑤12 𝑤13𝑤21 𝑤22 𝑤23
] [𝑥1𝑥2𝑥3]
x1
x2
xn
ニューロン
・・・
w11
0
シナプス (重みデータ)
y1
y2 0
w22
[𝑌1𝑌2
] [𝑤11 −0.1 0.20.1 𝑤22 0
] [𝑥1𝑥2𝑥3]
𝑤11 −0.10.1 𝑤22
[𝑥1𝑥2]
列単位で評価
w12 w21
ネットワーク列縮退技術により、行列のサイズを小さくする事で、 演算数自体を削減でき高速化。更にメモリ削減も実現
50
⑤メモリ効率化:処理に応じた精度技術
人の脳に近い認識を行うには膨大なパラメータが必要
Copyright 2017 FUJITSU LABORATORIES LTD.
DNN パラメータ数
LeNet 7M
AlexNet 80M
VGG-16 140M
RezNet 58M
人の脳 150,000M
出典: http://www.brain.riken.jp/jp/aware/neurons.html 出典: https://www.semiconportal.com/archive/contribution/applications/160804-neurochip2-2.html?print
パラメータ数 人の脳
LeNet 数字認識
AlexNet 画像認識
VGG 画像認識
ResNet 画像認識
パラメータの学習には多くの計算リソースを必要とする
電力効率に優れた低消費電力なDL学習プロセッサが必要
52
処理に応じた精度技術
整数演算を基に、
DLの学習プロセスに特化してビット幅を削減した独自の数値表現
ネットワークの層ごとに小数点位置を自動的に最適化する演算アルゴリズム
を導入することで、演算器のビット幅や学習結果を記録するメモリのビット幅を削減して電力効率を向上させる回路技術を開発
59 Copyright 2017 FUJITSU LABORATORIES LTD.
統計情報を用いた小数点位置の最適化 演算コアによる演算精度の向上
⑥ディープラーニング向けプロセッサ:DLU
Deep Learning用独自アーキテクチャ
徹底した省電力設計
→目標:他社比約10倍の電力あたり性能
大規模並列:スパコンのインタコネクト技術適用
→大規模ニューラルネットワーク処理が可能
Copyright 2017 FUJITSU LABORATORIES LTD.
DLUの特徴
スパコン「京」の開発技術を投入
DLU
(Deep Learning Unit)
提供 2018年度~
TM
<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf
61
まとめ
富士通のAI取り組み:Human Centric AI 「Zinrai」
AIサービスを加速させるZinraiプラットフォームサービスを提供
Zinraiプラットフォームサービスを支えるZinraiディープラーニング:速く・広く・使いやすく
•適用技術を広げる上流技術2つ
Deep Learningの高効率化技術
並列実行技術 ⇒①データ並列と②モデル並列
メモリ効率化技術 ⇒③メモリ効率化Caffeと④Pruning技術
プロセサ高効率アーキ ⇒⑤処理に応じた精度選択と⑥専用プロセサ(DLU)
Copyright 2017 FUJITSU LABORATORIES LTD. 63
64 Copyright 2017 FUJITSU LABORATORIES LTD.