20170510 再送付ws ディープラーニング実装の勘所と最新動向 … ·...

68
1 「ディープラーニングチップ 実装の勘所と最新動向」 北海道大学 大学院情報科学研究科 百瀬 啓 2017年5月16日 関係者外秘

Upload: others

Post on 17-Oct-2019

3 views

Category:

Documents


0 download

TRANSCRIPT

1

「ディープラーニングチップ実装の勘所と最新動向」

北海道大学 大学院情報科学研究科

百瀬 啓

2017年5月16日

関係者外秘

2

- ディープラーニングの最新動向

- ディープラーニングチップの最新動向

- ディープラーニングチップ実装の勘所

- その圧縮(Sparsity)と量子化技術

- ディープラーニングのシステム例

- まとめ

内容

北海道大学 大学院情報理工学研究科

ディープラーニングの爆発! そして

3(a)の白い曲線:参考資料2, 3:Google社のプレゼン資料より、ディープラーニングのモデルを含むディレクトリー数

2012 2013 2014 2015 2016

画像認識 音声認識

自動運転(強化学習)

自然言語 →Chainer(PFN)

TensorFlow

Conv-net/Torch70

1500

1000

500

# of directories 自律ロボット

自動運転(End to end)

Caffe

CNTK(MS)

合成(絵、歌、小説)

Alpha-Go

創薬

翻訳、音声認識

物体検知(Segment)

(a)

1M人

予測

実装

20%

R-CNNDeconvolution

10%

5%

ImageN

et エラ

ー率

人間(5.1%)

ReLu、Dropout

GAP

転移学習

Inception Layer

Binary Connect

RNNマルチモーダル

強化学習

Batch Normalization

(b)

教師有り学習

Shortcut Connection

CNN

GAN NMT

DSSTNE⇒MXNet(Amazon)Neon(Intel)

Keras

北海道大学 大学院情報理工学研究科

デンソー 安全(‘14/3) 位置・高さと方向性

4

スナップショット ① 2014年

IBM(TrueNorth) (‘14/8月) 脳型チップ

http://techon.nikkeibp.co.jp/article/MAG/20140910/375623/?ST=lsi&P=5

nDARPAプロジェクト、Synapse University

nNeuromorphic Chip:1Mニューロン、70mW

Qualcomm(‘14/3) スマホにNPUを!

http://on-demand.gputechconf.com/gtc/2014/presentations/S4621-deep-neural-networks-automotive-safety.pdf

nGTC 2014@サンノゼ)nDeep CNN+JETSON

http://www.cs.utah.edu/asplos14/files/Jeff_Gehlhaar_ASPLOS_Keynote.pdf

NPU:Neural Processing Unit

Neuromorphic回路

JetPac社(‘14/9) Googleに買収された

nDBN (Deep Brief Network)⇒画像認識/SDK

nスマホ、Instagram ⇒Apple Store ⇒Googlehttp://itpro.nikkeibp.co.jp/atcl/news/14/081900470/

北海道大学 大学院情報理工学研究科

NVIDIA Drive PX2 (’16/1)

n 2CPU + 2GPU (Maxwell→Pascal)p 画像認識+判断(Semantic RNN)

自動運転(‘16CES)

5

スナップショット ② 2015〜2016年

PFN (‘16/1)

出典:NVIDIA Deep Learning 2016での岡野原氏講演より

車の運転(強化学習)

Preferred Networks, Inc.

http://pc.watch.impress.co.jp/docs/news/20160116_739223.htmlhttp://www.slideshare.net/NVIDIAJapan/ss-56854919

CNN+RNN

man walkingdog walking

NVIDIA自動運転(E to E Learning) (‘16/4)nEnd to End (CNN)

n画像とハンドル角度

nワンシーン毎に学習⇒Udacity Self-driving Car (CNN+RNN)

n出展:NVIDIA M.Bojarski, 20160425, “End to End Learning for Self-Driving Cars”, http://arxiv.org/abs/1604.07316

ADAS 行動予測(R-CNN + RNN) KAIST(‘16/2)

出展:KAIST, ISSCC2015 14.2

n自動運転への適用(物体検知プラス 行動構想)

n R-CNNで検知した座標と速度から将来を予測(警告)

北海道大学 大学院情報理工学研究科

自動彩色 Dilated CNN (‘16/1⇒10月)Colorful Image Colorization

R. Zhang+(UCB) , 20161005, arXiv:1603.08511

GAN 画像の自動生成 (‘16/1〜)

開発者:Radford+ ICLR2016nGenerative Adversarial Network (CNN+DCNN)

碁「CNN+強化学習+MCTS」(‘16/1)

Facebook:http://arxiv.org/abs/1511.06410Deepmind:http://deepmind.com/alpha-go.html

nFacebook(2ヶ月でアマ5段・・・これから強化学習)

nGoogle (ヨーロッパプロに勝利)・・・3月に李 世乭(イ・セドル)

Movidius社(Myriad2)+Google⇒Intel

Movidius社HP: http://www.movidius.com/

情報:http://techon.nikkeibp.co.jp/atcl/news/16/012900368/?rt=nocnt&d=1454166307943

スマホ用DeepLearningチップ (‘16/1)CMU:金出武雄教授

6

スナップショット ③ 2016年〜

Facebook (1/26)Google Deepmind (1/26) Nature

Monte Carlo Tree Search

北海道大学 大学院情報理工学研究科7

スナップショット ④ 2016〜2017年NMT:ニューラル機械翻訳:Google スタン大 (‘16/9)

Google出展:Google Cloud Platform Blog 20160926

n Google:自動翻訳(英語⇔中国語)・・・かなり精度向上

n STDU:RNN/LSTM に圧縮技術適用、モバイル適用Google(GNMT) スタンフォード大

音声認識(Amazon, スタンフォード大学)(’16年)

n Amazon: Echo/ALEXAで新プラットフォーム 支配へ

n STDU:RNN/LSTM 圧縮技術 (FPGA)

n出展 ホームページ: https://www.nervanasys.com/スタンフォード大 ‘17/2

きゅうり仕分け (農家+TensorFlow) ‘16/8

n きゅうりの仕分けにDL 20160805 農家小池さん:https://cloudplatform-jp.googleblog.com/2016/08/tensorflow_5.html?m=1

•お母さんの仕事•手間:色、形・・・・・・•A+R3+TensorFlow•CNN 80x80x3⇒9クラス

•面白い「AI」とは、身近な現場の「やってみた」から生まれる!

GreenWave電子情報: http://www.eetimes.com/document.asp?doc_id=1330188

TPUのエッジ/IoT ? GreenWave社 (‘16/7)pIoT:画像、ソフトモデム⇒振動解析、電気グリッドモニタpGAP8 RISC+ OFDM + TFPp12GOPS/sec 400MHZ 20mWの低消費電力

GAP8

北海道大学 大学院情報理工学研究科8

スナップショット ⑤ 2016〜2017年

Intel + Nervana AI 戦略 (‘16/9)Tensor Processing Unit (TPU) Google(‘16/5)

Google出展:Google Proud Platform Blog 20160518

n実行用のアクセラレータ (8bit 10倍のエネルギー効率)

n‘15年より運用(Street View, Alpha-Go, GNMT・・・)

DeepLearning Unit (富士通) (‘16/11)

Facebook:https://code.facebook.com/posts/804694409665581/powering-facebook-experiences-with-ai/

Big Basin (次世代ハード):Facebook(‘17/3)

n出展 ホームページ: https://www.nervanasys.com/

A) Neon: python based Framework:高速学習B) Nervana Engine (2017)C) Binarized Neural Network

n‘18年アクセラレータ (10倍のエネルギー効率)

nZinrai プラットフォーム 30種API

n 学習用p テキスト翻訳p 音声認識、画像認識、動画認識p コンテンツ理解(Prediction)

n 8個 GPUサーバ(ラック)n NVIDIA Tesla P100 GPUn 32bit, 7→10.6 TFLOPS 16bit可n x1.3ネットサイズ, 12GB→16GBn ×2のスループット、ResNet50

’16年11月30日:http://monoist.atmarkit.co.jp/mn/articles/1611/30/news041_2.html#l_km_fujitsu6.jpg

北海道大学 大学院情報理工学研究科

知能化・行動化と市場の広がり

知能化

センサノードフュージョン

(自己学習・起動、分散処理)

行動化

強化学習

推論分析

行動獲得

→特徴検出、表現力/Feature Learning

単体認識画像/音声・・・

多物体同時設計/検知、認識率、リアルタイム

自動学習能力

単体処理

(共通)(単機能)

自立系(ロボット/

自動運転 等)

+リアルタイム

(適応制御/行動生成) Sense&Avoid

移動/アクチュエータ

リアルタイム

固定

ゆっくり:>数10msec

↑智恵の獲得

言語獲得↑

行動獲得↑

推論/分析↑

認識

クラウド(サーバー)

全脳

分散処理

統合処理

学習有1(教師有)

(実行/学習無し)

学習有2(教師無)

認識

学習有2:教師無し学習学習有1:教師有り学習学習無し:事前学習

(別サイト学習)

言語獲得

??獲得

+低消費

Big Data on Device/Entertainment/動作支援

RealSenseTechウェアラブルスマホ/タブレット

個性/プライバシー多機能

9

北海道大学 大学院情報理工学研究科10

ニューラルネットワークモデル・アルゴリズム展開

n 3つの方向性がある(高性能、高機能、システム化)

未来予測機が欲しい!

北海道大学 大学院情報理工学研究科11

ロボティクス、IoT、そしてAI 〜自律システム〜

時系列処理・・・言語処理RNN、LSTM、GRN - -

マルチモーダル

強化学習

モンテカルロ法

ワンショット学習

オンライン学習

End to E処理

Sequence to S

耳・・・音声認識CNN、MLP

目・・・画像認識CNN, Mask-R-CNN

体温・・・センシング

触覚・・・センシング

See (Recognition)

Organize(データ選択、要約、統括)

Plan(Organize, Judge)

Do(Actuator)

Predictive(推測、生成)

統合的

認識

12

- ディープラーニングの最新動向

- ディープラーニングチップの最新動向

- ディープラーニングチップ実装の勘所

- その圧縮(Sparsity)と量子化技術

- ディープラーニングのシステム例

- まとめ

内容

北海道大学 大学院情報理工学研究科13

エッジ系GPU/DSPコア Vector VLIW Processor○ 出典:学会、論文、電子情報

○ HBP:欧州Human Brain Project, DARPA:米 国防高等研究計画局、NV:NVIDIA社, K:韓KAIST, MO:米Movidius社, CAS:中国科学院 Chinese Academy of Sciences、I:Intel, DJIは中国ドローン最大手, TS:清華大学、ST:Stanford大学

○ CNN:Convolutional Neural Network, RNN(Recurrent NN), RL(Reinforcement learning:強化学習)、DC:Deep Compression○ TDNN: Time Domain NN 学習・・・下線(KAIST+サーバ系+DaDianNao) TPUは実行専用

ニューロモルフィック系

エッジ

サーバ

脳神経科学

2013 2014 2015 2016

GPGPU

FPGAへ(動向)

サーバCatapult SiP (Xeon+FPGA)

Heidelberg大(Spikey:欧州HBP)

Stanford大(NeuroGrid)

ニューロモルフィック

(a)

(c) Intel+Altera(買収完 )

MS

Intel

検索エンジンBingAltera

Xilinx IBMTeraDeepへ投資FPGA+QualcommQualcomm

M40 P100NVIDIA(TegraK1) (X1)

(発表時)

K80Tesra K40

全般

(b)

Manchester大(SpiNNaker-ARM:HBP)

汎用

ロボット

スマホ

スマートグラス

IoT

ドローン

Synopsys (IP:CNN)MIT(Eyeriss:CNN)

TeraDeep (n-XX FPGA:CNN)

CAS(DaDianNao:リコンフィグ CNN/RBM)

ニュ

ーロ

チッ

プAS

IC

K(DL/DI:学習)

CAS(ShiDianNao)CAS(Pu-)

Qualcomm/Zeroth(IP: STDP )K (HMD/AR)

MO (Myriad 2)

K(IoE:CNN)

SD820 SDKK(UI/UX: AR)

K(RL)

K(RNN) NV(PX)

MO(Fathom)

NV DrivePX2→MO+DJISnapdragonFlightデンソー(TegraK1)

デンソー(FPGA)

K(AR)

Cadence (IP)

TS (A-Eye:CNN)→ST (EIE:DNN)

CAS(DianNao)

2017

CAE (Origami)

UT・HP(ISSAC)

STM (Orland)

TSB(TDNN)

KU-L

K(CNN+RNN)

AI戦略(4社買収)

Google (TPU) IP化

K(UX/UI)

FPGA+Power(IBM)SiP (DRAM+FPGA)

KU-L(ENVISION)

MI (DLAI)

IBM(TrueNorth・Simulator:DARPA)

(デイバス:IEDM)

Now

IBM ( )

FINN

Arria10 Stratix10

Lakecrest

CAE(Yoda)

世界のニューロチップの動向 注目チップ

北海道大学 大学院情報理工学研究科14

【参考】 IEDM2016 技術(ニューロモルフィック・・・)

C A(%)AV 4> CB3> DV TV N 4 4TT 5GRU +

.% :L C B %(-%( % E54 FBB3> 8OS87D + 6 ) :65 : U V6OR%(-%) BB3> DG :L) (->H ( SR (HO /HO > CD 0-%,(-%- 573 7D B3> DO :L ) -+PH ( SR 85 C(-%. > RVO TV(-%/ BB3> +D(B CD6A CB6A(0% 7A8 A5 D87D F ) H N VROTSOI H NV +RF J IGJ > 4 LL V J+%, budyxl >D F ) k awx %/F % F)% FBB3> :L + HO I / / H + SR 6 6 TD

BB3> DO CO ) S LL 2( + 7SJ VGSI B3M CO 4O JOV I OTSG

+%+ B B3> DG) , :L ) M S+%, 573 7D BB3>+%- OR I BB3> B S OTS+%. 573 7D 8O GR S BB3>+%/ B B3> + SR 8VGI OTSG C TING OI RTJ.%- A D75 54B3>(-% B B3> -,SR S 88 TD F AVTI TV(-%, DC>5 BB3> S CB3>)(%) OR I 54B3> 5 3 ) BC :BC B S OTS)(% BB3> :L >DC )(%+ tnyo auey xrab OR I BB3>+%+ F ) TD napyfi+%/ shy v ey c tb BB3> N 4 )6 BB3>

+%( S A5>+%) 4> E F35 A5> 3 6 OS V 7SJ VGSI ) ())(%( 4> D% % A5> 9G CH 9 ()/>H+%- maiugyr A5> 3M :L ) DNV NT J C O IN

C DA1CNTV GSJ TSM D VR A G OIO A5 D87D ANG 5NGSM D SS OSM 87D 3 6 3 TROI G V 6 UT O OTSCD6A1CUOP DOROSM 6 U SJ S A G OIO >D OS G TV T R G C5> C TVGM 5 G > RTVCB6A CUOP BG 6 U SJ S A G OIO BB3> B O O C O INOSM R RTV F> RH JJ J F>

C5> F>

,

+%

北海道大学 大学院情報理工学研究科

【参考】 ISSCC2017 深層学習関連(セッション・フォーラム)

15

I� WR =i � 1X .F

�� �{r�¨µ«¨¯¶· ��z� î ���%YÃ�Abl�Āh �Ã��z���Ã�cā v~�{�È�²²±¶>È2(3#ā

�~} �{r�¨¯¯¨³¸··¨ ¬°¨¦ Ê l?C$Æ�DÃl: �"ÃkJÃéÿÔýßý

��� ��� Z< 'a

���r ~}£� G�

~�{� �{�«¬± ����� m ��� ��� ~}£� G�

�{~����|�yríãû;0Ã7fàÏù6,

�²±¹þþþ�±¯¬±¨êâä_5x���r�¥¬·

O�v��x���wþþþ�z·¤¥¯¨r�¥¬·rrrrrrrrx½¨µ²r¶®¬³

ÛÑÜáôÿÃÔôìÚöý�Å

~�{� �{�{«¤·°²¸ª« đćđę� N ��� ~}£�G�

)�

��±°r�¤½²µ�cĀàÏðý×S/-�āÃ�����

�PĀ�³¤µ¶¨yr¢¨µ²yr�¥¬·w�²�r@FÈ�¯¤¶¶¬©¬¨µ

~�{� �{r�µ¬¦¨ ��� N ��� ~}£� n� ��±°r���r�PĀûÜúÜÃÞûÃ�z·¤¥¯¨w n�]`v���wrn�9KĀ���w��g

~�{� �{r�²²±¶ ��z� î ��� ~}£� G�z~}����|�r��±°r�����r�²�|���rr�¥¬·

�����yrt~È/Trv}{��Ą~}����|�w�������

ĉąĈĕĒęė

�¯º¤¼�±

~�{� �{r�²±ª ����� m���

rz��~}£� p

� |��r��±°r}{��°�|~©³¶yr}{���yr���½r���

Àr�¬§¨�|�r�¨�rÁr�¨³¤µ¤¥¯¨r�¬¯·¨µrÂr�z����

�²¥¬¯¨rp]`Ă]\r|�¬©¨r�¼¦¯¨

�±¤¯¬½¨µ

~�{� �{r�¤±ª ðÚ�x N ��� ~}£� p

���r�}±°r���¾�r�����r}{��r��r����

À���vO�wE��r��ÆòóøÈ!

Á�j*òóø;0Ã�;0�òóøĀ�¬¯¬±ªr�»�w

Â��¥¬·üÿåy�z~�¥¬·'.

�²�r�¨¼�²µ§ÜïâãÎý×Ãp]`

�¯º¤¼¶r�±

~�{� ¡z�{r�¸ �M�x � �}��»�¬¶·µ¬¥¸·¨§r�¯¨°¨±·¶v��r�²¸µ·rur�¨¤µ¦«w ���ÚÿØýÙÿĀEÇ�¤³³¬±ªāF

��{} �{r�«¤±ª BV� � v^oþ��ā

��{~ �{r�¬¤°²¶ �¤¬§¸ N 4"QÃ�¤·¤|�²§¨¯r�¤µ¤¯¨¯¬¶°yh �����r���r~}}��|¶

�²ºv��|~�¥¬·r�¬»wþ�³¤µ¦¨"Q

��{� �µ¬¦r�«¸±ª �� N Ö÷Ðår�¤·¤³¸¯·r����y�¦¦¨¯¨µ¤·²µ|�µ¤¬±�¤¹¨ �µ¤¬±�¤¹¨

��{� ¡¸±­¬r�«¨± ��� � ����Ã�¸z�¬¤±�¤² @F/r�¤°¥µ¬¤±Ă��FÈ���

��{� ��r¡²² ����� m ÍÿÔãÖáôÆ�²�v���z���|�²ªr�²�dā ���ĀÛÑÜáôÿā

��{� �{r�²±ª ���� N �¤©©¨¬±¨v��r�¬¥µ¤µ¼w �²°³¬¯¨r���v�¶¦¬¯¯¤·²µ¼w

��{� �{r�¤¯¯¼ĎďĘ�

��N �¨¨³r�²°³µ¨¶¶¬²±r�z�¥|���r��+ �³¤µ¶¨r�²±¹r�±ª

��{� �{r�¨±¬±¬ ���¢ Ü s�µ¬ª¤°¬sx�¨¶�¨·¿s¡²§¤��sx���r�~����|� çâäÈZ<é�|��Ä[H

��{� �{r�¤°µ¤· ���r�¨·¬ � �³¬®¨r����r��� ����É.FÇËÌ8FÈ�T/

���¸·²µ¬¤¯yr~�{»��¨¶¶¬²±yr���²µ¸°rrîĂîùÕÿÃÜĂÜÏÜÃ��z��ėćēęĘċĐĖĆČ�"Ã�đćđę�ĂđćđęćĐę�"ÃĎďĘ��ÜàýëÒÿå�"ÃrĔč�ĂðÚÓý�"

�����¼±¤°¬¦r�¦¦¸µ¤¦¼r�¦¤¯¬±ªyr�����r�¼±¤°¬¦r�²¯·¤ª¨r�¦¦¸µ¤¦¼r�¦¤¯¬±ªyr������r�¼±¤°¬¦r�²¯·¤ª¨r�¦¦¸µ¤¦¼r�µ¨´¸¨±¦¼r�¦¤¯¬±ª

�����²¬¦¨r�¦·¬¹¬·¬¼r�¨·¨¦·¬²±r���r�¤¦¨r�¨¦²ª±¬·¬²±yr�����±¶·µ¸¦·¬²±r�¨·r�µ¦«¬·¨¦·¸µ¨

�{�����|�r��z�����±°r�²�|���rr�¥¬·Ã����Ã

����;0rĀ���Ãqe�|�Ã�¦¤¯¤¥¬¯¬·¼w

�µ¯¤±§����r�²�|óèÏùvøÍùā

�¤·¤r�¸¶¬²±

�&

�¨¨³�¨¤µ±¬±ª

UræõÿûýL"

Ý

â

Ú

ö

ý

~�{~ �{�¨¶²¯¬ ��� �x

v�¤·¤r�µ²¦¨¶¶²µw

ëÒÿ÷ñÈ��

��|ČĕĉĐę|���

��|ČĕĉĐę|����

��|ČĕĉĐęĄĊĆčę|

��|�²ªĄĊĆčęþ�²�

���|����

��|����|�¨¨³�²°³

��|����|�²°³z�¬±¤µ¼

��|����|�¨¸µ²°²µ³«¦

ì

ú

ë

Ò

ă

÷

ñ

北海道大学 大学院情報理工学研究科16

ISSCC2017 フォーラム:8講演の技術マップ/課題

SoftwareHardware

F3.1 Baidu

F3.2 MicrosoftF3.5 UCLA

F3.4 KAIST

F3.3 CAS

F3.7 ETEZ

F3.8 CEA

FPGAGPUASIC GPU

FPGA

Cloud

Edge

NearSensor

(Fog)

F3.6 SFU(NVIDIA)

Mixed PrecisionSparse Training

Brain Wave

ISA (Cambricon/-x)

BNN (“YodaNN”)

Low Activity rate/ STDP for Unsupervised learning

4-8bit

Caffeine (HW & SW co-design library/FPGA)

SNN(Brain-inspired)

32/16b

Neuromorphic

Neuromorphic

ISSCC2017 Forum

Desktop

北海道大学 大学院情報理工学研究科

【参考】 FPGA2017 深層学習関連(セッション・ポスター)

17

e êÞî ÎñÑ .; ��© �

�¤��¡�

�������

}s v�o

�ª§«�©����l�£©�¡ D }¡¡ 7U

tsnw

nsnr�¶}§§��rqp�©§�©�­rqi«¨i��©�£�i���

���©Â9\i���}¾�Ëò s��©mir��©mi��£¤�§�� k

ÕñâñåìÝß

äÐñèC�

}t rv �oi���¤l Óñáî!l D ��� �~� ��� r� «�§���¡�i¬��©�i¡�£�i�ª���§j�~�kiiii���jh��-ó

}u sv �oi���£�l��n

����¨¤£D ��� ���

�¥�£

��rw�

�¥£��� i��¬i��§£�¡i��¨��£ ij��¢¤§®i��¡�£��k

}§§��irqi��rrvq

}v tv �oi���£�l ��� D ��� ������n���}i���§��i���mi�¤ª�¡�i~ª���§mi��}p���

s�i�¤£«¤¡«�§i�£i �§�¦ª�£�®i�¤¢��£

}w uv �oi��lÎíÚà

(!D

���

in���¤¤¥

��¨��£i�ª���i��£�ij�¤¤¥i�¥©�¢��¯�©�¤£k

���i}§§��irq�­rrvqiwuqi����miuy¢¨

~r vv�o

}®�¤£�©l�£©�¡ D ��� ~ª���§

�¥�£

��·}§§��rqiirou����i²��}j���¥i���§£�£�i}��nnk

³¤£n���¥i¨©§��¢i�ª���§i´���©§�¯�©�¤£iµ��£¤�§��

�¥���i­rqi||

&��©�£�ij���k

~s wv�o

�¢ª§¤�¡ªl��¡�£­l D j���k

��©�§

¤n���� r�

%N{��©�§¤ni�©§��¢�£�i}§��i²§¤¤�¡�£�i³~��

i¢�¥¥�£�i¤¥©�¢�¯�©�¤£i´~��i�¤£¨©§ª�©�¤£i�¤¤¡

I�][

ïæÝß¹}�

~t xv �oi��£l ���l D���

������ rw�

d�TWmi���¥i�¤¢¥§�¨¨�¤£mi���l _éêí

l���}j}���¡�§�©¤§kmi����jrw�k

d�TW

Õñâ

�w syv �oi�§�¬�¡l Òîä! ��¡���n

¢�£©

#Fõ�ZÃ�}�`EÎîÔíØèÆãÛñð

±�fQ:ÆP�iiò��¡�£­i�¡©§����¡�k

�¡���¢�£©

�<

�rr szt �oi���£l�©¤£®

~§¤¤ i!D �� ~�}� ¶ ~¡¤� �}�Æ5^�.;ò��ÃXLÆâìð×ó

��'Æ

SR.;

�v��

i¸�Yl6)¹�! 3 ��� ����

r�

¬p¤~�

²i~�©��i�¤§¢�¡�¯�©�¤£>À

³�£¥ª©p�����©i¬�©�i21���¨

�¢������

�®¨©�¢

�w �oi�� ÎíÚà!ô D ��� r� � *jBaÃ4aó¹ixox����pyos�izq��� &i��©�£�

�y �oi��£l äïíÜ! D ����©¤��

�¨©��

�©¤���¨©��j�©§��¢i�¤¢¥oi�¤��p§�£�¤¢i¨�¢¥¡�£�k

°i���¡���¡�©®mi�£�§�®i�������£�®

���¡i��¢�p

����n¥�­�¡i�o

�z�o

��£��§�¨l�¢¥�§��¡ K ��� ��� �®£��§¤£¤ª¨i��©��¡¤¬j���ki�§�¥�

����?ɽ

I�SR.;

�x szt �oi��£�©¤£®

~§¤¤ i!D j���k

��¥¥

n�£�

��©�i�¡¤¬i�§�¥�j���ki��¥¥�£�Å���Æ.;Ì+@

ò���Ã��}j�§¤��¨¨i�¡�¢�£©i}§§�®óÌ���Å��ó���Æ0Jö

nV=ÆA�j}rm}snnkÇ$��¿ÁÈƹ»e¼Çc"äÍÏîÂÆe1º»�g¼Æ».;¼Ç¹��©�¤�¤¡¤�®Äʹ�§�¢�¬¤§ Æ,�Â�@ÀÁº

���iúûþýøù

üÿ!�oi��£>}r nsnr�}¡¡D

/O +@pG

ç

×

Û

÷ syz

Ù

Ý

Ö

ë

ð

A� MH 8b �¸�giiiii¬{i��£¤��§�

�ª©¤§��¡{i���¥i�¤¢¥§�¨¨�¤£m

~�£�§®p��§£�§®mi��£¤�§��¶

北海道大学 大学院情報理工学研究科18

全体の動向 4つの動向

nハード/半導体関連での全体の動き (ISSCC2017のフォーラムでの印象)Ø 学習での量子化(高速化)Ø 再構成容易化技術Ø 実行での量子化(低ビット化)Ø スパイキングニューラルネットワークの可能性

n学会での動きØ ニューロモルフィック/NVMとオンライン学習 ・・・IEDM 2016Ø 低消費電力化/量子化 (mobile) ・・・ISSCC2017Ø 新規演算(Winograd) Bi/Ternary ・・・FPGA2017(先行性有り)

l 生成系/GAN、強化学習、外部記憶 ・・・NIPS2016(Open AI Universe/DeepMind Lab)n参考20161217:Qiita http://qiita.com/yoh_okuno/items/2494bc79630eb57e81ba

北海道大学 大学院情報理工学研究科19

サーバ スパコン

1G

10G

100G

1T

デジタル アナログ

アナログメモリ

ノイマン型 非ノイマン型(ニューロチップ)

(IBM 92:Binary)

九工大656DaDianNao 558(16bit)620

性能指標GOPS/W

- ラフな傾向(半/単精度、メモリアクセス、固/浮動、通信・・・)◇はボードもしくはメモリ含み、●はIPもしくはメモリ含まず等

- 学習用は下線 DaDianNaoとTeslaシリーズ、KAIST一部- CAS, TeraDeep社の他社ベンチマーク値も参考

DaDianNao 209 (32bit)

10T

確率共鳴

参考資料13 ISSCC2014 Plenary 1.1Mark Horowitz, pp10-

Tesla 35(P100) 29(K80) 27(M40) 16(K20)Tegra73 (K1) 51(X1)

32bit (Max値)

e-DRAM

- 参考値:TrueNorth:GOPS=2 x SGOPS(仮定), 92はCMOSリーク電流で劣化

e-SRAM

【参考】 回路アーキテクチャとエネルギー効率

1000T

20

- ディープラーニングの最新動向

- ディープラーニングチップの最新動向

- ディープラーニングチップ実装の勘所

- その圧縮(Sparsity)と量子化技術

- ディープラーニングのシステム例

- まとめ

内容

北海道大学 大学院情報理工学研究科

KJN 7?? A??KRJQH.JDTGO*@GOEGNQHML 7MLSMJRQHMLDJ*?? AGEROOGLQ.??

_\^

fhX

���(�!�

+:RJJT*7MLLGEQGF*=DTGO,

�'W�kahdgY�

i7/-*70-*7:j

�!�

k*:6`[kZh^

�"�V

_\^

A6>U5RQM9LEMFGO

86?

A.7??-*>DPI*A.7??

8GEMLSMJRQHMLA??U=BC>U;A6

�"�

��

VXc[

���i>?<BCj��$&U) $&

����

#%��U) $&

����U��b]e

�� 2�0/*� 3�031� 2�4*�

代表的ニューラルネットワーク

21n出展:KAIST ISSCC2017 Session 14.3

Input

Output

Hidden

t-1

Input

Output

HiddenConvolution Pooling

Output

t

FC

北海道大学 大学院情報理工学研究科22

CNNの進化: 層構造の4つの型(タイプ)

��

B?C�

� � � �$

#

!

!

#

� � " � � � � $�.*9!*6

%��!*6

��� � � " � �" � $�11,�*

#*5!*6

�<

����

��

��� � � " � �" $ $37**;*

����0276������108��&:*4��"�� &9�"11.-0,������7..:��100*(6*)��&:*4���"���41'&.��8*4&,*�"11.-0,��$��$1+6/&9��D

�=

���

!

!

��� �� A>@B?C

��

!

北海道大学 大学院情報理工学研究科23

RNNの種類

n出展:Andrej Karpathy, 20150521, “The Unreasonable Effectiveness of Recurrent Neural Networks”.

Sequence Sequence

Input

Hidden

Output

全結合

Image Captioning

Sequence(Sentence)

Neural MachineTranslation

Image

VideoClassification

Sequence(Sentence)

Synced Sequence

北海道大学 大学院情報理工学研究科24

CNN/Alex Net・・・代表的なネットワークモデル

nILSVRC (Image Net Large Scale Visual Recognition Challenge)-2012p 1000クラスの識別:エラー率 26%→16%(10%改善)

nAlex Net (5x畳込み層、3xプーリング層、2x コントラスト正規化層、3x全結合層)n学習:教師有り(Back Propagation): ①活性化関数(ReLU)、②GPU実装、③Drop-Out 等

n教師サンプル:1000カテゴリ×1000枚→100万枚⇒2週間(2つのGPU)→1sec/1枚

n 1000クラスの識別(オリンピック級:ハイエンド)

出展:A. Krizhevsky, I. Sutskever and G. E. Hinton. "ImageNet Classification with Deep Convolutional Neural Networks." NIPS. Vol. 1. No. 2. 2012.

1k4M

4k17M

4k27M

43k0.89M

65k1.33M

64k0.89M

186 k614k

Neuron = 253kSynapse =35k

1CONV-2LRN-3POOL4CONV-5LRN-6POOL 7CONV 8CONV 9CONV-10POOL 11CLASS 12CLASS 13CLASS55x55→27x27

全結合全結合

合計

0.7M ニューロン

62M シナプス

合計

2G ビット

1G接続

注:パラメータの図の記載は無い

北海道大学 大学院情報理工学研究科

�������

�������

�������

������

������

�������

�������

����� �

25

CNNのパラメータ数と演算数の推移(Alex Net)

n CONV層・・・演算が支配的 (演算性能律速)n CLASS層・・・パラメータが支配的 (メモリアクセス律速)

全結合

演算数

40M個

1万ヶ

1億ヶ

総数:2GOPS60M パラメータ

パラメータ数

入力数

北海道大学 大学院情報理工学研究科26

1 2 3 4 5

I C P C P F F F G LeN et 6 1998

1 2 3 4 5 6 7 8

I C N P C N P C C C P F F F S A lex 8 2012

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

I C C P C C P C C C C P C C C C P C C C C P F F F S V G G N et19 2014

I C C 3 C 3 P C C 3 C 3 P C C 3 C 3 A P S N iN 2014

1 2 3 4 5 6 7 8 9 16 17 18 19 20 21 22C C C C C C

I C P N C C N P C C D C C D P C C D --- D C C D P C C D C C D A P F S G oogLeN et 2014

C C C C C C C C C C C C 22 V 1P C P C P C P C P C P C1 2 1 2 --- 5 1 2

Auxiliary Classifier Auxiliary Classifier

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 32 33 34

I C P C C C C C C C C C C C C C C C -- ------ C C C R esN et152 2015

1 2 3 1 2 8

35 36 37 38 39 40C C C C C C --- --- --- --- --- --- C C C

1 2 36

C C C C C C C C C A P F S

1 2 3

CF型

C型

畳込み層主体型

152151149146145143

142140

148ボトルネックブロック+ショートカット(残渣ブロック)

Inceptionモジュール

Mlpconv

AP F S Global Ave. Pool. / Fully Connected / Softmax

Input / Convolution / Max PoolingI C P

N D Local Response Norm. / Depth Concatenation

CF型(畳込み層+全結合層共存型)

CIFAR-10用の構造→

CCCPCascaded Cross Channel Parametric Pooling (CCCP)

CNNの進化: モデルの進化(1998~2016)

北海道大学 大学院情報理工学研究科27

【参考】 CNNの進化: ネットモデルの構成一覧f�y�oy�c ukk\a ukk\d o}o k��{myoy�]] qy�oy�^_ qy�oy�\`] �Xk�Sp��}w�T �Xk�Suv��yT

�§¶·§� U\\ k��{�y

][\] ][\_ ][\_

\`Y^Q XXbY^^Q

SaYcQTXXX

aYaaQPS _Yc]Q�

^Y`cQ�^Y[cQTSV\Y`QT ^Y`bQ

� XXX ` \^ \a XXX ]\ ^^ \`\ \^ \`

©³¯¸¤ n� ^Yc \`Y[[ ][ XXX `Yda ]\Y[ ``Y[ ^Yd ^Yd

+8¹!<"º g� \Y[c \`Y^ \dY` XXX \Y` ^Ya_ \\Y^ \Yb \Yb^

� XXX ^ ^ ^ XXX \ \ \ XXX ]

©³¯¸¤ n� `cYa \]_ \]_ XXX \Y[` \Y[[ \Y[[ XXX [Y[d

+8¹!<"º g� [Y[`ca [Y\]_ [Y\]_ XXX [Y[[\[` [Y[[\ [Y[[\ XXX [Y[[[\

� XXX c \a \d XXX ]] ^_ \`] \^ \b

©³¯¸¤ n� a]Y_ \^d \__ XXX bY[\ ]]Y[ `aY[[ ^Yd ^Ydd

+8¹!<"º g� \Y\_ \`Y_ \dYa XXX \Y`[ ^Ya_ \\Y^ \Yb[ \Yb^

©³¯¸¤ XXX [Y_` \ \Y[_ XXX [Y[` [Y\a [Y_[ [Y[^ [Y[^

+8¹!<"º XXX [Y[b \ \Y]b XXX [Y\[ [Y]_ [Yb^ [Y\\ [Y\\

h[� h]�

H< - ]WP^ ]WP_ \V] ] ]�o

� XXX XXX _'

XXX n��w��� l�wy��}��Pn�xY

XXX � � XXX

XXX XXX XXX

\\�\\ VP\�\ \�\WP^�^WPS`�`T ^�^

]b�]b XXX `a�`a

qymt

mqo mqo

XXX XXX S�Tu]��

Snv�Zf�yT

XXX �

XXX \ XXX ]

� � �Skfpº XXX XXX

� � �|v�|

C�6 �N� �J�@M $��� �.

,�®¥­"P_c

XXX

ee

XXX

XXX

XXX

k��{�y

][\a

qymt

]\�]\

`�`W^�^W\�\

XXX

XXX

XXX

XXX

XXX

2F�

�³¸.

SDE�O¼s��X`Py����º

\

P�¥�¢«�¸¨� nrqf

][\`

]�xh�����£

 ²¸§�¥§µ¸­

g����y�yw~�S\�\T

°¡±¸µZ¬¶¥� �

:=

][\_

�;�

¤�­ hj�¹2F��»�;��º h�S2F�����º

°¦µPS�"º

2F

��

)���

%A�SmqoT

­¸´·��

����­¸´·�� SkfpT

�;��

r�z�nv�

'

I

'

I

(.

�B

3?SlmruqhTPP

«�µ¤¸��£

G��,�®¥ª·�

9�\[[��75¹0#4º

^�o

\�\WP^�^

XXX

�R&*¹�y�}x�v�º¬¶¥�

&*���,�®¥ª·�

XXX

\\]�\\]

XXX

XXX

XXX

XXX

XXX

XXX

^�^

i������ �

/� �¹K1º,�

nv�

^

�>

L��

qymt

`a�`a

XXX

nv�

%A�Sgv�w|Po���v�}�v�}��T XXX

北海道大学 大学院情報理工学研究科28

CNNの進化:構成の勘所

ofumyjgl jgl�SSzrgw+0Q0Tjp+.Q.+-

) ,5CCL-

0) 4KJP�T/Q:) 4KJP�T

cXWa0Q:) 4KJP�eiuyq^X]

!d(Y

��z?GBC- 1�z6KKE8C:CN`b{

4KJPsktyu 9HLAKJPT7JACLNGKJT��pvnh�

�W]c#VU[\X&��"`�+|�

Z`��_a62;�

4KJP� <C8>

��� =KDNI@Q

5MKLKON

3@NAF+JKMI@HGR@NGKJ,�%�{

�'b�

� �*�

�"�x��

����

$�

北海道大学 大学院情報理工学研究科29

10層数

10

1

100

ResNet34

10

100

10%

2%

5%

20%

2

5

20 505 200

エラ

50

20

演算数

パラメ

タ数

x109x106

AlexNet8

VGGNet19 GoogLeNet22 ResNet152

人間の能力(5.1%)

1msec/image- 仮定:(MAC)- 1TFLOPS/S

・・・パラメータ数演算数

160Mbit (16b)

VGG16

ResNet50

CNNの進化: 深層化と精度向上

20Mパラメータ

北海道大学 大学院情報理工学研究科

ネットワークとLSI回路アーキテクチャの位置関係

30

MLP (multilayer perceptron)RBM (Restricted Boltzmann Machine)DBN (Deep Brief Network)AE (Auto Encoder)CDBN (Convolutional DBN)

z ���W

z

z

���Y

���Y 0HDR:DP @66:DP

��� �X$�"

opt opt\ycdl

|�%���}

5�

2::

�� #�

z <19+31: 5�

<8 04 5�

z 231: 25�

25�

<::

=MQDDTD:DP

=IAHH'5GHPDN

=IAHH'5GHPDN;

N

Q

J

G

J

E

^

s

`

b

U

w

`

v

`

&

&

j[k`��

:7: ���!

4RLAJC'8ASDN <DO:DP

�z��hr{wy

2,+2-�

j`��*:K2

60;

:7:=IAHH'2FAJJDH

8=7$Z{]e^cq{

3:: 98; 98; 5�

;

N

Q

J

G

J

E

^

s

`

b

U

w

`

v

`

^w`j{��

9GBNKvmu���|5GHPDNV2FAJJDH)

/,�-,,R

./�/,R (R-,)6KKEHD:DP+7JBDLPGKJ'8ASDN

idgx{^pfu(Zu_tan)

����Y

9ABNKvmu���(8ASDNV�!)

8=>9+6<?zz

北海道大学 大学院情報理工学研究科31

CNNの処理フロー: ネットレベルでみると

Σ*

並列処理1

* Σ*Σ* Σ

Σ

並列処理2

並列処理3

𝑜𝑢𝑡(𝑥, 𝑦))*= , , , 𝑤)/,)* 𝑘1, 𝑘2 ∗ 𝑖𝑛67

879:

6;

8;9:

</=

)/9:

(𝑥 + 𝑘1, 𝑦 + 𝑘2))/

北海道大学 大学院情報理工学研究科

CNNの処理フロー:回路レベルで見ると

32n出展(参考):清華大学 他, Jiantao Qiu+, “Going Deeper with Embedded FPGA --”, https://nicsefc.ee.tsinghua.edu.cn/media/publications/2016/FPGA2016_None_6tAJnDW.pdf

全体構成 (コア、チップ) PE(Processing Element)

Convolver

並列処理3(出力特徴マップ)

並列処理1(演算子) 並列処理2(入力特徴マップ)

北海道大学 大学院情報理工学研究科

SB:Buffer for synaptic weights

Tile

4096b

1024ROW 1.89mm2=1.4mm□

SBeDRAMBank1

Bank1

Bank2 Bank3

NFU

x4096

16 inputneurons 16 output

neurons

33

Chip

NFU(Reconfigurability)

Tile eDRAM256synapse

Tile0

Tile15

Tile1

eDRAMBin Bout

Router

Fat tree

2MB2MB

Hyper Transport

x16x16

2MBx16=32MB

67.7mm2=8.2mm□

SRAM(8kB) SRAM(8kB)

Multi Add

NBin NBout

Act

P-sumorgradients

Synapse

Updated Synapse

Input x16 Output

Stage1 Stage2 Stage3

Machine Learning Super Computerp 2014年12月発表:Micro47BestPaperp 28nm(ST 0.9V)/67.7mm2、16タイルp 機能:再構成機能 (実行と学習)・・・NFUp 性能:速度 x451、低消費 x150 対 K20M

Ø 5.58(16bit)、2.09(32bit)TeraOps/s

e-DRAM

出典(参考): Yunji Chen +, http://novel.ict.ac.cn/ychen/pdf/DaDianNao.pdf

DNN: DaDianNao(中国CAS):構成 ‘14/12月

北海道大学 大学院情報理工学研究科

DaDianNao32MB e-DRAM

*2

EIE10MB SRAM on Chip

34

103 105104

106

109

103

入力次元数(x) :処理対象画素数+データ数

(1x32x32) (1x100x100) (3x224x224)

*1:DNN 全結合型もしくは、畳込み層が非共通パラメータ型。尚、CNNは共通パラメータ方式*2:DRAM混載を場合の目安/CASのDaDianNao 256Mbit→16Mパラメータ(16bit)*3:NMTの入力数は次段との積のルートとしプロット

1M

1G

1k

Byte16メモリ容量

DNN (F型)*1

CNN (CF型)

CNN (C型)

パラメ

タ数( )y

GoogLeNet22

ResNet34ResNet152

NiN

CIFAR-101. ResNet1102. All CNN173. Hex Kernel4. NiN17

ネットワークモデルとパラメータ(メモリ容量)

ImageNetMNIST LFW

北海道大学 大学院情報理工学研究科

画像認識(CNN):高精度化の流れ

35

ILSVRC/ImageNet Top5 エラー率

パラ

メー

タサ

イズ

(バ

イト

20% 10% 5%

1M

10M

100M

1G

A

V

G

R

2012年

2014年

A: AlexNet8V: VGGNet19G: GoogLeNet22R: ResNet152S:SqueezeNet10

2015年

0.5W

10W

100W

0.1W

CF型:畳込み層+全結合層型C1型:畳込み層主体型(1層の全結合層)C0型:畳込み層主体型

2%

G

消費

電力

(チ

ップ

当た

り)DaDianNao: Super Leaning Chip

EIE: Efficient Inference Engine

高精度化(モデル)

ボードワールド

チップワールド

(NViDia Drive PX2)

DaDianNaoe-DRAM32MB

e-SRAM 10MB

外部DRAM

EIE

DC: Deep Compression

120x

36

- ディープラーニングの最新動向

- ディープラーニングチップの最新動向

- ディープラーニングチップ実装の勘所

- その圧縮(Sparsity)と量子化技術

- ディープラーニングのシステム例

- まとめ

内容

北海道大学 大学院情報理工学研究科37

圧縮技術の流れ ~2015年後半から激化~

Rd �V <Y1P

�2�

�@

��

MG

ö��-�?÷

����-

�?�¯¯¨¬¦ ���

Öõã

y

�7�O

&`�N���� ���

����Ā

����-

×óÑéõð

�W$

�¯¯¨¬¦

����X

*!æÌðÛõ ö�·���·�~

�¯®µ,ÅìØíõð

���,Å)�|X�a

kmNËÝç

#,�ö���,~

äîëõÛ8¼

[

����

�¯¯¨�¦�¦³Æ

+x�

�¦²�¦³pj#8

����-

��?

����

����-

�?

ìóßï

Ðõð$

Õòó

åË$

��ø äîÅÈ� �¾

>:Æ'8¿'hZÆ

�³¯¤©¢²³ª¤Ä»�Êt3

���ø �� É��0Ä

� �½ôôô��

�a

ìã

Íð

&US ���

�����������

Â'i¿

�0Æ�­¢¨¦®¦³Â

Ci

����-�?

����-

��?

����

���

I,&`Ä�[�À¾

]@Ê�����Ä+x¾

�³¯¤©¢²³ª¤Ä�O�a

ÙäÍÒóÔ

ýýÃI,&`

ÃÅAÀE���

úýý

�����sP

����-�?

äîëõÛ _

}�¦¦°

�¯­°±¦²²ª¯®~

����-

�?

ÙÛó

æÏõà$

���$

ýÿüûüù

�±´®ª®¨}4^ÅTQ~

&`

¡¦ª¨©³Åw%��×ÎË

�´§§­¢®|�¯¥ª®¨

�a

ìã

Íð

ìãÍðÇÅ

$fD

âÝß5o

��Ā

���

�¬¦·

 ��

��}���~'e

���\�

����-�?

�£ª³�

öw%�÷

����-

�?

�¯¯¨¬¦

�¦³¦¡¢¥¦®

'cÅÈ

��£ª³}H�÷���

�£ª³98LZ}�����~

�a

Öõã

ÖÍÓð8ËÝç

ìãÍðsPÉ

gv

�Ā�

�¦®²¯±�¬¯¶

�x�

��þÜÝçRd

����-�?

�¸¢®¢­ª¤

���£ª³

}w%�~

����-

���?

����¦´µ¦®$

Jb$&

w%��,F

*8BÊl9}Jb$÷

ìãÍ

ðìãÍðÇÅsP

���ñèð

Jb$&ö����~

����-

�?

�����

����

� ����

"u����nq�=

òÙñÙ _ô�/

öîóñóÔÙ÷

�a

ìã

Íð

ÍëõØÞõÛÅ

_||������

��®­�¦²³�©ª°

Ci�È

���|����¢³¤©|�¯±­¢¬ª¹¢³ª¯® ��|���ø�°ª«ª®¨|�¦´±¢¬½�¦³¶¯±« ���ëìïw _Å�@ö(��£ª³~

<Y�z

ÞõÛ _

òÙñÙ

ãÍáïõ�

��ø�ª®¢±¸

�¯®®¦¤³

ô

���ø

�ª®¢±ª¹¦¥|��

ö���É

Á;.÷

äîëõÛ8�K

öìÞðÅ6�÷

�7ô{r�|ìÞð

äîñïÚê

ä

î

ë

º

Û

ô

Þ

º

Û

å

Ý

ß

º

_

º

(2016年6月時点の状況)

北海道大学 大学院情報理工学研究科38

エッジ

サーバ

脳神経科学

2013 2014 2015 2016

GPGPU

FPGAへ(動向)

サーバCatapult SiP (Xeon+FPGA)

Heidelberg大(Spikey:欧州HBP)

Stanford大(NeuroGrid)

ニューロモルフィック

(a)

(c) Intel+Altera(買収完 )

MS

Intel

検索エンジンBingAltera

Xilinx IBMTeraDeepへ投資FPGA+QualcommQualcomm

M40 P100NVIDIA(TegraK1) (X1)

(発表時)

K80Tesra K40

全般

(b)

Manchester大(SpiNNaker-ARM:HBP)

汎用

ロボット

スマホ

スマートグラス

IoT

ドローン

Synopsys (IP:CNN)MIT(Eyeriss:CNN)

TeraDeep (n-XX FPGA:CNN)

CAS(DaDianNao:リコンフィグ CNN/RBM)

ニュ

ーロ

チッ

プAS

IC

K(DL/DI:学習)

CAS(ShiDianNao)CAS(Pu-)

Qualcomm/Zeroth(IP: STDP )K (HMD/AR)

MO (Myriad 2)

K(IoE:CNN)

SD820 SDKK(UI/UX: AR)

K(RL)

K(RNN) NV(PX)

MO(Fathom)

NV DrivePX2→MO+DJISnapdragonFlightデンソー(TegraK1)

デンソー(FPGA)

K(AR)

Cadence (IP)

TS (A-Eye:CNN)→ST (EIE:DNN)

CAS(DianNao)

2017

CAE (Origami)

UT・HP(ISSAC)

STM (Orland)

TSB(TDNN)

KU-L

K(RNN)

AI戦略(4社買収)

Google (TPU) IP化

K(UX/UI)

FPGA+Power(IBM)SiP (DRAM+FPGA)

KU-L(ENVISION)

MI (DLAI)

IBM(TrueNorth・Simulator:DARPA)

(デイバス:IEDM)

Now

IBM ( )

FINN

Arria10/Stratix10

Lakecrest

CAE(Yoda)

疎圧縮・量子化のトレンド

エッジ系GPU/DSPコア Vector VLIW Processor○ 出典:学会、論文、電子情報

○ HBP:欧州Human Brain Project, DARPA:米 国防高等研究計画局、NV:NVIDIA社, K:韓KAIST, MO:米Movidius社, CAS:中国科学院 Chinese Academy of Sciences、I:Intel, DJIは中国ドローン最大手, TS:清華大学、ST:Stanford大学

○ CNN:Convolutional Neural Network, RNN(Recurrent NN), RL(Reinforcement learning:強化学習)、DC:Deep Compression○ TDNN: Time Domain NN 学習・・・下線(KAIST+サーバ系+DaDianNao) TPUは実行専用

ニューロモルフィック系

8-3bit 2-1bit

北海道大学 大学院情報理工学研究科39

圧縮技術の展開 狙いは? モバイル! 2016年

20162015

Tensorflow (量子化 8bit整数)

TPU公表

TPU ASIC Test運用

Alpha Go GNMTへ適用Street View他

NMT(ニューラル機械翻訳)NMT

Pruning Deep Compression(Pruning古くは1989年)

IoT

SqueezeNet

TPUTensorProcessingUnit

DeepCompression

StanfordUniversity+

Google

5月

5

7→2/’17 103

610?

4210

方式 LSI実装 実用・展開 数字は公開月

EIE実装(CADベース)

5

GreenWave社

北海道大学 大学院情報理工学研究科40

n出展(参考):スタンフォード大学+, Son Han+, “Deep Compression: Com—”, http://arxiv.org/pdf/1510.00149.pdf 20160215.

Deep Compression 1. 全体

Step1: Pruning Step3: クラスター化(値) Step4: ハフマン符号化

学習

Pruning(閾値)

再学習(十分に) 9x 27x 35x

劣化無し

劣化無し

劣化無し

重みクラスター化

コードブック

重みの量子化

再学習

符号化(重み)

符号化(インデックス)

(量子化)

Step2: 圧縮列格納(位置)重み

Step5: ゼロスキップ入力データ

Deep Compression

北海道大学 大学院情報理工学研究科41

Deep Compression 2. Pruning

n出展(参考):スタンフォード大学+上海大+NVIDIA, Son Han+, “Deep Compression: Com—”, http://arxiv.org/pdf/1510.00149.pdf 20160215.

Neuron (Retraining後)

-0.02 0.02

±0.015

10

しきい値

-0.02 0.02

1 ±0.025接続

< Pruning (1/9) >

(a) ネットワーク (b) 重みの分布

パラメータの分布

北海道大学 大学院情報理工学研究科

演算

EIE実行時

42

Deep Compression 3. 圧縮の流れと実行(演算)

Pruning

32bit

32bit

32bit

重み

(接

続)数

x1/9

1/9

n出展(参照):Son Han+, “Deep Compression: Com—”, http://arxiv.org/pdf/1510.00149.pdf 20160215.

CSC : Compressed sparse column

Clusteringx1/27

1/27

<量子化>

=8/5bitConv/FC

32b

<量子化>

288個+

5.4bit/4bit

Codebook

4bit

(a)

(b)

圧縮列格納

位置Sparse Indexes

32bitビット数

重み 32bit

ノンゼロ・ディテクト

学習時(オフサイト)

解凍

+16%

4bit

CSCコード

Sparse Indexes

/4bit

平均4bit 3.2bit

ハフマン符号化

x1/35

1/35

4/3.2

演算平準化

1/3

北海道大学 大学院情報理工学研究科43

n出展:スタンフォード大学+NVIDIA, Son Han+, “EIE: Efficient Inference Engine—”, http://arxiv.org/pdf/1602.01528v2.pdf 20160503.

Address accum.(相対→実番地)

Output Act. read Add Output Act Write

Codebook lookup Input Act. multi Shift

4 Stage 1.15ns (Critical Path)

Act Value

Act Index

a 16bit

j範囲

Iij

Indexrow#32kB

128KB

2KB

Deep Compression 4. PEの回路構成

北海道大学 大学院情報理工学研究科44

KU.ルーベンB. Moons

nDynamic(精度とパワーの制御)スケーリングnエネルギー効率(0.26~10TOPS/W)⇒Always On

nエネルギー効率改善:Eyriss x1.5, Moons x8.2① (Q-)Dynamic量子化(16bit〜4bit変換: 各Layer毎:負荷とデータ)② Subword DVAFS方式⇒x40のパワー(精度)スケーラビリティ

n精度↓(8b/4bit) →MACの未使用部分使用→周波数↓)③ FD-SOI

ISSCC’17 14.5:ENVISION: A 0.26-to-10TOPS/W Subword-Parallel Comp. Accuracy-Voltage-Frequency-Scalable CNN Processor in 28nm FDSOI

Dynamic(瞬時)な精度アップが可能

B. Moon, 20160322, Arxiv:1603.06777v1

顔(150x150x3)識別 5670人(クラス) 90-95% - Alex Conv: 47fps 44mW(1.87mm2)- VGG Conv16:1.7fps 26mW

量子化 1. CNN・・・(ENVISION) ISSCC’17/14.5

Always On

北海道大学 大学院情報理工学研究科

エネルギー効率改善 (量子化と低電力化)

45参考:ISSCC 2017 14.5 KU.ルーベン, B. Moons 他

Alex Conv 44mW@47fps ⇒ 102 GOPS/sec 2.3 TOPS/W (4-6b)VGG16 Conv [email protected] ⇒ 52.4 GOPS/sec 2.0 TOPS/W (4-6b)

EIE/DC

14.2 DNPU

14.6UX/UI

Eyeriss

0.110G 100G 1T

エネ

ルギ

ー効

率(TO

PS/W)

1

10

実・演算性能 (OPS/sec)1G

ShiDianNao

10T

16bit--- 300mW 1.05V

3-4bit---7.5mW 0.63V

4bit8bit16bit

Always On Mobile

40x

IoE

DaDianNao

DL/DI

UIUX

TPU

100T

14.5 ENVISIONSubword-DVAFS

75GOPS/s一定

14.1 OrlandDVFS

VLSI2016

北海道大学 大学院情報理工学研究科46

KU.ルーベンB. Moons

ENVISION: A 0.26-to-10TOPS/W Subword-Parallel Comp. Accuracy-Voltage-Frequency-Scalable CNN Processor in 28nm FDSOI

VGG16 based

量子化とアプリケーションの関係

北海道大学 大学院情報理工学研究科47

KAISTD. Shin

ISSCC’17 14.2 DNPU: An 8.1TOPS/W Reconfigurable CNN-RNN Processor for General-Purpose Deep Neural Networks

nDNPU(Deep Neural Processing Unit)・・・4つの特徴ØConv +FC:ヘテロ型再構成ØConv: Tileの最適化(VGG16>13:Image→Mix→Channel)ØConv:データ/オンライン調整(ワード/小数部)、重み/LUTØRNN:Q-Table型乗算(4bit量子化と積結果の事前Q-Table)

畳込み層Conv

全結合層FC+LSTM

CNN

Configurability

Low Power

量子化 2. CNN+RNN・(DNPU) ISSCC’17/14.2

北海道大学 大学院情報理工学研究科

コア:240x390um2 (日経エレ)

IBM論文の補足資料:http://www.sciencemag.org/content/345/6197/668/suppl/DC1

48

Controller

Neuron

Router パケット

11・

・01

00・

・00

01・

・00

・・・・・・・・・・・・

11・

・01

t=0の

1ms内の

動作 Memory

256時分割(1ms内)

Local channel

N0 N255

・・・・・・・・・・・・

Crossbar256x256

CoreScheduler

Axon ベクター:A(t)Axon マトリクス 256x16

12T SRAM

10・

・10

01・

・00

10・

・01

A(15)

・・・・・

Local Timer- 4bit(1-15) -1msStep→16ms

Global Time1kHz (1msec)

A0

A255

ωi2ωi255

固定値:SjGi

A(0)

↓i

ωij

A(1)

→j

→j↓i

256x256(Synapse)

256入力(Axon)

256出力(Neuron)

Σ Ai(t) x ωi0 x S0Gi Σ(Ai(t) x ωi0 )×S0

Gi -L > Thr →Fire(Spike) or Reset →MemorySynapse & Leak Integration Threshold, Fire and Rest Spike

Updated VM(20bit)

メモリ情報(256x410bits)①演算情報ニューロンパラメタ

- 状態電位:VM、リークλ- シナプス係数:Sj

Gi (4種:9bit)256x124bit②パケット情報- ターゲットアドレス 26bit *2- Axon遅延時間 4bit256x30bit③Synapse接続情報

256x256

Axon情報(256x16 bit)④Axonベクター(位置)

⑤スパイクパケット情報(30bit)

-外部コア番地

X -255---255 →9bitY 同上 →9bit

-Axon番地(0→255) →8bit-Axon遅延(調整*4) 4bit

Memory

Scheduler(Axon)

スパイクパケット

updated

固定値

【参考】 Spiking Neural Network: TrueNorth/IBM

北海道大学 大学院情報理工学研究科49

圧縮技術 内容 まとめ:3bit以上 含(含む低消費電力化)

2 B 52TW M K eca

SETUMV ag

4k(

xr 4i

4i

4i

)

* *

/*

9A

p rtN* ) FMV

(FMV

IT ET(

mxt

xt20

(

r. y

( ) (* / / * D x ( * )

iSM NM K *

*

2 B

( ) - -7 22 0T MX B9 7 22 7 22 EVWTI

6RRKOI VE RT A 7 807 8A 9 807 71

* )3 A 2 >

7 20 0T MX 7 22 5 60

)FMV> 9

TOE TOE

53 73B5

305 3B05

CIMKLV 0GVM

474 32 4 ITMUU 0 KIO 4 I

0OO

4 B7 7

* )

3 EPMGOM I

srnu

SETUMV

3 EPMGOM I

A 7R4 TWI RTVL

.

0OO0OO 52 EOO 2 B 2 B

v t *

( FMV l o

E M

fh B6

r r

32→8bit

4bit

ReLUb cd

Offline8/4bit

Offline8/4bit

(Fraction Length)Online8/4bitDRMAC

24/16bit

2x

y

LUT�4x

Online-Overflow

Q-table

2x2x3x

北海道大学 大学院情報理工学研究科50

量子化(8bit〜1bit)による Imagenetエラー率の改善nここ1年での進化はすさまじい!

各データはベース値に合わせ調整1:Deep Compression, 2:Angeleye, 3.Squeeze Net, 4:Moon/VLSI’16(Alex), 5:Orlando(Alex), 6:Envision(Alex/VGG16), G: Googlea:Bengio Group(AlexNet), b:TWN(ResNet18), c:YodaNN(ResNet18), d:STD大(Alex/ResNet18)

北海道大学 大学院情報理工学研究科

画像認識(CNN):小型化・低消費電力化の流れ

51

ILSVRC/ImageNet Top5 エラー率

パラ

メー

タサ

イズ

(バ

イト

20% 10% 5%

1M

10M

100M

1G

A

V

G

R

2012年

2014年

A: AlexNet8V: VGGNet19G: GoogLeNet22R: ResNet152S:SqueezeNet10

e-DRAM32MB

2015年

e-SRAM 10MB 0.5W

10W

100W外部DRAM

0.1W

CF型:畳込み層+全結合層型C1型:畳込み層主体型(1層の全結合層)C0型:畳込み層主体型

2%

GDaDianNao

EIE

消費

電力

(チ

ップ

当た

り)

120x

DaDianNao: Super Leaning ChipEIE: Efficient Inference Engine

高精度化(モデル)

(60000x)510x2016年

S+DC

ボードワールド

チップワールド(Movidius/Myriad2)

(NViDia Drive PX2)

DC: Deep Compression

A+DC V+DC

北海道大学 大学院情報理工学研究科

画像認識(CNN)のモバイルデバイスへの展開

52

EIE (Stanford大学+NViDia)

0.5W

NearFeature

10W

DaDianNao(中国CAS)

0.05W

IoEチップ(KAIST)

ISSCC2016 (2月)

2016年5月

2014年12月

EIE:Efficient Inference Engine

0.04W

ENVISION(KU-L)

ISSCC2017 (2月)

1mm2

北海道大学 大学院情報理工学研究科53

TPU (Tensor Processing Unit)

n出展:Google 20170416: https://arxiv.org/pdf/1704.04760.pdf

n2015年チップ、データセンターで使用中-2013年当時、将来の稼働逼迫を予測 (実行専用) -Sparsity対応は時間が無く対応できずとコメント

nコア部8bit, 64kMAC、700MHz⇒92TOPS/s28nm, 300mm2(推定),75W→220W(含DRAM)

北海道大学 大学院情報理工学研究科54

チップサイズと性能比較(Peak値:ほぼ理想値)

チップ面積 (mm2)

演算

性能

(TOPS/s)

101 100 1000

DaDianNao16b/10W(16W)

Orland8b/0.80W面積 x0.3 推定

10

1

0.1

10092TOPS/sはピーク性能チップ面積(300mm2)は推定単体TDP75W

EIE4b+/0.59W

注:28nm, 700MHzに単純比例 TPU8b/200W

ENVISION16b/0.30W

Eyriss16b/0.28W

SiDianNao16b/0.32W

外部DRAMe-DRAM

e-SRAM

x30 Sparsityx10 Weightx3 DataX4 Subword

利用

4b

55

- ディープラーニングの最新動向

- ディープラーニングチップの最新動向

- ディープラーニングチップ実装の勘所

- その圧縮(Sparsity)と量子化技術

- ディープラーニングのシステム例

- まとめ

内容

北海道大学 大学院情報理工学研究科56

mlp: 自動車保険会社(AXA)の大損失予測

n出展:アクサダイレクト 20170329 Google Proud Platform (Kaz Sato)https://cloud.google.com/blog/big-data/2017/03/using-machine-learning-for-insurance-pricing-optimization?1490806008189=1

10 6 3 2

年齢のレンジ

地域

保険のランク

車の年式

70

・・

・・

・・

・・

・・

nアクサダイレクト(日本)nラージロス予測(100万円以上)

nTensorFlowØmlp 入力次元数〜70

Ø78%の精度

Ø値段の最適化に寄与Ø新しい保険の種類

(ex. リアルタイム保険)

Ø古典機械学習:Random ForestØ40%以下

北海道大学 大学院情報理工学研究科 Copyright(C) 2015 STARC All Rights Reserved. 57n出展:NVIDIA M.Bojarski, 20160425, “End to End Learning for Self-Driving Cars”, http://arxiv.org/abs/1604.07316

CNN:EtoE Learning for Self-Driving NViDia 20160425

n End to End Learning for 自動運転・・・原理は至って簡単!Ø この方法 ⇒ ハンドルの角度(~ -5度, -1度°, 0度, 1度, 2度, 3°~ )

ハンドル角度 (ドライバ)

-0.73度 -0.01度 -0.35度

視野(ドライバー)

n従来⇒ 白い自動車、白線、ランプ、山、陸橋、掲示板、赤い車・・・

n人間の運転を原理的に100%模倣できる(ただし、100%は越えない)?!

北海道大学 大学院情報理工学研究科58

n出展:NVIDIA M.Bojarski, 20160425, “End to End Learning for Self-Driving Cars”, http://arxiv.org/abs/1604.07316

明るい部分~CNN対象領域 (66x200 YUV)水平ラインより下が対象

250kパラメータ (解像度取り過ぎ?)

CNN:EtoE Learning for Self-Driving NViDia 20160425

The Udacity Self-Driving Car 2016 (4月〜12月) #1〜#3 CNN+RNNhttps://medium.com/udacity/teaching-a-machine-to-steer-a-car-d73217f2492c

北海道大学 大学院情報理工学研究科59

n出展:Abigail See+ “Compression of Neural Machine Translation – “, http://arxiv.org/abs/1606.09274

nDNNへの応用(全結合):Pruning(1回)• NMT:214Mパラメータ• 結果:80% pruning• x3の圧縮

782→272MB• 他手法

(Lu+, 2016) x4

RNN/LSTM:NMT(ニューラル機械翻訳+圧縮)

北海道大学 大学院情報理工学研究科60

RNN/LSTM:NMT(ニューラル機械翻訳+圧縮)

n出展(参考):Abigail See+ “Compression of Neural Machine Translation – “20160629, http://arxiv.org/abs/1606.09274

4n

nn

4n(LSTM)- Input module- Input Gate- Forget Gate- Output Gate

#Para=4n x 2n= 8n2 (8M個)

2M(attention)

パラメータ

合計

214M 個

n=1000V=50k

RNNのコア部分

V: ボキャブラリー数

Recurrent

Feed-forward

nNeural Machine Translation (ニューラル機械翻訳):スタンフォード大学

50M

ソース言語入力 ターゲット言語入力

2 Stacked RNN

I am a man Je suis homme-

ターゲット言語出力

8M x 2

50M x 2

初期値Context Vector

Je suis homme -学習時の構成

8M x 2

8M x 2

8M x 2

Encoder-Decoderone hot Vector (V)

attention layer

hidden layer1

hidden layer4

分散表現(n)

分散表現(n)

one hot Vector(V)

n: 分散表現 次元数

北海道大学 大学院情報理工学研究科61

CNNと強化学習: Alpha-Go 学習と対戦

n出展:DeepMind Nature 20160128 http://www.nature.com/nature/journal/v529/n7587/full/nature16961.htmlアルファ碁(技術解説)20160617 http://hypertree.blog.so-net.ne.jp/2016-06-17

19x19 CONV層1348マップ(1st)⇒192 (他)3x3 stride 1(主に)

次の一手

CNN

大局観

CNN

指し切り回帰分析

勝率

勝率

2μsec25%

3msec

3msec57%

Value

Fast Rollout

次の手

次の次の手

ロールアウト(指し切りで勝敗)

確率

モンテカルロ・木探索

19x19 CONV層1348マップ(1st)⇒192 (他)+全結合層(1x1) 23x3 stride1(主に)

次の一手(強化版)

+強化学習

RL Policy

次の一手CNN

SL Policy次の一手

CNN

大局観

CNN

学習 実行(対戦)

単に画像認識をしているのみ(常識を学習する能力)!しかも遅い(104倍高速化)

北海道大学 大学院情報理工学研究科62

【参考】 CNNと強化学習:Alpha-Go 詳細情報

°ª

s/čėõ -

@^

`� ���

=

Ø

î

z

ë

§¶ÄÅ

¯Á¾¾ÁÆÅ

®Á¾½·É

"1

�J

�;

±É»¹¿��

Tnqç

;

����

`��ËÄ ��� Í

���«ĉĕđěĀ��¨«¤¥Qj

®Á¾½·ÉĞLç�;γ¶¾Æ¹ �`�çy���X b8Ğ�îMØÔèåÑÓÎuÝÞÕã�zëÛÚ;ò=Ù

°ª �°Æ¹ÃǽŸ�ª¹¶ÃÀ½À»�?0Fî*p����¯ª �¯¹½ÀºÁ÷¹¿¹ÀÅ�ª¹¶ÃÀ½»�4�*p�

¥­¬³�� �¥ÁÀÇÁ¾ÆŽÁÀ¶¾�ª¶É¹Ã�[}ë.�Ó��.��§¥ �§Æ¾¾É�¥ÁÀÀ¹·Å¹¸��m�.����� °¨¦ �°ÅÁ·¼¶ÄŽ·�¨Ã¶¸½¹ÀÅ�¦¹Ä·¹ÀÅ�fX_����P������°ÁºÅ¿¶È Mv�=@�@

�� �µ¹ÃÁ�®¶¸¸½À»�ÿĘ%ì��]�òØâÑïçã��È��Ì��È���ÁÃ���È��òZ������ ��NÓÎV7ďăč@Î�NÓċôĖĀěûõþÎýĆĕõćè�ĜE6ç.è��

�� �+�ç�(�Òí]��|�È��Ê!B�È��ã�h�ç`�ò*pÙï

�� ĖěĖ�é2{Ğ]�S���ÎdÓ�;aĠ���Îdä�mÙï��dç��R�içRğ��Î�ðïc;çdç@���ÎÜç����Î

����<ádç��dç��R���Î<àâüĂĔöò�ðïC���Î<àâüĂĔöò~ðï���Î�P;���ÎÙêâ�������â­À¹�¼ÁÅ�¹À·Á¸½À»������

�� �©¨°��©½Ä¹½¸Á�¨Á�°¹ÃǹÃ� �Kr&Ó� ØâÑÝ#e,-ûõĆ

�� �úĚĊēěĀ#ečĘùĕĐE4äxñðâÑ﮶·¼½�Ĝ©¨°çėěĄôĚùãèóď�NĝÏ�zëòtàâÑïÏ

�� ©¨°ąěĀÞä�*pÓ\YØÝÖäÒíΰªòZÏ°ªã�;Ò=ØÎ×íæĕĚāĐæ�P;ò<ßÐïW9Ĝ`�ĝòOìïÏÜÖÒí®ªã¯Á¾¾ÁÆÅ×Ûâ�XòÞÙÏ

����ÜÖÒí®ªã¯Á¾¾ÁÆÅ×Ûâ�XòÞÙÏÖðã��äG5�çĎóÓ�á�IïÏ �� ĀõÿĐ�±É»¹¿��$ç#e,-ûõĆ

Ē

Ě

Ą

÷

Ė

Ę

H

>

l

��

L�

��

L�.

ĈăĆęěø

ûĚčĖ� ûĚčĖûõþ 4�*p

*p

¥­¬³��

�§¥�

�ŶÀ¼

��������

����

°ªãW9

¯ªã�X

ò:��

+t

C� Lç�;

çf3

û

Č

Í

Í

)

-

w

�¿Ä

¨

®

²

¥

®

²

L

ç

;

'�Ĝ���

¡��DA

£

o�Ĝ���

����

Ĝa���

��

�ĖěĖĝ

��È�� ¢

����a�

çfX

�;?0

F

*p

°¨¦

¥­¬³��

�°ÁºÅ«¶È

��������

����

���-

�����

`�

��

��

�������

©¨°���

óďĂēó

���Nu

Ý

Þ

Õ

ġ

b

8

�g

°ª

®Á¾½·É

�¬´

¯ª

®Á¾½·É

¬´

4�U

#

e BP ?0

�����

`�

³¶¾Æ¹

¬´

���

,®¶·¼½

�X��

k3

���

�¿Ä

n出展:DeepMind Nature 20160128 http://www.nature.com/nature/journal/v529/n7587/full/nature16961.htmlアルファ碁(技術解説)20160617 http://hypertree.blog.so-net.ne.jp/2016-06-17

63

- ディープラーニングの最新動向

- ディープラーニングチップの最新動向

- ディープラーニングチップ実装の勘所

- その圧縮(Sparsity)と量子化技術

- ディープラーニングのシステム例

- まとめ

内容

北海道大学 大学院情報理工学研究科

DaDianNao32MB e-DRAM

*2

EIE10MB SRAM on Chip

64

103 105104

106

109

103

入力次元数(x) :処理対象画素数+データ数

(1x32x32) (1x100x100) (3x224x224)

*1:DNN 全結合型もしくは、畳込み層が非共通パラメータ型。尚、CNNは共通パラメータ方式*2:DRAM混載を場合の目安/CASのDaDianNao 256Mbit→16Mパラメータ(16bit)*3:NMTの入力数は次段との積のルートとしプロット

1M

1G

1k

Byte16メモリ容量

DNN (F型)*1

CNN (CF型)

CNN (C型)

パラメ

タ数( )y

GoogLeNet22

ResNet34ResNet152

NiN

CIFAR-101. ResNet1102. All CNN173. Hex Kernel4. NiN17

アプリケーションとパラメータ(メモリ容量)との関係

ImageNetMNIST LFW

北海道大学 大学院情報理工学研究科65

実用化(エッジ)にむけた動きと課題

北海道大学 大学院情報理工学研究科

まだ頂きの2~3合目に来たばかり(Beyond Deep Leaning)

66

半導体の出番

第二の?!

2012年 2016年

DeepLearning

北海道大学 大学院情報理工学研究科67

最後に 〜今後の課題〜

n課題・・・パターン認識/系列処理p CNN(畳込み層のみ)・・・画像認識

l 人間並み、50mW ⇒ 1fps程度の能力(遅すぎる)

p DNN(全結合)・・・例えば 自動翻訳、音声認識

l 5万単語(教養人並み)⇒大きなバリア(数W〜数10W)p 高速技術(精度と速度のトレードオフ:レイテンシー)

p NVM、アナログメモリ、高度の表現力(シナプス、ニューロン)l SRAM 200F2 vs. ReRAM 4〜6F2⇒ 2F2

p 未来予測機(Prediction、Generation)がほしい!

p 選択・統合能力(Organize)、環境学習能力(常識獲得)

p ワンショット学習/オンライン学習、 /教師無し学習、ノイズ対応

n注目・・・一段レベルアップが期待される技術

n現状・・・ディープラーニングチップも昨年より本格化!!!p 疎圧縮、量子化、およびリコンフィギュラビリティー

Let’sEnjoyAI!!

68

以上

ご清聴有り難うございました。