公司报告 - xqdoc.imedao.comxqdoc.imedao.com/159c129273a68163fc824b4f.pdf · 1977...

70

Upload: others

Post on 20-May-2020

14 views

Category:

Documents


0 download

TRANSCRIPT

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 1

谷歌(GOOGL.US)

证券研究报告

2017 年 01 月 05 日

投资评级

6 个月评级 买入(维持评级)

当前价格 808.01 美元

目标价格 920 美元

上次目标价 920 美元

作者

何翩翩 分析师 SAC 执业证书编号:S1110516080002 [email protected]

雷俊成 联系人 [email protected]

马赫 联系人 [email protected]

关注我们

扫码关注

天风证券

研究所官方微信号

谷歌人工智能深度解剖: 从 HAL 的太空漫游到 AlphaGo,AI 的春天来了

人工智能驱动的年代到了—谷歌以 AI 为本,融入生活,化不可能为可能

早在 1968 年斯坦利库布里克作品《2001:太空漫游》里的 HAL9000,到1977 年《星球大战》里的 R2-D2,到 2001 年《AI》里的 David,到最近《星战:原力觉醒》的 BB-8,数之不尽的电影机器人,有赖好莱坞梦想家前瞻性的创作将我们与人工智能的距离拉近。

从 AlphaGo 跟李世石围棋博弈技惊四座,到各款智能产品,包括 Google Home、谷歌助理和云计算硬件等,谷歌正式确立了以人工智能优先的公司战略。AI 业务涵盖了从硬件到软件、搜索算法、翻译、语音和图像识别、无人车技术以及医疗药品研究等方面。这些业务充分展示了谷歌不断在人工智能(Artificial Intelligence)里的机器学习(Machine Learning)以及自然语言处理(Natural Language Processing, NLP)上的精益求精。作为全球科技巨头,谷歌积累超过 10 年的经验,并不断在学术界招揽最优秀的团队。谷歌构建完善的智能生态圈,将 AI 渗透到每个产品中,抱着提升服务质量、改变人类生活习惯与效率的使命,将省却下来的时间去做更有意义的事。

AI 终极目标为模仿大脑操作,GPU 促进 AI 普及,但三大难题仍需解决

人工智能的最终目标就是要模仿人类大脑的思考和操作,但现在较成熟的监督学习(Supervised Learning)却不是走这个模式。本质上现在的深度学习(Deep Learning)与 20 年前的研究区别不大,不过现在的神经网络(Neural Networks)能够部署更多层数、使用更大量的数据集去训练模型和在原来的算法基础上作出更多的附加算法和改良。而 GPU 的使用也促进了算法的多样化和增加了找到最优化解决方案的概率。但最终无监督学习(Unsupervised Learning)才是人类大脑最自然的学习方式。

我们认为在过去 5-10 年里,人工智能得以商业化和普及,主要鉴于计算能力的快速增加:1)摩尔定律(Moore’s Law)的突破,让硬件价格加速下降;2)云计算的普及,以及 3)GPU 的使用让多维计算能力提升,都大大促进了 AI 的商业化。

机器学习目前存在的三大难题:

1、需要依靠大量数据与样本去训练和学习;

2、在特定的板块和领域里(domain and context specific)学习;

3、需要人工选择数据表达方式和学习算法以达到最优化学习。

谷歌市值给严重低估,探月业务的崛起将迎来新一个黄金十年

本文我们将详细梳理谷歌人工智能核心技术,为大家解密谷歌背后的灵魂和骨干。对于公司的盈利核心,是以人工智能驱动的搜索和广告业务。虽然广告业务依然占营收的 90%,但随着 Other Bets 业务在 3-5 年内崛起,谷歌将迎来新一个黄金十年。现在市场上一直将 Facebook 与谷歌对标。谷歌 2017 年 PE 为 19x,相对于 FB 的 22x,我们认为谷歌给严重低估。谷歌广告业务里,移动占比的增加相对 PC 占比的减少属新常态过渡期。而 2B云计算和 YouTube 的巨大增长潜力和在人工智能的发展上对比 FB 亦遥遥领先。探月业务的高速营收增长也证明了谷歌的创新能力有增不减。依靠人工智能的厚积薄发和探月业务将在 3-5 年内逐一崛起,谷歌长期可视为VC 投资组合,哪怕只有一两个项目成功,未来市值也可获较大上翻。我们认为 2017 年 23x PE 较合理,目标价格为 920 美元,“买入”评级。

风险提示:广告业务收入增长不及预期,探月计划研究发展受阻,人工智能市场发展和落地不及预期等。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 2

内容目录

1. Google I/O 开发者大会,以 AI 为本 ......................................................................................... 7

1.1. CEO 开场主题:以 AI 为产品骨干,化不可能为可能 ........................................................ 7

1.2. 谷歌助理(Google Assistant):人工智能语音助手 ............................................................... 9

1.3. Google Home:与亚马逊 Echo 的正面交锋 ........................................................................ 10

1.3.1. 行业领先者:亚马逊 Echo 音箱 .................................................................................. 11

1.3.2. 国内智能语音行业领先者:科大讯飞叮咚与 X1 智能音响 ............................... 13

1.3.3. Google Home、亚马逊 Echo 和科大讯飞叮咚的 PK ............................................ 14

1.4. 两款没有太多惊喜的新聊天应用:Allo 和 Duo ................................................................ 18

1.4.1. Allo .......................................................................................................................................... 18

1.4.2. Duo .......................................................................................................................................... 19

1.4.3. 竞争对手产品:Facebook 的 Whatsapp 和 Messenger、腾讯的微信和 QQ、苹果的 Facetime 和 iMessage、Snapchat 以及谷歌早前的 Hangouts ...................... 19

1.4.4. Allo 和 Duo 正式发布 ....................................................................................................... 20

2. 谷歌的灵魂和骨干:人工智能技术 ......................................................................................... 21

2.1. Google Brain 神经网络项目 ....................................................................................................... 21

2.2. 第二代机器学习开源平台:TensorFlow ............................................................................... 22

2.3. 谷歌的最新搜索算法:RankBrain ........................................................................................... 24

2.4. 谷歌无人车还是谷歌司机 .......................................................................................................... 24

2.4.1. 日趋激烈的无人车市场 ................................................................................................... 27

2.5. 机器学习和机器视觉的结合:图像识别 .............................................................................. 28

2.6. 自然语言理解开源平台:SyntaxNet ...................................................................................... 30

2.7. 自然语句理解和机器翻译:Gmail / Inbox 智能回复 ....................................................... 31

2.8. Allo 智能回复背后的 AI ............................................................................................................... 32

2.9. 谷歌翻译:机器翻译系统与图像识别 ................................................................................... 34

2.9.1. 神经机器翻译系统 ............................................................................................................ 34

2.9.2. 融入了图像识别的谷歌翻译 ......................................................................................... 36

2.10. AlphaGo 背后的大师:DeepMind ........................................................................................ 36

2.10.1. 九段围棋高手:AlphaGo ............................................................................................. 36

2.10.2. AlphaGo 的系统可以分为 4 个部分: ..................................................................... 37

2.10.3. AlphaGo 的离线学习和线上对弈过程 ...................................................................... 40

2.11. DeepMind 之 Deep Q-Network (DQN):模仿人脑海马体的经验回放 ................... 42

2.12. DeepMind 应用到麻将上又会怎样? ................................................................................... 44

2.13. DeepMind 推出文本转语音系统 WaveNet ........................................................................ 44

2.14. DeepMind 运用图像识别技术的医疗探索 ......................................................................... 45

2.15. 大规模机器学习应用于药物发现 .......................................................................................... 46

2.16. 融合了计数机视觉的 YouTube 视频缩略图 ...................................................................... 47

2.17. 机器学习计算能力的终极解决方案:量子计算 .............................................................. 48

2.17.1. 量子计算是啥?具体用来干嘛? .............................................................................. 48

2.17.2. 量子电脑的历史 .............................................................................................................. 50

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 3

2.17.3. 谷歌的量子计算机之路 ................................................................................................ 51

2.18. 自行研发的 AI 硬件:张量处理单元 TPU .......................................................................... 52

2.18.1. 谷歌为 AI 专门研发的硬件:TPU ............................................................................. 53

2.18.2. 人工智能的推进器:GPU ............................................................................................ 53

2.18.3. GPU vs CPU+可编程的 FPGA ...................................................................................... 56

3. 2B 业务盛妆待发:Firebase 与云计算 .................................................................................... 57

3.1. 全新的 BaaS Firebase ................................................................................................................... 57

3.2. Diane Greene 挂帅的谷歌云计算 ............................................................................................. 58

4. CCAI 2016 中国人工智能大会实录 .......................................................................................... 61

4.1. 会议摘要 .......................................................................................................................................... 61

4.1.1. 中科院副院长谭铁牛《关于人工智能发展的思考》主题演讲 ......................... 61

4.1.2. 微软人工智能首席科学家邓力《驱动大数据人工智能多种应用的三类深度学习模式》主题演讲 ......................................................................................................................... 62

4.1.3. 分论坛讨论摘要 ................................................................................................................. 64

4.2. 与 Tomaso Poggio 教授的访谈................................................................................................ 66

图表目录

图 1:谷歌股价走势和重要事项:从 2004 年 8 月 19 日到现在 .................................................... 7

图 2:谷歌 2016 I/O 大会现场 .................................................................................................................... 8

图 3:皮查伊介绍谷歌助理 .......................................................................................................................... 8

图 4:谷歌助理进入所有产品 ..................................................................................................................... 8

图 5:五大智能助理的功能对比 ................................................................................................................. 9

图 6:Siri、谷歌助理、百度度秘提问测试对比 .................................................................................. 10

图 7:Google Home 在大会里的展示 .................................................................................................... 10

图 8:Google Home 有 7 种颜色底座可供选择 .................................................................................. 10

图 9:Google Home 产品宣传图 ............................................................................................................. 11

图 10:Google Home 将和亚马逊 Echo 一争高下 ............................................................................. 11

图 11:Google Home2 个麦克风设计 .................................................................................................... 11

图 12:Echo 的 7 个麦克风矩阵:远程语音识别 ............................................................................... 11

图 13:Google Home 多房间支持 ........................................................................................................... 12

图 14:亚马逊 Echo 及无线遥控器 .......................................................................................................... 12

图 15:科大讯飞叮咚智能音箱 ................................................................................................................. 13

图 16:科大讯飞 X1 智能音箱 ................................................................................................................... 13

图 17:亚马逊 Echo 音箱主要零部件拆解 ............................................................................................ 14

图 18:科大讯飞叮咚的主要零部件 ........................................................................................................ 15

图 19:Google Home、亚马逊 Echo 与科大讯飞叮咚功能比较 .................................................. 15

图 20:亚马逊 Echo 零部件解析 .............................................................................................................. 16

图 21:叮咚智能音箱麦克风 ...................................................................................................................... 16

图 22:谷歌语音识别神经网络模型示意图 .......................................................................................... 16

图 23:语音识别的一些开源软件及对比 .............................................................................................. 17

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 4

图 24:Alexa 语音控制服务 Alexa Voice Service ................................................................................ 17

图 25:Alexa 基金资助的技术公司 .......................................................................................................... 17

图 26:Allo 新功能展示 ............................................................................................................................... 19

图 27:Duo 新功能展示 ............................................................................................................................... 19

图 28:Allo 与各大聊天软件的功能比较 ............................................................................................... 20

图 29:Allo 功能预览 .................................................................................................................................... 21

图 30:神经网络深度学习方法示意图 ................................................................................................... 22

图 31:谷歌 TensorFlow 的监督机器学习(supervised learning)训练与测试运行流程 .......... 23

图 32:Tesorflow 的部分编程 .................................................................................................................... 23

图 33:编程反应处理图(computation graph) ...................................................................................... 23

图 34:谷歌无人车的 3D LIDAR 图像 ..................................................................................................... 25

图 35:LIDAR 扫描车身周围环境示意图 ............................................................................................... 25

图 36:谷歌无人车识别超过 100 辆自行车 ......................................................................................... 26

图 37:谷歌无人车识别车道封闭情况 ................................................................................................... 26

图 38:谷歌无人车专利图示 ...................................................................................................................... 26

图 39:谷歌无人车专利图示 ...................................................................................................................... 26

图 40:Uber 公布旗下无人车技术官方照片 ........................................................................................ 27

图 41:疑似装有无人驾驶部件的雪弗兰电动车 ................................................................................. 27

图 42:谷歌 Waymo、德尔福、本田 NeuV 智能汽车 ..................................................................... 28

图 43:谷歌图片识别原理图 ...................................................................................................................... 28

图 44:谷歌图片搜索功能展示 ................................................................................................................. 29

图 45:谷歌图片识别功能演示 ................................................................................................................. 29

图 46:谷歌人工标记的语句依存分析树 .............................................................................................. 30

图 47:SyntaxNet 神经网络语义判断决策流程 .................................................................................. 30

图 48:谷歌 Gmail 智能回复功能展示 ................................................................................................... 31

图 49:谷歌 Gmail 智能回复神经网络 ................................................................................................... 32

图 50:神经网络将问句三个单词生成 3 个口令 ................................................................................ 33

图 51:谷歌语音识别神经网络的输出示意图 ..................................................................................... 33

图 52:神经网络将问句三个单词生成 3 个口令 ................................................................................ 33

图 53:谷歌语音识别神经网络的输出示意图 ..................................................................................... 33

图 54:谷歌翻译、有道翻译、百度翻译实例对比 ............................................................................ 34

图 55:谷歌神经机器翻译系统(GNMT)翻译机制 ............................................................................... 35

图 56:满分 6 分记,人类翻译、谷歌神经翻译与 PBMT 的得分对比 ....................................... 35

图 57:谷歌翻译摄像头即时翻译功能展示 .......................................................................................... 36

图 58:AlphaGo 的神经网络 ...................................................................................................................... 37

图 59:《自然》杂志论文中表格 7 的数据 ............................................................................................ 38

图 60:AlphaGo 中的蒙特卡洛树搜索示意图 ..................................................................................... 39

图 61:AlphaGo 版本 18 跟版本 13 和其他电脑围棋软件的对比 ................................................ 40

图 62:Demis Hassabis 和李世石在赛后举起签了名的棋盘 .......................................................... 40

图 63:AlphaGo 系统原理图解 ................................................................................................................. 41

图 64:DQN 中卷积神经网络从游戏图形输入到动作控制的示意图 .......................................... 42

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 5

图 65:DeepMind 开发的 3D 迷宫游戏 Labyrinth 界面 ................................................................... 43

图 66:WaveNet 每秒要处理 16000 个样本 ........................................................................................ 44

图 67:每一个样本都被用来处理预测下一个样本 ............................................................................ 44

图 68:WaveNet 与传统文本转语音以及人声的自然程度评分 .................................................... 45

图 69:视网膜扫描图像 ............................................................................................................................... 46

图 70:视网膜光学相干断层扫描(OCT) ................................................................................................. 46

图 71:实验数据的增加将虚拟药物筛选的平均预测准确度提高至 79%以上 .......................... 47

图 72:YouTube 视频缩略图选择流程展示.......................................................................................... 47

图 73:这句话是不是爱因斯坦说的,现在有点无从稽考,但真理不用争辩 ......................... 48

图 74:D-Wave TWO 量子电脑 ................................................................................................................ 48

图 75:D-Wave 2 量子计算机支撑结构,机器被冷却到接近绝对零度 .................................... 49

图 76:可以与不可以被量子计算攻破的加密技术 ............................................................................ 49

图 77:D-Wave 的量子处理器 .................................................................................................................. 51

图 78:D-Wave 量子计算机示意图......................................................................................................... 51

图 79:谷歌量子计算机 9 个量子位排列示意图 ................................................................................ 52

图 80:谷歌制造的量子计算实验芯片 ................................................................................................... 52

图 81:皮查伊在大会上介绍 TensorFlow .............................................................................................. 53

图 82:皮查伊介绍 TPU 性能对比 ........................................................................................................... 53

图 83:谷歌 TPU 电路板 .............................................................................................................................. 53

图 84:谷歌 TPU 尺寸示意图..................................................................................................................... 53

图 85:英伟达 GPU 在人工智能的主要合作平台 ............................................................................... 54

图 86:英伟达 Tesla GPU 主要产品与性能 ........................................................................................... 55

图 87:GPU 和 CPU 结构上的区别 .......................................................................................................... 55

图 88:深度学习在计算机视觉领域的优越表现 ................................................................................. 55

图 89:TPU 与 CPU、GPU、FPGA、ASIC 特征对比 ......................................................................... 56

图 90:Firebase 带来一体化平台 ............................................................................................................. 57

图 91:Firebase 与分析服务实现了深度集成 ...................................................................................... 57

图 92:Firebase 功能简介 ........................................................................................................................... 57

图 93:Firebase 收费套餐标准 .................................................................................................................. 58

图 94:Firebase 与谷歌云服务结合 ......................................................................................................... 58

图 95:2016 Q2 云服务平台市场份额排名(yoy 增长率) ........................................................... 58

图 96:谷歌云计算平台现在的六大数据区域 ..................................................................................... 59

图 97:GCP 提供的三种机器学习端口 ................................................................................................... 60

图 98:谷歌语音识别神经网络的输出示意图 ..................................................................................... 60

图 99:人工智能发展技术曲线 ................................................................................................................. 61

图 100:宏观角度看人工智能的发展趋势 ............................................................................................ 61

图 101:Gartner 技术成熟曲线提示警惕“幻灭期” ....................................................................... 61

图 102:中国人工智能创新战略............................................................................................................... 62

图 103:深度学习的三类学习模式 .......................................................................................................... 62

图 104:微软图像识别技术在 ImageNet 中的表现 ........................................................................... 62

图 105:无监督学习的壁垒与难点 .......................................................................................................... 63

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 6

图 106:深度学习在人工智能的应用与未来方向 .............................................................................. 63

图 107:百度展示人脸识别错误率已经降到 2.3% .............................................................................. 64

图 108:百度深度学习研究员主攻方向 ................................................................................................. 64

图 109:百度的 AR 技术交互模式展示 .................................................................................................. 64

图 110:神经网络在人脸识别上超过人眼 ............................................................................................ 64

图 111:MSRA 郑宇介绍北京空气质量监控 ........................................................................................ 65

图 112:红杉资本周逵介绍公司的 AI 合作伙伴 ................................................................................. 65

图 113:京东陈宇介绍京东虚拟试衣功能 ............................................................................................ 65

图 114:京东陈宇介绍京东智能家居布局 ............................................................................................ 65

图 115:蚂蚁金服漆远介绍金融领域 AI 元素 ...................................................................................... 66

图 116:蚂蚁金服漆远介绍金融领域 AI 应用 ...................................................................................... 66

图 117:人工智能产业论坛现场............................................................................................................... 66

图 118:智能驾驶的发展之路 ................................................................................................................... 66

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 7

1. Google I/O 开发者大会,以 AI 为本

谷歌 2016 年度 I/O 开发者大会于 5 月 18 至 20 日在人称谷歌后花园的硅谷山景城的Shoreline Amphitheater 举行。谷歌 I/O 开发者大会的 I 和 O 表示“Input 输入/ Output 输出”,同时也寓意为“开放中创新”(Innovation in the Open)。本次 I/O 大会是谷歌第一次在公司总部所在的山景城,并且在户外举办,以往都是在旧金山的室内会议中心举行的。大会通过网络直播平台向全球超过 100 个国家进行同步直播,包括来自中国的开发者们。

大会从2008年至今已经举办了九届。今年的 I/O会吸引了来自世界各地7500多位开发者、合作伙伴、学术界人士、创业者等参加。大会天数亦从上届的两天延长到了三天,技术讲座则由去年的 100个增加到了 190多个。安卓系统(Android)依然是本次开发者大会的主角,在这 190 多个技术讲座中,有超过三分之一的主题与安卓有关。第二多的就是针对移动端网页(Mobile Web)的开发技术,有 33 个。另外一个亮点就是谷歌在 2014 年收购的专为行动应用开发者所提供的后端服务平台(Backend as a Service, BaaS) Firebase,在本次大会上带来全新的整合与升级。

作为开发者的一次盛宴,这次大会的讲座还涉及了虚拟现实 VR、云计算、Google Play 和游戏、搜索、物联网、地图服务、智能家居和影视、用户界面 UI 设计等各个方面。不过,这次大会还是以 Alphabet 公司里面的谷歌业务为主,所以其他新兴业务(Other Bets)并没有过多提及。而无人车似乎在本次大会中“销声匿迹”,只是在会场外面停着一辆无人车供参会者近距离观察。

图 1:谷歌股价走势和重要事项:从 2004 年 8 月 19 日到现在

资料来源:截止至 12 月 30 日,彭博,公司资料,天风证券研究所整理

1.1. CEO 开场主题:以 AI 为产品骨干,化不可能为可能

谷歌 CEO 皮查伊 (Sundar Pichai)说过:“人类能不能借助人工智能来实践更加多,将以前不可能的事情变为可能(Human can achieve a lot more with the support of AI assisting

them)”。本次大会的主题正是人工智能。

0

100

200

300

400

500

600

700

800

2004年

7月

2004年

10月

2005年

1月

2005年

4月

2005年

7月

2005年

10月

2006年

1月

2006年

4月

2006年

7月

2006年

10月

2007年

1月

2007年

4月

2007年

7月

2007年

10月

2008年

1月

2008年

4月

2008年

7月

2008年

10月

2009年

1月

2009年

4月

2009年

7月

2009年

10月

2010年

1月

2010年

4月

2010年

7月

2010年

10月

2011年

1月

2011年

4月

2011年

7月

2011年

10月

2012年

1月

2012年

4月

2012年

7月

2012年

10月

2013年

1月

2013年

4月

2013年

7月

2013年

10月

2014年

1月

2014年

4月

2014年

7月

2014年

10月

2015年

1月

2015年

4月

2015年

7月

2015年

10月

2016年

1月

2016年

4月

2016年

7月

2016年

10月

谷歌

股价

(美

元)

2004年8月

19日在美国

纳斯达克上

市,IPO价格为85美元,

共出售1960

万股价值

16.7亿美

元。当时

Google市值

为230亿美

元。

10月、11

月,收购Keyhole (Google

Earth)前

身,并推出

了谷歌学术

的测试版

2005年2月,

推出谷歌地

图;

6月发布移动

网页搜索、谷

歌地球、谷歌

分析

2006年4月,

推出谷歌翻

译;10月,以

16.5亿美元收购Youtube

2007年5月,

谷歌街景首

次亮相

2008年3月,收购网络

广告服务商

DoubleClick;

4月PaaS服务App Engine

上线;

5月,在旧金山举办首

届I/O大会

2009年3月,

推出谷歌语音

VoIP服务;

风险投资基金

谷歌Ventures

成立

2010年1月,推出谷歌

首款自制Nexus手机;

3月,Google 地图中新

增骑车路线和自行车道

数据;

5月,收购广告公司AdMob

2010年10月,

推出无人车驾

驶技术;

11月,开源操作系统Chrome

OS正式发布

2011年3月,高

速宽带服务

Fiber正式启

动;

5月,手机支付

系统谷歌电子

钱包Wallet上

线;

6月,第一款搭载Chrome系统

的Chromebook

笔记本上线

2012年4月,

Google Drive 上

线;

5月,收购摩托

罗拉;

6月,推出

DoubleClick数字

营销平台;

IaaS 服务Compute Engine

上线7月,云计

算平台 Cloud

Platform 成立

2013年2月,推

出AdWords和谷

歌眼镜;

3月,Youtube

月活用户超过

10亿人;

6月,发布

Now,人工智

能助理雏形初

现;

6月,热气球网

络项目Loon启

2013年6月,收

购地图导航引用

Waze;

9月,健康医学研究公司Calico

正式成立;安卓

设备激活量超过

10 亿

2014年1

月,收购

智能家居

公司

Nest;收

购人工智

能公司

DeepMind

2015年2月,Gmail月

活用户超过10亿人;

5月,移动广告端收

入大幅度增值

2016年3

月,

AlphaGo与

李世石围棋对决取

胜;

5月,

Chrome超

越IE成为全球用户量

第一桌面

浏览器

179%32%

36%

-10%0%

-3%

20%

27%

24%

37%

11%

11%

2016年2

月,公

布四季

报,市

值一度

成为全

球第一

2008年9月推出

安卓手机系

统;

当月,Chrome浏览器上线;

10月,Play应用

市场上线

2015年营收750亿美元,净利润164亿美元

2014年营收660亿美元,净利润144亿美元

2013年营收598亿美元,净利润129亿美元

2012年营收502亿美元,净利润107亿美元

2011年营收379亿美元,净利润97亿美元

2010年营收293亿美元,净利润85亿美元

2009年营收237亿美元,净利润65亿美元

2008年营收218亿美元,净利润42亿美元

2007年营收166亿美元,净利润42亿美元

2006年营收106亿美元,净利润31亿美元

2015年8月,公司

改组,母公司

Alphabet成立,一

级子公司包括:

Google、Nest、X、

SideWalk Lab、

Verily、Calico、

Ventures、

Capital、Fiber等

2011年11月社交网站

Google + 上线

2014年6月,谷歌

地图月活用户超过

10亿人;Cardboard

成立;8月,无人

机快递项目Wing启

2015年11月,开源机

器学习平台TensorFlow

谷歌的“十亿”月活用户俱乐部:

Youtube-2013年3月

Android系统-2014年6月

谷歌地图-2014年6月

Play商店-2015年9月

Gmail邮箱-2016年2月

Chrome浏览器-2016年4月

2005年营收61亿美元,净利润15亿美元

2016年10

月,正式发

布Google

Home、Pixel手机等硬

件,确定AI

先行公司策

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 8

图 2:谷歌 2016 I/O 大会现场

资料来源:谷歌 2016 I/O 大会现场照片,天风证券研究所

从 AlphaGo 跟李世石围棋博弈技惊四座,到谷歌的一系列以 AI 为骨干的新产品,包括在大会里介绍的 Google Home 等,谷歌在人工智能方面的技术确实不容置疑。在大会的 AI

研讨会里,科学家认为虽然 AI 已经发展了近 50 年,而现今的云端上分布式计算以及 GPU

等硬件和处理器升级都大大促进了 AI 的发展,但是现在也只能算是 AI 的春天,要到达 AI

的夏天就必须要先看到 AI 能够理解人类的语言(rephrasing)。

他们认为现今人工智能与机器学习的三大问题是:

1.需要依靠大量数据与样本去训练和学习;

2.在特定的板块和领域里(domain and context specific)学习;

3.需要人工选择数据表达方式 (data representation)和学习算法 (machine learning

algorithms)以达到最优化学习。

图 3:皮查伊介绍谷歌助理 图 4:谷歌助理进入所有产品

资料来源:,谷歌 2016 I/O 大会现场照片,天风证券研究所 资料来源:,谷歌 2016 I/O 大会现场照片,天风证券研究所

在历时两个小时的开场主题演讲里,机器学习(Machine Learning)和人工智能(Artificial

Intelligence),再加上应用到各个生活场景中的自然语义理解 (Natural Language

Processing, NLP),这都是皮查伊反复强调的三个词。他希望谷歌能够在这些方面积累超过 10 年的技术,渗透到现有的产品中,打造完善而全面的智能生态圈,提升服务质量,让人类能借助人工智能来实践更多,化不可能为可能。

皮查伊特别介绍了谷歌在语音识别技术(Speech Recognition)上的发展和重要性。皮查伊提到当前的手机用户达 30 亿人,而 PC 用户则是 15 亿。每天谷歌接收到的搜索请求有 50%

来自手机,而在美国有 20%的搜索是通过语音指令完成的。现在谷歌已经开始将背景噪音故意加入训练数据中,并将准确率提高了 25%。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 9

另外,谷歌的机器翻译技术十年前只能翻译两种语言,现在已经能够翻译超过 100种语言。还有,电脑视觉(Computer Vision)技术已经应用到图片识别技术中,谷歌还将这个技术拓展到视频识别中。

1.2. 谷歌助理(Google Assistant):人工智能语音助手

谷歌助理(Google Assistant)是谷歌最新研发的人工智能语音助手,它是谷歌此前的智能助理应用程序 Google Now 的升级版。Google Now 使用自然语言用户界面(Natural Language

User Interface),通过一系列的 Web 服务来进行回答问题、提供建议、运行动作等行为。在回应用户时,Google Now 会基于用户过往的搜索习惯来预测其所可能需要的信息。

语音识别应用的关键在于语境意识(context awareness),以及如何在语境中灵活地展现功能。谷歌助理则在 Google Now 的个人信息学习技术的功能上,结合了谷歌搜索的深度学习技术以及自然语义处理技术,可以很流畅地使用自然语言和用户进行对话形式的交互,并能通过上下文的语音理解,帮助用户解决问题。这也是这个智能语音助理与苹果的 Siri

和微软的 Cortana 功能类似又不尽然相同的地方。

图 5:五大智能助理的功能对比

资料来源:Mobileappcost,天风证券研究所整理

谷歌助理是一个对话助手,而不是类似 Siri 和 Cortana 那样的提问工具。更为关键的是,通过谷歌积累超过十年的自然语义联结处理技术,谷歌助理能够很好地解决用户发出的连续性提问中的上下文指代关系。当皮查伊询问谷歌助理谁是《荒野猎人》的导演时,谷歌给出正确答案后,当用户继续提问“他获得过什么奖项”,谷歌能够联系上下文知道“他”的指代,并返回正确答案。或者当用户提问“告诉我附近正在上映的电影”后,又提出“我带着孩子”,谷歌助理能够将返回的结果进一步缩小范围至适合全家人观看的电影,并且会进一步询问是否要为用户预订全家人的电影票,在得到用户的肯定后谷歌助手就会自动完成订票操作。这解决了 Siri 和 Cortana 目前都存在的无法联系连续性提问中上下文指代关系的问题。比如说,当用户向 Cortana 提问“伦敦当地时间”后,再提问“当地天气如何”时,Cortana 会返回用户所处位置的天气,而不是伦敦的天气。

由于是智能语音系统,用户需要按键或通过喊名字的方式唤醒 Google Assistant、Cortana、Siri 和 Alexa,我们都知道在公共场合和工作当中很难去当着众人的面对一台机器(无论是手机还是个音箱)说话,而 Facebook M 则巧妙地躲避了这一尴尬。由于我们都会在Messenger 上进行工作或非工作的交流,因此使用 Facebook M 就显得比较自然。Facebook

M 也有深度学习功能,除了协助用户订餐、网购等功能外,还会结合用户的爱好与习惯对不同的事务进行评价和推荐,例如旅游地点、用餐地点等。

Siri 的特色也是在于它对自然语言的理解能力,也就是语音识别、语义理解及语音合成的技术融合在一起。Siri 倾向于快速的功能性,对话用语更简洁,因此用户在使用 Siri 后对其评价总是有“高冷”的感觉。Google Assistant 的强项在于卡片式提醒(这是谷歌在去年的I/O 大会上为 Google Now 新加入的 Now on Tap 卡片功能),即按时按点提醒用户需要注意的事情(比如将要开始的会议)。深度学习的优势在于随着时间积累,Google Assistant

的自动学习会越发深入,也更懂得在合适的场合进行不同的建议。从功能角度来看,Google

Assistant(或之前的 Google Now)和 Siri 凭借出色的后台云计算和算法,以及较完善的智能生态圈,为用户提供了更全面的功能。但 Google Assistant 和 Siri 过于关注功能性的进

Google Assistant 微软 Cortana 苹果 Siri Facebook M 亚马逊 Alexa

需要按键唤醒 不需要

但要说OK Google

需要 需要 不需要

要直接打字

不需要

但要说Alexa

网络搜索 有 有 有 有 有

地理位置提醒

(比如经过超市

提醒买菜)

有 有 有限 没有 没有

出行贴士

(比如下班前提

醒交通流量)

主动提醒 主动提醒 被动提醒 被动提醒 主动提醒

事件通知 有 有 有 有 有

非功能性聊天 主要是助手功能 助手功能、

聊天功能具备

主要是助手功能 助手功能、

聊天功能具备

主要是助手功能

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 10

步,有时候会让人感觉缺少了较人性化的交流,也就是缺乏轻松的聊天互动。在这个方面,微软的 Cortana(中文名字为“小娜”)与 Facebook 的 M 都定位于私人助理,因此对话更具有个性。

图 6:Siri、谷歌助理、百度度秘提问测试对比

资料来源:各语音助理软件,天风证券研究所整理

1.3. Google Home:与亚马逊 Echo 的正面交锋

在为智能手机、平板、智能手表配备谷歌助理之后,谷歌下一步思考的问题就是如何将人工智能进一步带入用户的生活里,完善智能生态圈。谷歌推出内置了谷歌助理的无线音箱Google Home,并打造为谷歌智能生活的新入口。谷歌和亚马逊等推出智能音箱的目的并不是为了卖硬件,而是透过这个相对廉价的音箱来吸引用户进入他们的整个智能生态圈。

经过 5 月 I/O 大会的介绍,谷歌在 10 月 4 日的硬件发布会上正式推出了这款售价 129 美元的人工智能音箱。Google Home 由谷歌旗下设计电视棒 Chromecast 的团队主导开发,而不是由一直被当做谷歌智能家居部门的 Nest 所带来。在展示的视频中,我们看到 Google

Home 就像一个随时待命的具象化的虚拟助理,能够调用谷歌搜索以及其他应用程序,用户通过语音指令,控制它执行播放音乐、关闭房间照明、回答知识性问题、查询交通状况、更改预约等任务。谷歌强调 Google Home 可以与用户像和人交谈一样双向对话,无论实时交通还是天文地理,交互的方式都更为友好与亲近,让人觉得家里多了一个真实的助理。

Google Home 这款谷歌最新的智能生活入口设备,承载着谷歌在物联网和智能家居领域的新希望。它也被认为将成为智能家居市场上,亚马逊广受欢迎的智能音箱 Echo 的直接对手,两者主打的语音控制、人工智能助理以及将各类用户常用的第三方生活场景应用接入的功能都如出一辙。

图 7:Google Home 在大会里的展示 图 8:Google Home 有 7 种颜色底座可供选择

资料来源:,谷歌 2016 I/O 大会现场照片,天风证券研究所 资料来源:,谷歌 10 月 4 日发布会现场照片,天风证券研究所

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 11

1.3.1. 行业领先者:亚马逊 Echo 音箱

在外观和语音接收上,亚马逊 Echo 是一个黑色的柱状音箱,同时配有一个内置麦克风的无线遥控器。虽然 Echo 的所有指令都可以通过语音控制,并且为了能够最大化的接收到语音,Echo 配备了七个麦克风接收器。这由七个麦克风组成的矩阵使用音波聚束技术进行远场声音探测,同时配合增强的噪音消除技术,使得 Echo 即使在播放音乐时也能听清用户的提问指令。当用户所在位置的语音指令不能被 Echo 接收到时,无线遥控器就显得非常便利。

Google Home 使用了更圆润而精致的线条设计,外国媒体形容为花瓶型的机身,顶部斜面为一个可触控的表面,隐藏着四种颜色的 LED 灯;音箱底部的扬声器格栅使用磁铁吸附,用户选择不同颜色和材质以搭配家居风格。此外 Google Home 内置了一枚 3 英寸的扬声器,基本上声音足够填满一整个房间,并且使用了定制的 AC 电源取代 USB 电源,保证电量的稳定。

图 9:Google Home 产品宣传图 图 10:Google Home 将和亚马逊 Echo 一争高下

资料来源:谷歌 2016 I/O 大会现场照片,天风证券研究所 资料来源:Wired,Engadget 等,天风证券研究所

最关键的区别在于麦克风的数量与阵列,Google Home 只使用了 2 个麦克风的结构,而Echo 为 7 个。原理上麦克风越多,越能收集到来自不同方位的远场声音,并从环境噪音中识别出用户指令,例如 Echo 的远程声音识别。而谷歌表示他们通过云端机器学习算法(例如自然语意处理)对 2 个麦克风进行了调试,能达到 7 麦克风相同的效果。

谷歌在 Google Home 背面设置了“关闭麦克风”的按钮,可以用来暂停或播放音乐,同时加入了手指在按钮上旋转来控制音量的操作。顶部白色的 LED 灯显示当前的音量级别,当有用户语音指令处理时,4 色的 LED 灯就会亮起。此外根据外媒测评,同一间屋子里的几个不同的 Google Home 可以同时响应用户语音指令,例如同时播放歌曲,这是谷歌从一开始就设计的多房间支持(Multi-room capability)。

图 11:Google Home2 个麦克风设计 图 12:Echo 的 7 个麦克风矩阵:远程语音识别

资料来源:Wired,Engadget 等,天风证券研究所 资料来源:Wired,Engadget 等,天风证券研究所

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 12

图 13:Google Home 多房间支持 图 14:亚马逊 Echo 及无线遥控器

资料来源:谷歌 10 月 4 日发布会现场照片,天风证券研究所 资料来源:Wired,Engadget 等,天风证券研究所

在功能上,很显然两家公司都在建立自己的智能生态圈。亚马逊 Echo 最有趣的地方就是可以出现在第三方设备和服务中,除了可以在亚马逊平台上购物和播放 Prime 音乐外,还可以让用户选择 Pandora、Spotify 等娱乐,购买达美乐披萨外卖、获得 Yelp 点评的功能和Uber 打车服务等。在智能家居应用上,亚马逊选择与三星、飞利浦、Belkin、Ecobee 等合作,将他们的智能家居设备整合到 Echo 的控制系统中。

Echo 最重要的一点就是作为 Prime 电商服务的语音入口,在 Echo 上用户可以要求 Alexa

重新下单已经购买过的商品,或者为用户推荐亚马逊的各类商品,唯一的限制就是该商品必须是 Prime 类别下的,意味着这件商品由亚马逊管理配送并在 2 天内能送达。电商是亚马逊的根基,Echo 的网购功能吸引了更多的用户在亚马逊上购物及参与成为 Prime 会员。根据 Slice Intelligence 的报告,Echo 用户都是“亚马逊重度消费者”,他们比非 Echo 用户在亚马逊上的花费多 7%。这也给了亚马逊更多的用户消费数据,从而提高消费者体验。

Google Home 目前暂不支持软件内支付,也意味着目前无法通过 Home 进行网购消费。事实上,由于谷歌在用户消费数据上无法与亚马逊相比,所以他们选择了更为熟悉的领域,即用户日常生活行为习惯数据,这些数据来源于用户每日的日程安排、地图搜索、邮件收发等行为。

谷歌遍布全世界的网络服务内容能够带来更多的可选性。谷歌在今年一月份推出了一款名为 Google Cast 的软件,能够在 iOS 和 Android 设备上使用,整合了 Spotify、Pandora、iHeart

广播等音乐服务,让用户可以将手机中的音乐推送到 Home 中播放出来。同时配合谷歌自己的 Play 音乐市场,为用户提供了丰富的音乐内容。

此外,由于 Home 是由 Chromecast 团队主导开发,因此与 Chromecast 的协作必不可少。用户可以指挥 Home 搜索播放 YouTube、Netflix 上的视频,并通过安装了 Chromecast 的电视屏幕自动播放出来,可以说,Chromecast 与电视屏幕成了 Google Home 的一个可视化的界面。

谷歌在智能家居上最大的资本就是拥有智能家居市场最受关注的品牌 Nest。谷歌表示,Nest 旗下的包括智能学习恒温器、烟雾探测器以及智能监控摄像头,都将成为第一批整合进 Home 智能家居系统平台的器件。谷歌目前的合作伙伴包括飞利浦 Hue、IFTTT、三星旗下的 SmartThings 平台等,它们希望与广大开发者合作,在年内指导更多的第三方厂商将智能家居设备和应用整合到谷歌助理中。

在人工智能方面,亚马逊 Echo 内置的是 Alexa,而 Google Home 则内置了谷歌助理。我们认为谷歌在积极寻找新的搜索入口,将人工智能应用到对用户搜索需求的理解中,引导用户在各个场景下建立“搜索目的”与对应需求的连接。皮查伊此前提到,当前美国用户在安卓系统中进行的搜索需求中有 20%是通过语音指令完成的。如何有效引导这部分搜索指令,更好理解用户越来越复杂的指令语义,提供更多的生活场景需求,应该是 Google

Home 继续探索的方向。(详细的对比情况 1.3.3)

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 13

1.3.2. 国内智能语音行业领先者:科大讯飞叮咚与 X1 智能音响

作为国内智能语音领域的行业领先者,科大讯飞的人工智能语音技术在国内进行了全面布局,涵盖领域包括教学生态体系、汽车、智能客服、电视盒子等。公司在声纹识别技术、麦克风阵列技术、方言识别、语义理解技术和内容服务技术都处于国内领先的地位。在智能家居方面,科大讯飞早期推出的 X1 智能音箱,以及与京东合作的叮咚智能音箱,也都在国内产生不错的反响。下面我们来对比一下叮咚与国外智能音箱的性能。

首先从外观来看,叮咚与亚马逊的 Echo 长相十分相似。二者都是采用了圆柱立体音像及内嵌式阵列麦克风。叮咚的远场唤醒距离为 5 米,无需触控。但 Echo 除了七个麦克风之外,还配备了无线遥控设备以便对音箱进行控制。叮咚采用的是手机控制,需要软件与设备进行连接。

在硬件方面,“叮咚”还是体现了超高的性价比:作为一个语音识别装置,识别语音信号并抑制噪音成为关键因素。叮咚的八个麦克风阵列可以 360 度拾取声音,通过阵列的形成技术,在空间形成若干个识音区域,然后把音源能量最大的方向定位为目标说话人的方向,相当于锁定了声源位置,再加上回声消除技术,这样就可以让叮咚音箱在 5 米左右的距离听写识别率能超过 99%,并在 100dB 音乐播放过程中实现 90%语音打断唤醒率。但是在针对人与人之间自由交流语音转写的正确率则为 85%以上。

图 15:科大讯飞叮咚智能音箱 图 16:科大讯飞 X1 智能音箱

资料来源:科大讯飞网站,天风证券研究所 资料来源:科大讯飞网站,天风证券研究所

从搜索引擎功能上,叮咚并不能做到像 Echo 和 Google Home 一样及时回答复杂问题以及背景衔接等功能。到目前为止,用户只能使用固定的指令去让叮咚执行日常的功能:例如开关灯、窗帘、空调、电视等;而在音乐方面,也联合了百度音乐;还有一些天气讯息、新闻讯息的快速提供。但更为复杂的交互功能,比如通过语音在京东购物、餐位预定等还没有被提供。

从功能角度来讲,叮咚支持歌曲识别、歌曲报名、闹钟、自动关机等功能,并可以通过京东微联的 App,使用叮咚控制家电,包括智能烤箱、智能跑步机、智能冰箱等数百种设备。在智能语音的系统上,叮咚采用科大讯飞的灵犀语音助手,进行基本的生活智能帮助。

科大讯飞与京东的“伴侣”关系早在 2015 年 3 月份就已敲定,两公司共同投资 1.5 亿元设立“讯京信息科技有限公司”,其中讯飞出资 8250 万元,占注册资本的 55%,京东出资 6750

万元,占注册资本的 45%,两公司将联手在智能家居和语音技术领域展开合作。具体来说,讯飞的分工主要在技术研发方面,协助京东设计智能家居领域的技术相关方案;京东侧重于产品设计与硬件设计开发,提供供应链管理、仓储物流、营销支持及销售渠道。京东还会提供基于智能云的智能家居中控功能,以及后期推广产品相关的应用程序,推广公司产品及解决方案。目前为止,科大讯飞与京东合作后陆续推出了智能音箱“X1”和“叮咚”,并开始打造叮咚的开放平台。根据京东智能公布显示,京东开放平台首批合作伙伴包括滴滴出行、中通快递、e 袋洗、百度地图、京东到家、JIMI 机器人等。消费者只需对叮咚说:“叮咚叮咚,帮我上门取件洗衣”,e 袋洗的工作人员就会上门收走要洗的衣服。这意味着

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 14

科大讯飞正在利用其人工智能的优势,逐步扩大叮咚智能音箱的服务外延,跟 Google

Home 的概念类似。

语音助手背后的科技涵盖广泛,从机器深度学习(深度神经网络)、数据挖掘算法,到语音识别、语义理解、语音合成技术、云端支持等。从技术层面来看,灵犀语音已有专业的技术支撑,比如科大讯飞将其讯飞超脑技术作为深度学习网络,可以不断学习用户说话方式和爱好需求,并给予更个性化的服务。从灵犀语音助手的“周边信息服务、声纹锁屏、离线通讯、自动唤醒和普通话评测”五大新特性看来,灵犀语音助手已经向人机互动深度浸透,将语义分析判断与生活信息、用户信息安全需求、便捷性需求等结合起来。

1.3.3. Google Home、亚马逊 Echo 和科大讯飞叮咚的 PK

我们收集整理了亚马逊 Echo 与科大讯飞叮咚的拆解详情,通过了解亚马逊 Echo 与叮咚的内部构造,我们可以看出,这种智能音箱的构成不外乎“听、思考、说、做”。

从“听”的角度来讲,亚马逊 Echo 和叮咚均采用内嵌式阵列麦克风。Echo 采用了 7 个内置麦克风,而叮咚更是采用了 8 个麦克风,用来抑制噪音和消除回声。Echo 还配备了无线遥控设备以便对设备进行控制。叮咚采用的是手机控制,需要软件与设备进行连接。Echo

可以不间断聆听,也就是在音乐背景下识别用户的声音,但叮咚却不可以。亚马逊强调了Echo 在嘈杂环境下的唤醒词识别功能。亚马逊 Echo 音箱的语音识别技术来自 Alexa,背后的可扩展分布式深度神经网络(Scalable Distributed DNN)能够探测唤醒词的音频流,并对用户的提问语句作出反馈。除此之外,Echo 与叮咚的音质也不相伯仲。

图 17:亚马逊 Echo 音箱主要零部件拆解

资料来源:iFixit,天风证券研究所整理

相同点:

Google Home、亚马逊 Echo 和科大讯飞叮咚都需要无线网络连接的智能音箱,三者都附有智能系统,分别是:Google Assistant、Alexa 和灵犀语音助手。通过这三个智能系统,用户可以语音进行操作,实现诸如流媒体音乐播放、网站查询、日历查询、闹钟提醒等服务,并实现与智能家居互联。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 15

图 18:科大讯飞叮咚的主要零部件

资料来源:京东官网,天风证券研究所

图 19:Google Home、亚马逊 Echo 与科大讯飞叮咚功能比较

资料来源:Wired,Engadget 等,天风证券研究所整理

不同点:

三者最大的区别在于智能系统上。早在 2004 年,谷歌已经从惠普研究所(Hewlett Packard

Research Labs)挖走人工智能和语音图像识别专家。在 2007 年更从专门从事语音识别软件研发的 Nuance 公司挖来其他技术人员,发表了一篇名为《谷歌针对移动设备的语音识别技术》的论文。谷歌发布的首款产品 GOOG-411 是一项电话服务(411 是美国黄页电话号码),提供一个以语音识别为基础的商业性电话咨询服务。这款产品虽然在 2010 年停止服务,但是为谷歌提供了宝贵的语音数据用来进一步完善语音识别技术。

在 2012 年,谷歌为其语音识别技术加入了深度神经网络(Deep Neural Networks, DNN),用来建模语音数据,并提高语音识别准确率,取代了语音搜索 30 年来的技术标准:高斯混合模型(Gaussian Mixture Model, GMM)。2015 年 9 月,谷歌为其语音搜索搭建了更优秀的神经网络听觉模型:运用联结主义时间分类技术(Connectionist Temporal Classification,

CTC),比如说 Hidden Markov Model (HMM)和序列识别训练技术(sequence discriminative

training techniques)的递归神经网络(Recurrent Neural Network, RNN)。这个神经网络在嘈

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 16

杂环境的语音识别准确性和速度都获得了极大的提高。

传统的语音识别系统使用的方法是将每句话的音频声波分割成大概 10 毫秒一节的片段,并以一个特征向量(feature vector)作为代表(在此的特征向量是一维 1D 即可)。然后,以这些特征向量来建立深度学习 DNN 训练模型,然后再用 HMM 配上时间序,同时也使用附加的发音模型和语言模型去确定每个词汇属于哪种语言和片语。谷歌的 RNN 识别系统使用拓扑学(topology)中的反馈循环机制(feedback loop),利用 RNN 中的长短期记忆人工神经网络(Long Short-Term Memory, LSTM)中的记忆单元和控制机制,能够捕捉音节的时间依赖性,相较于其他神经网络更优化的记忆语音信息。在应用场景里,收集到的特征向量会在 DNN 模型里加以分析并计算出概率。

在这个神经网络的基础上,谷歌训练模型进行实时音节识别,并运用联结主义时间分类技术(CTC)生成一个音波序列。这个部分经过多次迭代之后,谷歌成功训练出能比常用模型捕捉更大数据流的单向声音流模型,同时极大减少计算量。这个模型能够提供更为迅速的计算速度,并且在加入人工噪声和回声干扰后,对环境声音进行更理想的识别。在 2015 年,谷歌的语音识别系统的准确率到达 92%,相比 2013 年的 77%。这段时间里,谷歌收购了包括 DeepMind、DNNresearch 和 Jetpac 等机器学习公司。

图 20:亚马逊 Echo 零部件解析 图 21:叮咚智能音箱麦克风

资料来源:iFixit,天风证券研究所整理 资料来源:京东智能网站,天风证券研究所

当今语音识别开发者普遍使用的开源软件是 Kaldi、HTK 与 CMU Sphinx,其中使用 Kaldi

的开发者最多,原因在于 Kaldi 采用的深层神经网络(DNN)算法,即包含复杂结构或由多种非线性变换构成的多个处理层,对数据进行高层抽象的算法。深度学习使得错误率下降了大约 30%。除此之外,Kaldi 为不同研究方向的语音开发者提供了各个部分的基本教程(例如开发声学模型、语言模型等),使开发者可以快速解决简单的模型构建,进而专注于各自擅长的领域。谷歌也在 2016 年 5 月份开源了 SyntaxNet,详情看 2.6 部分。

图 22:谷歌语音识别神经网络模型示意图

资料来源:天风证券研究所整理

光环音量调节

反射端口

增强低音扬声器输出,增强低音减少失真

2.5寸低音单元增强重低音

2寸高音单元⼲脆、 清晰的⾼音

光环音量调节

触发键

7个麦克风阵列

麦克风关闭键

电源配置器

23.5cm

8.3cm

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 17

图 23:语音识别的一些开源软件及对比

资料来源:各机构网站,天风证券研究所整理

Alexa

就在亚马逊于 2015年 6月开放 Echo美国地区预定之后,亚马逊还为他们的人工智能 Alexa

举办了一系列发布会,宣布 Alexa 开放给开发者和第三方硬件制造商。

亚马逊把 Alexa 整合为一项语音控制服务 Alexa Voice Service (AVS),硬件制造商将能够以非常低廉的成本适配 AVS。硬件只需要搭配一个麦克风和一枚扬声器,在系统内加入几行AVS 的代码就可以。这实际上就是将 Alexa 人工智能的 API 开放,让第三方硬件也具备访问 Alexa 的能力。

图 24:Alexa 语音控制服务 Alexa Voice Service 图 25:Alexa 基金资助的技术公司

资料来源:亚马逊官网,天风证券研究所 资料来源:Wired,Engadget 等,天风证券研究所

这开发过程需要使用到亚马逊针对开发者的 SDK 开发包:Alexa Skills Kit。这个开发包内含有一系列服务 API,开发代码和工具等。亚马逊最新为开发包加入了智能家居接口,这个接口提供了智能家居的直接入口,而且嵌入了亚马逊的标准语言模型。开发者无需自己设计语音交互模型,而是可以直接利用 Alexa 处理后的语音指令来处理语音需求。这个 API

让 Echo 具备了用户可以直接用语音控制家中的照明和供暖设备等能力,而且所有的代码都会在云端完成计算。

亚马逊还建立了一个 Alexa 基金,用来提供对语音识别技术研发的支持。亚马逊投放了 1

亿美元的资金,目前已经资助了 11 家开发公司。这个基金集中关注三个方面:

1. 智能家居硬件设备,通过使用 Alexa Skills Kit 开发包进行硬件适配的项目;

2. 能够基于 Alexa Skills Kit 开发更多运用 Alexa 技术和服务的项目;

3. 所有能够推动语音识别技术发展的研究项目,包括文字转语音、自然语言理解、自动语音识别、人工智能和硬件设计等项目。

应用名称 类型 网站 开源/封闭 牌照 运营系统 编程语言 支持语言种类

CMU Sphinx隐马尔可夫模型

(HMM)

CMU:

Sourceforge开源 BSD许可证 多个平台 Java 英语

HTK隐马尔可夫模型

(HMM)HTK网站 开源 HTK特殊许可证 多个平台 C语言 英语

Julius隐马尔可夫模型

(HMM)Julius网站 开源 BSD许可证 多个平台 C语言 英语

Kaldi 深层神经网络 Kaldi网站 开源 APACHE 多个平台 C++ 英语

iATROS隐含狄利克雷分布

(LDA)iATROS网站 开源 未知 Linux C语言 英语

RWTH ASR

亚琛工业大学

(RWTH Aachen

University)

RWTH ASR网站 封闭 RWTH ASR Linux, Mac 未知 英语

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 18

科大讯飞:灵犀语音助手+超脑计划

2014 年 8 月,公司启动“讯飞超脑计划”,预期成果是实现世界上第一个基于人类神经网络的中文认知智能计算引擎。目前,讯飞的认知智能研究团队在知识图谱构建与推理、人工神经网络模拟,以及人脑原理分析模拟等几个方向展开研究。

“讯飞超脑计划”主要有三大研究方向:

1. 贴近人脑认知机理的人工神经网络设计,支撑认知智能的实现;

2. 实现与人脑神经元复杂度可比的超大人工神经网络(相当于目前感知智能网络规模的1000 倍);

3. 构建基于连续语义空间分布式表示的知识推理及自学习智能引擎。

公司已拿到科技部 863 计划“类人答题”项目,目标是三年之内使机器能够通过高考,并且达到“一本”水平。而灵犀语音助手超脑计划目前可以完成诸如查询机票、话费、天气、新闻等服务,并可以进行用户互动以及智能互联等功能,但整体来讲灵犀语音助手与 Alexa

和 Google Assistant 之间存在差距,因此让叮咚、Google Home 和 Echo 的表现有所不同,但随着科大讯飞在人工智能上的投入,灵犀语音助手会增加更多的功能。

1.4. 两款没有太多惊喜的新聊天应用:Allo 和 Duo

在介绍新的聊天工具之前,皮查伊提到了去年 I/O 大会上发布的照片管理应用 Google

Photos。虽然照片管理应用早已不是新鲜的工具,但是谷歌靠人工智能提供了其他软件没有的功能。比如识别图像,自动归类建筑、宠物、人物的照片,自动剪辑视频和美化图片等,让 Google Photos 这个后入者在上线短短一年里月活跃用户数量达 2 亿人。

皮查伊表示,用户使用手机的核心功能,除了照片之外,就是即时沟通。所以,谷歌推出集成人工智能和谷歌助理的新款即时通讯聊天工具 Allo,主打“智能回复”,并推出配套的视频聊天工具 Duo。

1.4.1. Allo

谷歌的优势在于其背后的人工智能以及搜索引擎。Allo 主打深度集成谷歌助理和机器学习的聊天工具。在大会中智能回复与智能订餐都体现了 AI 的作用。Allo 同时加入了一些更人性化的表达方式,如改变消息文字大小传递情绪(Whisper Shout)、为图片快捷添加批注等。Allo 的创新之处在于:

1、谷歌这次将它在其他软件应用到的机器学习技术集合了进来。首先是计算机视觉对图片内容的精确识别,Allo 能够为用户提供智能回复选项。例如当对方发来一张意大利面照片时,Allo 背后的图片回复功能,会弹出“意大利面超好吃”或是“我爱意大利美食”等回复选项。

2、将谷歌助理集成到对话框中,结合贯穿谷歌整个主题演讲的自然语义处理技术,当朋友发出“今晚吃意大利菜怎么样?”的提问时,谷歌助理会弹出一个“查看附近意大利餐馆”的选项,用户可以进入与谷歌助理交流的对话框,对餐馆进行浏览选择,决定后谷歌助理还能完成自动预定,整个过程都在Allo界面中完成,而且与朋友的对话能够无缝切换,朋友也能收到预定提示,免去了频密切换 App 的繁琐。

3、此外 Allo 加入了类似 WhatsApp 的端到端加密功能,用户选择在隐身模式(Incognito

mode)下发送的消息会通过 Signal 通讯协议进行端到端加密。不过 Allo 没有默认开启这项加密功能,用户需要像使用 Chrome 浏览器一样选择开启后才能进行加密对话。需要关注的是,用户想要在 Allo 聊天过程中使用谷歌助理则需要完全禁用隐身模式,因为谷歌助理会收集对话内容进行回复预判,而默认不开启端到端加密功能的方式也引发了公众对信息安全和人工智能之间如何平衡的担忧。揭秘了棱镜计划的前美国国家安全局(NSA)技术员爱德华·斯诺登(Edward Snowden)就表示,Allo 的这种做法是不安全且危险的,建议大家避免使用 Allo。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 19

图 26:Allo 新功能展示 图 27:Duo 新功能展示

资料来源:Wired,Engadget 等,天风证券研究所 资料来源:谷歌 2016 I/O 大会现场照片,天风证券研究所

因为谷歌助理整合了 Google Now 在私人服务方面的功能,在与第三方服务合作的模式应该也会延续 Now 的合作。2015 年 1 月谷歌宣布了 Now 的 40 个合作伙伴,并在 4 月份宣布增加到 110 个。根据在谷歌官网的统计,Google Now 现在已经接入了 239 个第三方服务品牌,包括超过一百个应用程序以及上百个 Gmail 邮箱标记。谷歌逐渐开放第三方服务商的接入,加入了许多受消费者欢迎的 App,让谷歌的智能助理更贴近消费者生活需求,包括新闻类的 ABC News、音乐类的 Spotify、TuneIn,运动类的阿迪达斯、Jawbone,美食类的 OpenTable 等。2015 年 10 月发布的安卓 6.0 系统,为 Google Now 加入了 Now on

Top 卡片功能,这个功能会根据用户行为判断,随时弹出用户需要的服务卡片,连接到第三方服务中。例如当用户就餐完毕后,可以直接在手机弹出的 OpenTable 的 Now 卡片上进行付账。

1.4.2. Duo

伴随 Allo 一同推出的一对一视频通话工具 Duo,它的一大亮点是当朋友通过 Duo 对用户进行视频呼叫时,在接通前用户会看到朋友的视频即时影像预览,谷歌将这个功能称为Knock Knock。谷歌的想法是,用户在收到视频通话提醒到接听通话的时间内,提前看到朋友的实时影像预览,会更容易进入聊天的情绪和氛围中。为了更好地提供完整的视频通话体验,Duo 通话界面的所有按钮都会自动隐藏,只留下视频双方的图像。

Duo 还在视频通话质量上作出努力,默认的视频质量为 720p。不过 Duo 可以每秒对视频质量进行监测,在网络状况不佳的时候,会自动转换视频质量,同时在蜂窝网络和 Wi-Fi

信号中无缝切换,保持连接通畅。

Duo 是由开发了网页实时通信(WebRTC)技术的团队开发,拥有这项技术的 Global IP

Solutions 公司在 2010 年被谷歌收购。Duo 在 WebRTC 的基础上进行优化,使用了快速UDP 网络连接技术(QUIC),该协议由 WebRTC 开发团队设立,基于用户数据报协议(UDP),主要用于网络通信中大数据量传输时的速度提升。减少数据传输及创建连接时的延迟时间,双向控制带宽,以避免网络拥塞。谷歌在 2013 年开发出这个 QUIC 技术,并希望将来能替换 TCP 协议。

1.4.3. 竞争对手产品:Facebook 的 Whatsapp 和 Messenger、腾讯的微信和 QQ、苹果的Facetime 和 iMessage、Snapchat 以及谷歌早前的 Hangouts

谷歌发布这些新的聊天工具,但是他们已经拥有一款 Hangouts 了,很多人都在想谷歌是不是打算放弃 Hangouts,不过谷歌却表示“公司仍然会在 Hangouts 上投入资源,两者始终会是各自独立的产品”。事实上仔细比较 Allo 和 Hangouts 的策略,Hangouts 更面向企业用户,因为谷歌在提供给企业用户的办公软件套装中包含了 Hangouts,因此用户在使用Gmail 或 Docs 后很容易无缝衔接至 Hangouts,而且 Hangouts 有桌面版,在hangouts.google.com 下支持网页端的语音和视频通话,而 Allo 和 Duo 只针对移动端。此外,Allo 与 WhatsApp、Line 等聊天软件类似,使用的是用户的手机号和通讯记录进行匹配,而 Hangouts 需要用户的谷歌账号才能登陆。

谷歌在发布 Allo 时强调了一个词“表达”(Expression),Allo 更像是一个私人聊天表达情绪

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 20

的工具,比如通过向上下滑动来改变对话文字的尺寸来传递用户的感情。而且 Allo 内置了谷歌助理的“智能回复”,这项功能目前还没有整合到 Hangouts 中。

我们认为与 Allo 功能比较接近的聊天软件应该是 Facebook 内置聊天机器人的 Messenger

和同样是 Facebook 旗下的 WhatsApp。但其实 Allo 的谷歌助理与 Messenger 的聊天机器人还是有很大的不同。谷歌助理更像一个私人管家,能够通过对话内容理解需求;而Messenger 的聊天机器人更像一个人工助理客服,由与 Facebook 达成合作的商家提供服务,用户在 Messenger 搜索栏中输入商家名称,就会跳转至商家的机器人客服对话界面,聊天机器人可以帮助用户订花、获得银行账户通知提醒、预订食品外卖、询问健康问题、或打印照片等。

我们将 Allo 与 Wechat、Snapchat、iMessage、Messenger/Whatsapp 与 Line 做了全面的对比。手机交流软件市场已经趋于成熟,不同软件根据各种定位,有着不大相同的功能。大会中看到 Allo 的优化大多在于细节上的创新,我们认为 Allo 的竞争力不足,这些改动并不能对 Whatsapp 或 Messenger 产生威胁。而在没有 iPhone 和 Facebook 的平台下,我们担心谷歌应该没有能力让大多数安卓手机用户安装 Allo。从功能角度相比,我们认为亚洲的聊天软件中,微信和 Line 的功能则更全面,从办公到个人的具体功能都十分丰满,另外在谷歌进华的道路还是不明朗的情况下,我们更难想象 Allo 会在亚洲有所建树。另外还有一种可能,也就是解决用户特殊需求。在这一点 Snapchat 做到了推陈出新,“阅后即焚”的软件设计给了年轻人极大的吸引。虽然 Allo 也有此功能,但我们认为它在整体创意中并无颠覆思想、颠覆生活习惯的设计。

图 28:Allo 与各大聊天软件的功能比较

资料来源:各软件网站,天风证券研究所整理

Facebook 在 Messenger 中同样采用了 AI 技术,所以也可依赖强大的用户数据以及合作伙伴,并透过优质的算法,为用户提供不同特色的服务,例如订餐、叫车、买票等。同样,微信也可以利用自身的资源,包括微信钱包、京东、滴滴、大众点评等的协同效应,轻易复制像谷歌和 Facebook 聊天工具的商业模式。所以,我们对于谷歌这次的聊天工具的普及性有所保留。

1.4.4. Allo 和 Duo 正式发布

2016 年 8 月 15 日,谷歌正式发布了视频聊天软件 Duo,但并没有获得巨大反响。谷歌表示近半数的手机用户没有使用过视频聊天软件,是因为过于繁琐的用户体验。因此他们标榜了 Duo 的简易操作性。不过由于 iOS 系统对程序后台运行的限制,用户在苹果手机上并不能很好地体验到 Duo 的视频即时影像预览功能(Knock Knock)。谷歌最近表示,他们正在考虑将语音通话的功能整合进 Duo,进一步挤占用户打电话的需求。不过与谷歌大部分产品一样,Duo 并不能在国内使用。

Allo 微信 Snapchat iMessage/Facetime Messenger/Whatsapp Line

公司 谷歌 腾讯 Snapchat 苹果 Facebook Line

首发日期 2016年6月 2011年1月 2011年9月 2011年10月 2011年9月 2011年5月

传输层安全默认不开启端

到端加密较好 存在过风险 默认开启端到端加密 存在风险 存在过风险

无限联系人数 支持 好友上限5000人 支持 支持 支持 支持

朋友圈展示 未知 支持支持,朋友圈上传视频

24小时无限制观看否 通过Facebook 支持

一对多聊天 未知 支持 否 支持 支持 支持

垃圾广告过滤 未知 支持 支持 支持 支持 支持

群聊或会议支持 未知 支持 否 支持 最多256人 最多200人

多人视频 否 支持 否 否 否 否

文件传输 未知 支持 支持 支持 支持 支持

表情 较少 较多 正常 更新后支持第三方表情商店 Messenger表情较多 多

AI功能 支持 否 否 运用Siri深度学习技术 支持 否

电脑版 否 支持 支持 支持 否 有

其它辅助功能 较少 较多 较少 较少 较少 较多

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 21

图 29:Allo 功能预览

资料来源:Techcrunch,天风证券研究所整理

9 月 21 日,谷歌也发布了即时通讯软件 Allo,正式把谷歌助理加入到聊天应用当中。而苹果方面,随着 iOS 10 的发布,全新的 iMessage 也随之发布,iMessage 的更新可谓是“脱胎换骨”,极大地丰富了聊天应用的趣味性。在个性化方面,苹果选择与迪士尼、任天堂等公司合作,而谷歌选择的是与独立艺术家合作,邀请他们为 Allo 设计了近 30 款表情包,并且都可以免费下载。

当然 Allo 最重要的功能还是结合了谷歌深度学习的谷歌助理,在对话的开始,它会礼貌的介绍自己的功能,目前提供了包括每日订阅、设置提醒、内置游戏、文本翻译、天气预报、外出订餐、体育比分、旅行信息、新闻播报等功能。而且在理解对话方面确实表现出令人惊喜的智能,例如当我们提问“梅西现在多少岁了?”,助理能够正确返回答案,并且给出了一系列建议提问选项,包括“他多高?”,“他在场上的位置?”,“C 罗的情况?”等。经过试用,我们认为谷歌助理在智能化、拟人化的层面上要比 Siri 优秀,对于用户提问需求的下一步预测,表现出令人惊喜的效果。

此外,在保护用户信息隐私方面,Allo 提供的“隐身模式”除了端到端加密功能,还加入了新消息提醒中不显示消息内容(与微信的功能类似)以及消息过期销毁(与 Snapchat

功能类似),用户可以选择阅后消息自动销毁时间,从 5 秒钟到 1 个星期。

2. 谷歌的灵魂和骨干:人工智能技术

谷歌的人工智能业务涵盖了从硬件到软件、搜索算法、语音和图像识别、翻译、无人车技术到医疗药品研究等,是公司的灵魂和骨干。这里我们梳理一遍谷歌 AI 的各个业务。

2.1. Google Brain 神经网络项目

2011 年 Google Brain 项目成立,创始人包括著名资深工程师 Jeff Dean 和当时斯坦福大学的吴恩达教授(Andrew Ng,现担任百度首席科学家)等。Google Brain 是很多我们熟悉的项目的摇篮,包括 TensorFlow、Word Enbeddings、Smart Reply、Deepdream、Inception

和 Sequence-to-sequence 等。

谷歌不断将世界各地的深度学习专家招致麾下。2013 年,谷歌收购了机器学习公司DNNresearch,并请来公司老板,世界上最著名的深度学习专家之一杰夫·辛顿(Geoffrey

Hinton)。接着在 2014 年 1 月,谷歌耗资 4 亿英镑收购了创建 Alphago 的深度学习公司DeepMind。Google X 的负责人 Astro Teller 在 2015 年接受纽约时报采访时表示,Google

Brain 成立五年以来创造的价值几乎可以覆盖掉目前 Google X 项目之前的所有花费。

吴恩达教授在2011年加入了Google X实验室团队,进行深度学习(Deep Learning)的研究,并与团队合力打造了谷歌第一代深度学习系统 DistBelief。在 2012 年 6 月,《纽约时报》曾报道 Google X 里面的深度学习系统运用一个包含有 16000 台电脑的集群服务器模仿人脑

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 22

活动,已经能够通过自我训练(Unsupervised Learning,相对于 Supervised Learning,就是不须要将数据预先标签好给电脑系统,而且这种学习是非常接近人类学习的模式 )从YouTube 的 1000 万张视频图像中识别出一只猫的图像。这个实验同时也证明了,很多已有的机器学习算法终于达到商业化的可行性,在很大程度上是有赖于硬件的成本下降和云计算的出现。

图 30:神经网络深度学习方法示意图

资料来源:天风证券研究所整理

Jeff Dean 表示,相对于 2014 年初的寥寥几个,目前已经有超过 600 个谷歌的产品在使用Google Brain 的技术。深度学习对谷歌来说至关重要。在训练电脑进行图像和视频识别方面是一个非常高效的工具,能让计算机具备与人类相当的人脸判断、物体识别能力、以及自然语言分析方面的能力。Google Brain 目前的应用也包括在 2015 年 11 月推出的 Gmail

智能回复(Smart Reply)。系统使用深度神经网络在对邮件文本内容扫描之后会自动生成快捷回复选项推荐给用户。

2.2. 第二代机器学习开源平台:TensorFlow

第二代深度学习软件工具包 TensorFlow 也是从 Google Brain 项目中产生。2015 年 11 月谷歌宣布在 Apache 2.0 开源协议下开源 TensorFlow,支持卷积神经网络(Convoluted Neural

Networks, CNN)、长短期记忆网络 (Long Shirt-term Memory, LSTM)、递归神经网络(Recurrent Neural Networks, RNN)等,目前主流的神经网络模型。用户可以直接使用这软件包,将大量的数据投入进去,然后按照以上各种机器学习算法去“训练”电脑“学习”,最后用作分析自然语言、翻译、辨认手写字、照片标签、甚至自动产生艺术图案等。此外,TensorFlow 提供的大数据深度学习算法也可以直接应用到多种行业,包括销售和保险。TensorFlow 的主要编码是用 Python 和 C++来写的,可以在多种硬件平台,包括在 64-bit

Linux 或 Mac OS 的 PC 与服务器上运行,也可以在移动端系统 iOS 和安卓上运行,或在多个 CPU 和 GPU(分布式系统)上一起运行。

谷歌之所以要开放机器学习系统 TensorFlow 的编码,是因为公司掌握了对于人工智能引擎更为重要的数据基础,而且开源编码也可以促进建立与未来开发者的合作关系,进一步推进公司在机器学习方面的领先地位。Jeff Dean 表示,开放编码并不是一件完全无私的行为,当所有开发者都在同一个平台使用相同语言进行建模时,公司未来在聘用人才时会有更大的优势。

人工神经网络包含了很多层的虚拟神经元。原理是类似于大脑神经突触联接的结构,对输入的数据进行处理及不断“学习”。人工神经网络不止一层的结构,使得神经网络能够识别抽象特征。谷歌的第一代深度学习系统是 DistBelief,它没有开源,而且它不需要在 GPU

上运作。主要应用方向包括自主学习、强化学习、图像分类、视频分类、语音识别、行为预测、围棋人工智能等领域。谷歌表示有超过 50 个项目小组使用这个学习系统,包括搜索引擎、广告投放、谷歌地图、街景、Photos 图片识别、Gmail 自动回复、谷歌翻译、YouTube

视频缩略图识别等,多项机器深度学习领域。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 23

图 31:谷歌 TensorFlow 的监督机器学习(supervised learning)训练与测试运行流程

资料来源:谷歌研究所官方博客,天风证券研究所整理

TensorFlow 的命名起源于该系统的运作原理。多维数组(multidimentional arrays)有时候会被称为结构张量(Tensor)。而多维数组所代表的数据会被传输至人工智能神经网中进行分析和处理。TensorFlow 的性能比第一代人工智能系统 DistBelief 快达 5 倍。在编程方面,TensorFlow 采用了一种称作算法图表(computation graph)的数据流编程模式。使用 Tensor

统一来表示向量、矩阵、三维及以上张量,相比较大部分机器学习操作的对象都是以向量、矩阵的形式存在,很少使用高维度张量。

2016 年 2 月,谷歌发布面向生产环境的 TensorFlow Serving,一个高性能、开源的机器学习服务系统。这个服务系统面向生产环境并且优化 TensorFlow 设计,适合运行多个大规模模型,支持模型生命周期管理、多种算法实验及有效地利用 GPU 资源,能够让模型更快、更易于投入生产环境。

用户将训练数据集放入学习系统内,系统会生成一个模型,然后便可以部署到服务系统中。此后 TensorFlow 使用训练好的模型对用户输入的新数据进行推理和预测。随着用户新的数据的输入和模型改进,服务系统会不断地迭代生成新的模型版本。

图 32:Tesorflow 的部分编程 图 33:编程反应处理图(computation graph)

资料来源:Tensorflow 研究论文,天风证券研究所 资料来源:Tensorflow 研究论文,天风证券研究所

2016 年 4 月,谷歌旗下开发出 AlphaGo 围棋机器人的 DeepMind 公司宣布他们日后所有的研究项目都将使用 TensorFlow 平台。DeepMind 的研究员 Koray Kavukcuoglu 表示,DeepMind 此前一直使用开源机器学习数据库 Torch7 作为公司研究项目的主要研究平台。

在 2015 年 11 月 TensorFlow 开源后,在 6 个月的时间内 DeepMind 对 TensorFlow 平台进行了测试,并对这个平台的运行时执行(runtime execution)、构建应用程序原型(prototyping

applications)的速度以及处理大数据的能力表示满意。作为开源平台 Torch7 的核心开发者之一,Koray Kavukcuoglu 表示 Torch7 目前正被包括 Facebook、Twitter 以及很多初创公司所使用。他认为 DeepMind 公司把所有研究项目从 Torch7 转移到 TensorFlow 平台,代表着公司研究领域新篇章的开始。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 24

2.3. 谷歌的最新搜索算法:RankBrain

谷歌于 2015年 10月宣布为其搜索算法加入一个新的自动化人工智能搜索系统 RankBrain,背后的软件系统就是 TensorFlow。RankBrain 系统将帮助谷歌处理搜索结果和提供相关信息,每天能够处理谷歌搜索里 15%的以前无法处理的搜索请求。谷歌表示 RankBrain 目前已经成为其搜索算法中第三重要的组成部分。顺带一提,谷歌搜索用到的几百个搜索算法“信号”,而 RankBrain 只是其中之一。

RankBrain 通过人工智能系统将搜索请求中的多字查询,即长难句和自然语言等,转化为计算机可以理解的数学向量(vector),有效提升搜索算法理解自然语言、补全搜索语句、处理词汇关联方面的能力。谷歌表示 RankBrain 能够观察看似无关复杂搜索之间的模式,并理解它们实际上是如何彼此关联的,以及知道它们是否与特定主题相关,将这些搜索组与它认为最匹配的搜索结果关联起来。

虽然 RankBrain 只是谷歌搜索算法中数百个信号源之一,但是上线短短数月就已经成为整个算法第三重要的组成部分。谷歌将其最核心的搜索业务部分交给人工智能来完成,也符合公司在人工智能方面发展方向。Facebook 将人工智能技术用于其社交网站的定制化个人主页上的新闻推送筛选过程中,微软也使用了人工智能技术来提高其搜索引擎 Bing 的搜索结果。

2.4. 谷歌无人车还是谷歌司机

谷歌无人车原来是 Google X 旗下的一个全自动驾驶汽车项目,但最近刚从实验室毕业,并改名为 Waymo,这也反映谷歌对于无人车在 2020 年开始普及的信心。项目起始于 2009

年,由斯坦福大学人工智能实验室前领导人及谷歌街景项目的联合创始人 Sebastian Thrun

负责。

现在的负责人是曾担任现代汽车美国分公司 CEO 及汽车电商 TrueCar 总裁的 John Krafcik。谷歌车目前获得了美国 4 个州的测试牌照,并且最近从实验室毕业,分拆为一家名叫Waymo 的谷歌子公司,最近通过与菲亚特-克莱斯勒集团以及本田达成合作意向,正式开始商业化之路。

无人车已经在美国的四个州和首都华盛顿合法化,包括在 2011 年 6 月 29 日在内华达州通过,并发出第一张无人车牌照给一辆装有谷歌实验无人驾驶系统的丰田普锐斯;在 2012

年 4 月佛罗里达州也通过无人车法案;接着加州成为第三个通过的州份,加州州长在谷歌Mountain View 总部签订生效;在 2013 年 12 月,传统汽车生产州密歇根州也通过。另外,在 2014 年 7 月,爱达荷州内城市 Coeur d’Alene 也通过。

谷歌的无人驾驶测试包括两个部分:1、使用市面上已有车型安装控制系统进行自动驾驶控制;2、在 2014 年提出的无方向盘、无刹车踏板结构的无人车概念,并在 2015 年推出可进行公路测试的无人车原型。谷歌使用过的车型包括丰田普锐斯、雷克萨斯 RX450h SUV

和奥迪 TT,进行测试的汽车均安装了控制系统 Google Chauffeur。每台无人车都配备了驾驶员,以在必要时可以随时转为人工驾驶控制车辆。截止到 2016 年 10 月,谷歌无人车已经行驶了超过 220 万英里,车辆在加州 Mountain View、德州 Austin、华盛顿州 Kirkland

和亚利桑那州的凤凰城市区测试。

谷歌在 2014 年底提出了无方向盘、无刹车的无人车原型概念,设计为完全无人驾驶模式,主要部件包括一套由 64个激光单元组成的 LIDAR(Light Detection and Ranging)传感计算系统。这 64 个激光单元能够每秒旋转 900 次进行扫描来绘制出 360 度的 3D 环境视野。LIDAR

传感系统是由一家叫做 Velodyne 的公司设计研发的,其市场销售总监表示,谷歌无人车上使用的这套带有 64 个激光单元的 LIDAR 系统价格在 7.5-8.5 万美元之间。

Velodyne 公司设计的这款 64 激光单元传感系统拥有 120 米扫描半径,水平 360 度及垂直26.8 度视野(Field of View),0.08 度角分辨率,0.4 度垂直分辨率,扫描精度小于 2 厘米,每秒扫描点数量超过 220 万次。传感系统里的 64 个激光单元阵列能为无人车的导航和地图扫描系统提供支持。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 25

图 34:谷歌无人车的 3D LIDAR 图像 图 35:LIDAR 扫描车身周围环境示意图

资料来源:MIT Technology Review,天风证券研究所 资料来源:Velodyne 官网,天风证券研究所

除此以外,谷歌无人车还装备有其他传感器,包括:分别装载在前后保险杠上的四个车载雷达,用来扫描在汽车身处高速公路时的快速车流状况;一个安装在后视镜上的摄像头,用来捕捉交通信号灯提示;GPS、惯性测量器以及车轮编码器(wheel encoder),来测定无人车的运动轨迹和实时位置。

谷歌还为无人车配备了专门的人类驾驶员,用来在出现紧急状况时转换为人工驾驶。所有的驾驶员都经过专业培训,并会谨慎地判断何时需要进行人工驾驶,当驾驶员发现无人车在紧急状况下无法做出安全动作时,他们会接管驾驶。后台的技术团队会记录整个接管过程,并重演现场状况,来演示当没有人工接管时,无人车的运动情况。这些数据都会进一步的反馈到无人车系统中,用来解决未来可能出现的类似情况。

谷歌无人车上最重要的技术还是它的 Google Chauffeur 人工智能控制系统。无人车上使用的 LIDAR 传感系统,搭配摄像头,车载雷达以及高分辨率的道路地图,能够实时向控制系统传送 3D 路况信息。当摄像头和 LIDAR 传感系统将车身周围环境扫描并输入电脑后,电脑系统根据物体的形状、大小、运动形式等特点判断物体的类别,他们通过这个方法来判定交通信号、其他车辆、自行车手和人行道上的行人等。谷歌团队表示随着系统的完善,他们能够做到在同一时间内分析处理道路上上百个不同的物体,甚至包括交通协管员举着的停止标志以及自行车手示意转弯时伸出的手臂。最重要的是,人类无法同时处理如此多的交通信息而且很容易被干扰和分心,而这套系统就不会。然后系统预测这些物体下一步可能的动作,例如自行车手可能变道或者行人可能要穿过马路。之后系统就会选择安全的行驶速度和行驶轨迹来避让行人。

要做到上面这些步骤,需要无人车的 Chauffeur 系统经过大量数据的模拟和训练。所以在投放无人车进行公路测试之前,谷歌的工程师会先一遍一遍地在马路上驾驶收集环境数据,把这些数据输入到控制系统中。当无人车真正上路行驶时,系统会对比实时路况和之前数据的区别,这样可以让系统更准确地区分行人和原来道路上静止的电线杆、邮筒等物体。

谷歌无人车的下一步进展

谷歌无人驾驶项目技术负责人 Dmitri Dolgov 最近公开表示,谷歌做的并不单纯是无人车业务,而是制造超级司机。Dolgov 认为驾驶是一项社会活动,这意味着无人车不仅需要探测并识别出路面的行人和物体,还要理解对方的行为,并作出交互反应。

在这个基础上,谷歌的无人驾驶系统已经具备理解行人手势的能力,只要是行人与司机在道路上统一使用的符号型沟通方式,谷歌无人车都能正确识别并作出反应。对于谷歌来说,制造一名合格的司机意味着一整套传感器和软件的相互配合,这与使用什么样的车型无关。

Dolgov 表示,谷歌以前使用过丰田普锐斯、雷克萨斯和自己的原型车,现在正在和菲亚特克莱斯勒的新平台上合作开发,只要软件系统搭建好,车型关系不大。这就类似用户去租一辆车,刚开始会和自己的车不太一样,需要一些时间去适应,但是核心操作没有变。无人车与人类驾驶员的一个不同在于,无人车相互之间还会通过云进行沟通,这意味着只要一台无人车学会了什么新的驾驶技能,其他的无人车也马上就能学会。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 26

但车联网也意味着被黑客攻占网络的风险,不过从无人车构想之初谷歌就把这个风险考虑了进来。Dolgov 介绍到,谷歌将车辆间通信的通道与车辆电子控制的通道进行隔离,限制可共享的信息量,并划分出一个安全区,使得外部入侵者不可能接触到本地驾驶操作。

谷歌无人车技术研发

2016 年 5 月,谷歌研究团队为无人车设计了自动鸣笛功能,他们希望无人车能够像一个有礼貌的人类司机一样,在驾驶过程中遇到必要情况时谨慎地使用鸣笛功能。谷歌认为让无人车具备自动鸣笛功能,能用来提醒车身周围的其他物体,例如示意突然转向要驶入无人车所在车道的其他车辆、或者从隐蔽的车道倒车出来时进行提醒。

研究团队需要让无人车经历各种复杂车况以及误报情况,来让系统学习何时鸣笛是最有效的。随着这项功能的逐步优化,目前谷歌无人车配备了基于不同情况的不同鸣笛声,包括简短的两声蜂鸣来善意提醒来车,或者在紧急状况下的长鸣。

图 36:谷歌无人车识别超过 100 辆自行车 图 37:谷歌无人车识别车道封闭情况

资料来源:谷歌无人车项目每月报告,天风证券研究所 资料来源:谷歌无人车项目每月报告,天风证券研究所

2016 年 6 月,谷歌在安全方面又取得了一些进展。他们把焦点在自行车手的识别上面。谷歌无人车的激光雷达和传感器可以识别出各个方向的骑车者,甚至是从各个方向一起涌过来的自行车都能识别出来。像图 36 这样,大概有 100 辆自行车围绕在无人车的周围,但无人车仍然能把这些一个个的个体当作黄色立方体识别出来,同时还包括了各种可能的运动轨迹预测。

图 38:谷歌无人车专利图示 图 39:谷歌无人车专利图示

资料来源:美国专利局,天风证券研究所 资料来源:美国专利局,天风证券研究所

谷歌在 2016 年 9 月表示,虽然无人车的前 100 万英里无人驾驶花了 6 年时间,但是之后的 100 万英里路程只花了 16 个月就完成了。工程师们正在教导无人车一些更为高级的驾驶技术(最后 10%的任务),比如说无人车在面对紧急车辆、施工区域、车道封闭等突然变化的路况时,具备了更好的检测与反应机制。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 27

谷歌表示,平稳而从容的应对紧急路况变化是非常重要的高级驾驶技能,这不仅能使车内的乘客,还有车外的其他驾驶员、行人等都感到更为安全。

虽然谷歌没有公开讨论无人车软件系统里面的一些算法,但是我们认为这个系统是集合了机器学习里面的多种算法,包括图像识别和机器视觉算法去辨认路面的各种移动和静止物体(人、动物、车辆、自行车、路牌、路障、交通信号灯等)。谷歌无人车对实时位置有着精确的要求,只靠 GPS 往往只能提供一个误差在几米内的大致范围,所以需要 GPS 系统定位和长期以来收集的路面数据共同确定每一个场景的准确性。通过无人车内的测试员对每一个交通场景下驾驶系统的反应进行人工判断和反馈,来优化整个人工智能系统算法。

2.4.1. 日趋激烈的无人车市场

2016 年 5 月,Uber 公布了一张旗下的无人车官方照片。这是在美国匹兹堡街头进行地图数据收集和无人驾驶性能测试的照片。Uber 的无人驾驶传感系统搭载在一辆福特 Fusion

混合动力轿车上,包含有雷达、镭射扫描仪、高分辨率摄像头等零件,同时还有一名人类驾驶员监控实时驾驶情况。

10 月,Uber 和美国最大啤酒制造商 Anheuser-Busch 使用 Uber 旗下一辆无人驾驶卡车将4.5 万罐百威啤酒运达了一座仓库,全程 120 英里——这是无人驾驶货车首次运用于实际的商业运输。Uber 在 8 月以 6.8 亿美元收购的无人驾驶卡车初创公司 Otto 承担了此次货运。Otto 的硬件目标是适用于任何具备自动换挡功能的的卡车,同时尽量降低改装量。这套自动驾驶软硬件包含六个激光雷达、一个普通雷达以及一个高精度摄像头。车头跟拖车各安装三个激光雷达探测单元,保险杠配备了一个雷达,挡风玻璃顶部再装一个高精度的摄像头,总造价约 3 万美元。

图 40:Uber 公布旗下无人车技术官方照片 图 41:疑似装有无人驾驶部件的雪弗兰电动车

资料来源:Uber 官网,天风证券研究所 资料来源:Wired,Engadget 等,天风证券研究所

无人驾驶市场的竞争正在升温。2016 年 1 月,通用集团向 Uber 的竞争对手 Lyft 投资了 5

亿美元,共同测试无人驾驶出租车。到了 3 月,通用集团再花 10 亿美元收购了美国一家无人驾驶技术研发公司 Cruise Automation。另外,在 5 月份也有一辆很可能搭载了无人驾驶传感部件的雪弗兰 Bolt 电动车行驶在美国旧金山街头。苹果也在 5 月份向滴滴出行投资了 10 亿美元。今年 8 月,Uber 又花费 6.8 亿美元收购了刚刚成立 8 个月的无人驾驶卡车创业公司 Otto。

除了传统车企纷纷涉猎无人驾驶,汽车芯片厂商也开始布局汽车电子。10 月份高通斥资390 亿美元收购恩智浦(NXP),进军无人驾驶汽车芯片市场。英特尔除了与 Mobileye、德尔福、宝马强强联手,也在 11 月表示将向无人驾驶汽车领域投资 2.5 亿美元,包括开发车用芯片和车用软件。

我们认为传感器升级、驾驶决策系统优化以及车载电脑相关芯片将成为行业三大切入点。行业优势资源的聚拢整合有助于快速推动科研项目往商业化落地的进程。2017 CES 前瞻可以看到人工智能成为绝对主角,无人驾驶将协同智能助理一并成为大会上兵家相争的新风口。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 28

谷歌(GOOGL.US)旗下 WAYMO 与菲亚特克莱斯勒合作的商用自动驾驶汽车有望在CES 2017 正式亮相。

Mobileye(MBLY.US)与德尔福(DLPH.US) 和英特尔合作,将在会上展示 10 公里自动驾驶路测。

本田(HMC.US)宣布将会在CES2017上展示一辆名为NeuV的纯电动型自动驾驶概念车,并且搭载有一套名为 emotion engine 感情引擎的 AI 系统。

图 42:谷歌 Waymo、德尔福、本田 NeuV 智能汽车

资料来源:Wired、Delphi 等网站,天风证券研究所

此外,当无人驾驶技术真正成熟时,我们预计会看到技术最先应用在租车和打车市场上,也就是我们常说的自动驾驶出租车(self-driving cabs)的共享经济概念。Uber 一直以来的打算就是未来的叫车服务将不再需要人类驾驶员,Uber 完全控制驾驶系统以及自有车辆,这样可以极大地节约人力成本与提高车辆的使用率,从而减低路面的拥堵。

通用管理层曾表示,旗下这款雪弗兰 Bolt 电动车非常适合完成向无人驾驶的转化。通用与Lyft以及Cruise Automation的合作就被看作是通用希望未来人们使用 Lyft打车时搭乘无人交通工具。通用集团总裁 Dan Ammann 表示他们非常清楚地看到了未来自动驾驶出租车市场的巨大发展空间,他们也认为无人驾驶技术最先应用的地方就是拼车及租车服务。

2.5. 机器学习和机器视觉的结合:图像识别

Google Brain 的另一个应用就是在谷歌地图和街景里。在过去,谷歌员工必须亲自检查街景上的数字,以判断它是电话号码、涂鸦还是真实的地址。2014 年开始,地图识别工作交由深度学习系统进行。谷歌工程师利用新的人工智能系统,破解了图像识别方面的难题,现在谷歌能够在一小时内识别出法国街景地图上的所有地址。

2013 年,谷歌宣布将计算机视觉或机器视觉(Computer Vision 或 Machine Vision)跟机器学习技术加入其图片搜索功能中,用户只需要输入查询的物品名称就能获得相应的照片搜索结果。

图 43:谷歌图片识别原理图

资料来源:天风证券研究所整理

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 29

在 2014 年的计算机视觉识别挑战赛(ImageNet Large-scale Visual Recognition Challenge,

ILSVRC)中,谷歌团队 GoogLeNet 获得了冠军。顺带一提,在 2012 年 DNNResearch 就是以卷积神经网络(convolutional neural network)研究获得冠军。这个全球最大的计算机视觉学术挑战赛将图片识别技术分为三个部分进行考察:物品分类、物品位置分类和物品探测。1、物品分类考察的是识别算法能否为图中物品标注正确标签;2、物品位置分类考察算法对图中物品的正确位置和标签的标注准确性;3、物品探测有着更为严格的评判标准,在这部分的考察中,图片中物品会相对较小且难以识别,系统需要对所有物品进行准确识别和标注。

图 44:谷歌图片搜索功能展示 图 45:谷歌图片识别功能演示

资料来源:谷歌官方博客,天风证券研究所 资料来源:谷歌研究所官方博客,天风证券研究所

谷歌团队在物品分类和物品探测两个部分获得了第一。谷歌使用的图片识别技术基于第一代深度学习系统 DistBelief 构架,核心技术是重新设计的卷积神经网络和分布式学习。这个神经网络最少包含有超过 100 层卷积层以及超过 20 层参数层,基于赫布理论(Hebbian

Principle)以及扩张不变性(如维纳过程,Wiener process)。不过神经网络的探索深度和宽度的大幅增加都是以评估花费时间的增加为代价。谷歌团队的神经网络架构相较于其他团队的神经网络减少了超过 10 倍的参数设置,从而减少了训练过程中的过度拟合(overfitting),并降低对内存资源的占用。

这项计算机视觉技术能够广泛运用于其产品中,包括图片搜索、YouTube、无人车路况识别等,只要是需要用到识别图片中有什么物体以及物体在什么位置,都能够使用这项技术。比如说Allo里面意大利面的例子就是先辨认出物品是什么,然后再用自然语言去组织回复。

在 2012 年,深度神经网络研究公司 DNNResearch 以卷积神经网络(convolutional neural

network)研究获得 ILSVRC 的冠军。谷歌利用与这个公司类似的模型进行训练并发现获得了较之以往结果 2 倍的平均准确率。

2013 年谷歌收购了 DNNresearch,并迅速将这个公司的技术应用到谷歌的大规模计算中,尤其是在图片搜索领域。虽然谷歌与 DNNResearch 使用的都是卷积神经网络(基于 90 年代 Yann LeCun 教授提出的用来对手写书信和数字进行识别的算法),不过现在计算机的运算能力已经能够支持大型神经网络进行大数据的有效处理。在十年前,处理单张图片就需要耗费巨大资源,而现在计算机能够同时处理数百万张图片。此外,算法上的优化也让新的神经网络训练方式更具效率。

谷歌认为神经网络图片识别领域有五点值得一提:

1、泛化性能(Generalization performance):相对于板块特定学习,泛化性能是指经训练后的神经网络对未在训练样本集中出现的样本作出正确反应的性能。虽然谷歌在训练神经网络时使用的训练图片与真正现实生活中的网络图片有一定出入,但是神经网络表现出良好的泛化性能。

2、对同一类别物品的多形态外观识别:例如当搜索“车”时,图片识别系统能够返回包括车辆外部视角和内部视角的不同图片。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 30

3、对抽象和概括性概念的识别:谷歌的图片识别系统能够对用户提出的一些看起来比较抽象和概括性的词汇返回结果。例如“跳舞”、“拥抱”、“晚餐”等,这样的词汇很难在图片中找到合适描述的数据线索。一般常用的视觉参数,包括颜色、形状、材质等,在这里都不适用,然而谷歌的神经网络也能够返回良好的图片搜索结果。

4、合理错误:虽然经过训练,神经系统也会在图片识别时犯错,不过谷歌的识别系统错误识别的图片,在人类看来都是可以接受的,例如将一条蛞蝓识别为一条蛇。其他的图片识别系统所犯的错误在人类看来不可理解,例如将一棵树识别为一只狗。

5、对细分物品子类别的识别:谷歌的图片识别系统能够对细分的子类别进行良好的识别,比如在对“花”分类下的“木槿”或是“大丽花”的有效判断。

2.6. 自然语言理解开源平台:SyntaxNet

2016 年 5 月,谷歌开源了其基于机器学习平台 TensorFlow 的自然语言理解(Natural

Language Understanding, NLU)平台 SyntaxNet。在公布了所有训练 SyntaxNet 所需要的编码之外,谷歌还发布了针对英语的训练解析(English Parser)程序 Parsey McParseface。它应用于分析语言的结构(linguistic structure),并且可以解释各单词在语句里的功能。

谷歌对语句进行了人工标记(tagging),就是对一句话中的每个单词的语义功能和语法含义(part of speech)进行标记,并确定各个单词之间的语义语法关联,最后形成依存分析树(dependency parse tree)。

图 46:谷歌人工标记的语句依存分析树

资料来源:谷歌研究所官方博客,天风证券研究所

对于 Parsey McParseface 这样的语义分析器来说,自然语言处理最主要的问题就是相当高的语言歧义程度(ambiguity),对于一句常见的 20-30 字的英文句子,甚至可能包含上万种语义关联结构。这是因为长语句中的多重歧义点组合会带来整体语义歧义程度的大幅提升,进而大幅增加语言分析处理的复杂程度。语言分析器一般需要遍历所有可能的语义关联结构,才能找到最符合上文下理的语义解释。

图 47:SyntaxNet 神经网络语义判断决策流程

资料来源:谷歌研究所官方博客,天风证券研究所

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 31

SyntaxNet 使用了深度神经网络来解决语言歧义的问题。在输入需要分析的语句后,SyntaxNet 从左至右对每个单词进行处理,逐步添加分析语词之间的依存关系。每处理一处,就会产生新的可能语义依存关系。谷歌于是使用神经网络对每一个歧义点的语义依存关系的逻辑合理程度进行打分。

在这里,神经网络模型使用的是定向搜索(beam search)技术,在每一步搜索中都保存多个局部假设(partial hypotheses),而不是直接选择最佳决策(best-first decision)。只有当随后有更高分数的假设被纳入考虑范畴时,低分数的假设才会被丢弃。原理其实跟 AlphaGo 走棋算法是非常类似。

对 SyntaxNet 神经网络的训练,谷歌人工标记了构成训练的自然语句。神经网络学习完所有这些标记好的句子后,就可以分析判断对其他句子中类似单词的语义功能。

在语义分析的准确度上,谷歌随机选用了英文新闻专线中的句子。Parsey McParseface 对句子中单词依存关系的分析准确度达到了 94%,超越了此前所有的语言分析工具,而经过专门训练的语言学家的语言分析准确度约为 96-97%。这表明谷歌的语言处理器在分析编辑完好的文本方面正在接近人类水平。不过,如果把测试集改为随机性与复杂性都更高的网络上捕捉的语言时(例如社交媒体和搜索查询),Parsey McParseface 也能够达到大约 90%

的准确度。

2.7. 自然语句理解和机器翻译:Gmail / Inbox 智能回复

Gmail 智能回复也是 Google Brain 的产品,在 2015 年 11 月推出。Gmail / Inbox 智能回复就是使用深度学习(deep learning)的技术去编写邮件回复。Gmail 通过机器学习技术识别需要用户进行回复的邮件,并提供三个合适的候选回复答案,用户只需要点击选项便能轻松回复邮件。而且系统也会按照用户的选择“自学”,不断改进自动回复的内容,从而提供更好的回复选择。谷歌在 2016 年 2 月的财报电话会议上还提到,已经有 10%的用户在使用Inbox 的智能回复功能。

谷歌结合自然语句的理解和机器翻译,在 2014 年研究了一种端到端(End-to-End)的序列到序列学习(sequence-to-sequence learning)方式去生成自然语句。他们发现这种学习方法在理解对话语法方面的效率较佳,于是他们搭建了一个人工智能聊天机器人(chatbot),能够进行有趣的人机交流,虽然他们没有为程序加入详细的语法知识。此后他们将这个序列到序列的学习加入 Gmail 的项目中,构成了智能回复的核心功能。Gmail 智能回复在此前曾经以机器学习的技术研发过垃圾邮件侦测和邮件分类。

图 48:谷歌 Gmail 智能回复功能展示

资料来源:谷歌研究所官方博客,天风证券研究所

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 32

智能回复系统使用的是一对递归神经网络(RNN),其中一个用来将邮件文本转化为机器代码(encoding network),一个用于推测可能回复选项(prediction network)。第一个网络将邮件文本单词进行单个处理,生成一个数字向量(a list of numbers),称之为“想法向量”(thought vector),这个向量抓住语句核心意义,忽略修辞手法。例如“明天你有空吗?”(Are you free tomorrow?)与“那明天你可以吗?”(Does tomorrow work for you?)语义相近。第二个神经网络从“想法向量”开始,按每个词生成一个语法正确的智能回复。

由于很多邮件文本长达数百个单词,工程师选择了递归神经网络中的长短期记忆神经网络(Long-short Term Memory)来处理长句。这个网络能够有效的选择出邮件中可能需要回复的部分,忽略掉可能产生干扰的其他部分。值得一提的是,谷歌非常重视私隐,所以工程师是没有看过邮件的内容,这也增加了问题的难度。

图 49:谷歌 Gmail 智能回复神经网络

资料来源:谷歌研究所官方博客,天风证券研究所

在让系统自行选择三个最好的智能回复显示出来的时候,工程师发现系统有时候会选出类似“明天怎么样”,“明天想要一起出来么”,“我们明天见吧”等在意义上没有区别的选项。因此工程师又开发出一个机器学习系统将自然语句回复和语义意图(semantic intents)相对应,并有效解决了回复选项不只是单词不同,还有其背后的语义不同的问题。

还有一个奇怪现象就是,这个智能回复系统会倾向于选择“我爱你”来作为所有问题的回复。这是因为神经网络在进行学习时发现“谢谢”、“听起来不错” (sounds good)及“我爱你”是人类最常用的三个回复,而系统在不确定回复内容时会选择这三个回复作为安全的选项。因此工程师修改了系统在预测回复时的评价指标,不能选择最有可能的回复,而需要选择与原文最贴近的回复选项,这个举措会让智能回复系统不那么可爱,但是却更加实用。

2.8. Allo 智能回复背后的 AI

谷歌的智能回复已经应用到邮件服务 Gmail / Inbox 中,而在 Allo 中,应用程序也能通过对用户的对话记录来生成智能回复选项,而且它为了更好地理解用户的对话语义,会学习用户的个人说话方式,因此每个人的智能回复都是“私人定制”的。

我们在上文里面介绍到,Gmail / Inbox 的智能回复功能使用的是一对递归神经网络(RNN)

组成的“编码-解码”(encode-decode)两步模型,这个模型在进行语句序列预测时已被证明为较准确。这次 Allo 团队从一年前开始进行针对聊天软件智能回复技术的研发,第一个问题就是聊天软件对智能回复选项的生成有非常严格的延迟限制,如果不能及时生成回复选项,用户就会失去使用的耐心。Allo 团队使用了一个类似“编码-解码”两步模型的方法,首先使用一个递归神经网络将对话语句一个词一个词进行编码生成对应口令(token)。然后口令进入长短期记忆神经网络(Long-short term memory, LSTM)生成一个连续向量,这个连续向量会进一步通过 softmax 模型生成一个离散语义结构(discretized semantic class)。如下图所示,当提问句为“Where are you?”时,神经网络会将问句三个单词生成 3 个口令,然后进行下一步处理。

每一个离散语义结构都包含了一组可以用来回复的可选择单词组。Allo 团队下一步就是使用第二个递归神经网络来从可选择单词组中挑出最合适的回复。这个递归神经网络也是让

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 33

离散语义结构进入长短期记忆神经网络(LSTM)中,不过这次长短期记忆神经网络(LSTM)会生成完整的回复消息,生成方法也是一次一个口令,然后解码成为自然语义单词。如上图所示,经过第二个递归神经网络中的长短期记忆神经网络(LSTM)处理,系统生成了对刚才“Where are you?”提问的回答:“I’m at work”。

图 50:神经网络将问句三个单词生成 3 个口令 图 51:谷歌语音识别神经网络的输出示意图

资料来源:谷歌研究所官方博客,天风证券研究所 资料来源:谷歌研究所官方博客,天风证券研究所

Allo 团队提到,长短期记忆神经网络(LSTM)生成的每一个离散语义结构都包含了大量可选择单词组,为了提高选择效率,他们使用了定向搜索(beam search)技术。这项技术是用来对搜索域中最优解进行向下拓展的启发式搜索算法。Allo 团队在处理大数据时候遇到的第一个问题就是模型第一部分中的递归神经网络需要 0.5 秒的时间给出反应,为了减少延迟,团队将模型部分中的 softmax 算法改成了分层式 softmax 算法,对可选择单词组的遍历从单词列表遍历改为了单词树遍历,成功将延迟控制在 200 毫秒以下。

Allo 团队解决的另一个问题是,模型生成的自动回复选项有时候会过长而不能适应手机屏幕,或者过短造成可用性不强。因此团队将定向搜索算法的倾向调整为去搜索使用效率更高的单词组路径,同时更好的适应屏幕长度的回复选项。

“私人定制”

Allo 的智能回复会随着用户的使用时间增加而更加反映用户的说话习惯。例如当用户在回答“How are you?”时习惯使用“Fine”而不是“I’m good”,Allo 会把这些习惯添加到神经网络中,把“说话风格”作为神经网络的一个参数项来进行回复推荐。如上图所示,Allo 团队把这部分调整项称为“用户嵌入”(user embedding),这部分功能可以作为神经网 络 训 练 的 一 部 分 , 而 且 他 们 使 用 了 L-BFGS(Limited-memory

Broyden-Fletcher-Goldfarb-Shanno 或在受限内存时的拟牛顿算法)来迅速生成海量“用户嵌入”数据。

图 52:神经网络将问句三个单词生成 3 个口令 图 53:谷歌语音识别神经网络的输出示意图

资料来源:谷歌研究所官方博客,天风证券研究所 资料来源:谷歌研究所官方博客,天风证券研究所

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 34

不只是英语

Allo 的智能回复不只对英语有效,而是对所有语言都能使用。开发团队使用基于图表关联(graph-based)的机器学习技术进行多语言之间的相互关联,并且连接了谷歌机器翻译团队的模型来进行单词翻译。

在这种图表关联技术中,团队使用的是半监督学习(Semi-supervised Learning)技术来进行语义理解。半监督学习(Semi-supervised Learning)技术是监督式学习(Supervised Learning)

与非监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。

2.9. 谷歌翻译:机器翻译系统与图像识别

2.9.1. 神经机器翻译系统

谷歌近日在机器翻译技术领域取得突破进展。谷歌发布的这个名为谷歌神经机器翻译(Google Neural Machine Translation system, GNMT)的系统,实现了机器翻译技术迄今为止的最大进步。

谷歌在 10 年前发布了谷歌翻译,背后的核心算法是基于短语的机器翻译技术(Phrase-Based Machine Translation, PBMT)。他们在几年前将递归神经网络 RNN 加入机器翻译中,来直接学习输入端(一种语言的一个句子)到输出端(另一种语言的同一句子)的映射,这种 PBMT 主要是将句子中的词和短语拆分进行独立翻译,很容易出现罕见词不识别以及上下文意不通的情况。

而谷歌此次使用的神经机器翻译系统(NMT),则将整个句子视作翻译的基本输入单元。NMT

相对于 PBMT 的优势在于能够减少工程设计。随着 NMT 的不断改进,研究人员又加入了外部对准模型(External Alignment Model)来标记罕见词。不过 Google Brain 的成员表示,GNMT 中没有使用外部对准模型的帮助,整个模型就是直接的端到端训练。下图是谷歌翻译、有道翻译以及百度翻译分别对“小偷偷偷偷东西”的英文翻译,可以看到,谷歌翻译完整的翻译了句子内容,而有道翻译与百度翻译分别根据各自的翻译规则省略了中文句子的部分内容,可以看出均是基于短语的机器翻译技术的思路。

图 54:谷歌翻译、有道翻译、百度翻译实例对比

资料来源:各翻译软件,天风证券研究所整理

谷歌神经机器翻译系统由 8个编码器和 8个解码器的深度长短期记忆神经网络 LSTM组成,并使用了注意链接(attention connections)和残差连接(residual connections)来连接编码器与解码器。系统将输入的汉语句子的词编码成一个向量列表,其中每个向量都表征了到目前为止所有被读取到的词的含义(即编码器),读取完整句子后,解码器就开始工作,一次生成英语句子的一个词(即解码器)。为了在每一步都生成翻译正确的词,解码器重点“注意”了与生成英语词最相关的编码的汉语向量的权重分布。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 35

图 55:谷歌神经机器翻译系统(GNMT)翻译机制

资料来源:谷歌研究所官方博客,天风证券研究所

此外:

1. 注意连接机制将解码器的底层连接到了编码器的顶层,提升了并行性并降低训练时间;

2. 为了增加最终翻译速度,谷歌在推理运算时使用低精度算法;

3. 在处理罕见词时,谷歌将词组分为由常见词组成的子词单元(sub-word units)的有限集合,同时作为输入和输出内容。这个方法能够有效平衡“字符(character)”限定模型(delimited

models)的灵活性与“词(word)”限定模型的有效性,自然地处理罕见词翻译,进而提升整理翻译质量。

这次的系统开发由 Google Brain 和谷歌翻译团队共同完成,使用了谷歌的开源机器学习平台 TensorFlow 以及张量处理单元 TPU,保证了系统的计算能力以及严格的延迟要求。新系统在多个主要语言的翻译中将翻译误差降低了 55%-85%以上,在英语到西班牙语的翻译中,以满分 6 分计算,新系统的平均得分为 5.43 分,与人类翻译的 5.55 分相差无几。

图 56:满分 6 分记,人类翻译、谷歌神经翻译与 PBMT 的得分对比

资料来源:谷歌研究所官方博客,天风证券研究所

谷歌同时宣布已将该技术应用到汉语-英语语言的翻译中,目前谷歌翻译的汉英翻译已经在使用这套系统完成所有的翻译请求,大约是每天 1800 万条。并且希望在未来几个月内,继续将 GNMT 扩展到更多的语言对翻译上。不过 Google Brain 的成员同时表示,在任何情况下机器翻译替换人类翻译还是有一定难度。现在的机器翻译都是基于已经出现过的语言现象,而人类语言是在不断进步、不断出现新生词汇。不过机器翻译在结构化比较高的文

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 36

章中,比如论文、科技文献上的应用将会非常有效,因为例如医学论文领域的文章,使用的词汇非常固定,部署机器翻译系统能够非常快的提高翻译精确度。同时在新闻时事短讯的翻译方面,机器翻译也能利用新闻写作比较固定的思路,以及阅读人群不会关注文笔而更注重信息传达的特点,发挥更大的作用。

2.9.2. 融入了图像识别的谷歌翻译

2015 年 7 月,谷歌宣布其谷歌翻译应用程序在手机上已经支持超过 27 种语言的摄像头即时翻译。

a. 首先,谷歌翻译通过征测摄像头拍摄的照片中的字母,排除掉图片背景中的其他干扰物体,并选择像素颜色以及像素位置相近的部分,来确定可能需要翻译的字母。

b. 之后,谷歌翻译需要识别具体字母是哪个。这里研究团队利用卷积神经网络(CNN)的深度学习技术,对系统进行字母和非字母图像的训练让其能够分辨不同字母的图案。

不过现实中的字母图案不一定都能清晰显示的,所以团队专门搭建了一个字母生成器来模拟现实生活中字母图案的反光、模糊、污渍、变形等效果。团队没有使用现实世界的字母照片作为训练集,原因是现实样本量不够,特别是一些生僻语言的图片,另外,现实样本的特征变量太多,团队很难控制变量让系统能够进行有效学习。所以团队选择自己生成模拟污渍干扰效果。

c. 第三步就是将识别好的照片放到词库中寻找对应单词。团队加入了近似单词查询的内容,例如当图片中“S”识别为“5”时,系统也能找到“5uper”对应的单词。

d. 最后一步就是将翻译好的单词使用相同的字体和效果覆盖到原图中。系统识别到字母周围的像素色彩,便能将原有字母涂去,覆盖上翻译好的单词字母。

目前团队正将这项实时翻译技术部署到运算能力一般的智能手机中。团队为系统设定了需要处理的信息密度上限,让其专注于正确的数据集。同时团队优化调整了系统的计算方式,让其更加适配智能手机的内存等级以及处理器数据流指令。

图 57:谷歌翻译摄像头即时翻译功能展示

资料来源:谷歌研究所官方博客,天风证券研究所

2.10. AlphaGo 背后的大师:DeepMind

谷歌 DeepMind,原名为 DeedMind Technologies,是一家英国人工智能公司,由三位在伦敦大学学院(University College London, UCL)认识的科学家 Demis Hassabis、Shane Legg 和Mustafa Suleyman 创立于 2010 年。在早期时候“钢铁侠”Elon Musk 也曾经入股。在 2013

年与 Facebook 的收购意向合作失败后,2014 年 1 月被谷歌以超过 4 亿英镑的价格收购,更名为谷歌 DeepMind。这是一家前沿人工智能公司,致力于建立机器学习算法。目前DeepMind 是谷歌旗下的子公司之一,而这公司亦因为 AlphaGo 的技惊四座而一夜成名。

2.10.1. 九段围棋高手:AlphaGo

AlphaGo是DeepMind开发的一项人工智能围棋程序,它在 2015年10月与欧洲围棋冠军,二段高手樊麾(Fan Hui)的对战中,在没有让子和全尺寸(19x19)的情况下,以 5:0 的成绩取

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 37

得了全胜。AlphaGo 团队在 2016 年 1 月的《自然》杂志上公布了 AlphaGo 的比赛结果棋谱以及整个人工智能系统背后的算法原理。

围棋一直因为其天文数字的落子可能性而被认为是人工智能无法攻克的一项棋类运动。传统的 AI 使用暴力破解方式(brute force),在面对如此巨大的可能性时都无能为力。围棋对弈中,选手在每一步落子时大约有 250 种可能(国际象棋一般为 35 种),而一局围棋对弈一般有 150 步(国际象棋一般为 80 步),因此,围棋对弈中的总落子可能性为 250 的 150

次方(250^150),远远超过了国际象棋的 35 的 80 次方(35^80)。

在 2016 年 3 月,在同样没有让子的情况下,AlphaGo 与九段高手李世石的比赛战果是 4:1。这次比赛中的 AlphaGo 是版本 18,在谷歌云计算平台中运行。而与欧洲冠军樊麾比赛时使用的是版本 13(分布式,用上 1202 个 CPU 和 176 个 GPU),跟在《自然》杂志上发布的一样。

简单来说,AlphaGo 的算法基于两个不同的部分:蒙特卡洛树搜索和指导树搜索的卷积神经网络。与以前的蒙特卡洛程序不同,AlphaGo 使用了深度神经网络来指导它的树搜索。卷积神经网络分为“策略网络”(这个网络又分为“监督学习”和“强化学习”两种模式)和“价值网络”。这两个神经网络以当前围棋盘面为初始值,以图片的形式输入系统中。

这里面的“策略网络”用来预测下一步落子并缩小搜索范围至最有可能获胜的落子选择中。另一个“价值网络”则用来减少搜索树的深度——对每一步棋局模拟预测至结束来判断是否获胜。

与此前的蒙特卡洛模拟程序不同的是,AlphaGo 使用了深度神经网络来指导搜索。在每一次模拟棋局中,策略网络提供落子选择,而价值网络则实时判断当前局势,综合后选择最有可能获胜的落子。

图 58:AlphaGo 的神经网络

资料来源:Nature,天风证券研究所

2.10.2. AlphaGo 的系统可以分为 4 个部分:

1、标准走棋网络 (Supervised-learning policy network):预测每一个合法走棋步法的最佳概率

标准走棋网络是一个深度卷积神经网络(Deep Convolutional Neural Network, DCNN)。它对当前局面进行判断,然后对下一步的落子走法进行指导,给出棋盘所有走棋可能性的概率值,概率值越高的走法越有可能带来胜利。AlphaGo 的标准走棋网络有 13 个完全相连接的卷积层级,与其他深度学习结构相比,卷积神经网络将输入的图像通过卷积层抽象化,在图像识别方面能够给出更优的结果,并可以使用反向传播算法(Backpropagation)进行训练。这个网络的训练数据来自网络围棋对战平台 KGS 上 6-9 段高手的 16 万局人类选手对弈棋局里 2940 万个下棋位置。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 38

2、快速走棋策略 (Fast Rollout Policy):进行快速判断较优落子选择,适当权衡走棋质量精准度与速度

这是一个速度和精准度之间权衡的策略。标准走棋网络模拟走子的精准度高,但估值速度慢;快速走棋策略模拟走子速度快但估值精准度较低。标准走棋网络的走子速度为 3 毫秒,能够达到 57%的准确率,意思是 AlphaGo 的最佳预测和围棋高手的走子选择有 57%的概率是重合的。快速走棋策略的走子速度为 2 微秒,比标准走棋网络快了约 1500 倍,但走子准确率为 24.2%。所以,AlphaGo 在提升速度的同时,也要牺牲一定程度的精准度。但速度的提升却为 AlphaGo 加入蒙特卡洛树搜索进行棋局阅读计算提供了可能性。

3、价值网络 (Value network):对全局进行胜负判断

价值网络从全局出发,对于整体赢面判断,将可能的局面进行“好”与“坏”的分类。当价值网络决定某一个落子选择不好,价值网络就会跳过,从而提升了整体的阅读速度。价值网络提供的是一个基于当前盘面预估的“分数”,例如“在当前盘面下黑棋最终获胜的概率是多少”。在将整个盘面输入到网络之后,会输出一个简单的数字,代表搜索树的每一条枝干的获胜概率。

价值网络训练使用的是 AlphaGo 在训练策略网络时自我对弈产生的 3000 万局棋局。价值网络在棋局开始阶段作出的预测比较随机,但是随着棋局的深入,它对最终结果的预测越发精确。

根据《自然》杂志论文中表格 7 的数据(见下页),单机版 AlphaGo 在标准走棋网络、快速走棋策略和价值网络全部使用的条件下 Elo 能达到的最大值 2890。不使用价值网络 Elo

下降了 474 分,不使用快速走棋策略 Elo 会下降 713 分,不使用标准走棋网络 Elo 则会下降 813 分。可以看出三者是互补的。

在这里顺带一提 Elo 的知识,这个分数是围棋领域的专业选手战力评分值,基于全历史评级(Whole History Rate)算法,评估对阵选手在不同时间内实力的一种新方法,其数据由go4go.net 提供。截止到 2016 年 6 月,AlphaGo 的世界排名是第二,Elo 积分为 3600 分,低于世界第一棋手柯洁的 3617 分,高于第四名李世石的 3537 分。

图 59:《自然》杂志论文中表格 7 的数据

资料来源:Nature,天风证券研究所

4、蒙特卡洛树搜索 (Monte Carlo Tree Search,MCTS):把以上三个部分连起来

AlphaGo 使用的搜索算法,异步式策略价值蒙特卡洛树搜索(asynchronous policy and value

MCTS algorithm, APV-MCTS)算法,也是大部分围棋智能程序使用的搜索算法。这个算法使用的是先验上限置信区间的概念(Polynomial Upper Confidence Trees, PUCT),其思路是将搜索步骤分为 4 个部分:

a. 首先考虑神经网络给出的可能落子选择,也就是搜索树的第一级分支;

b. 当某个节点的被访问次数超过了一定的阈值,则在蒙特卡罗树上进一步展开下一级别的搜索。在这里,每次搜索到叶子节点时,算法不会立即展开叶子节点,而是等到访问次数到达一定数目才展开,这样避免产生太多的分支,分散搜索的注意力,也能节省 GPU 的

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 39

宝贵资源,同时在展开时,对节点的盘面估值会更准确;

c. PUCT 常数决定了每个分支向下拓展的程度,搜索控制策略初始更加偏好于高的先验概率和低的访问次数,不过在渐进方式中更偏好高的走子价值,在对分支进行评估的过程中,使用价值网络和快速走棋策略分别进行模拟,快速走棋策略会从该节点一直模拟到棋局结束;

d. 对每一条分支的模拟,走棋策略会进行分数更新,对模拟为失败局面的分支为防止其他线程进行重复模拟,系统会终止该分支的更新;在模拟结束后,每个走子策略的最终评估都是一个基于价值网络和快速走棋策略的加权平均数,最终结果会被回传到树根部,并且对输出结果进行更新。

除了单机模式的搜索算法,AlphaGo 还使用了分布式 APV-MCTS 算法。这个系统的搭建使用一台主机完成主要搜索,加入辅助机进行辅助计算。辅助机 CPU 核心执行异步式走棋模拟,辅助机 GPU 核心执行异步式价值策略评估。整个搜索树都被储存在主机中,主机只完成对每个模拟的树内搜索步骤。叶节点的模拟由辅助机完成,辅助机 CPU 执行走棋阶段的模拟,而辅助机 GPU 执行网络特征的计算并评估策略网络和价值网络。辅助 CPU 和 GPU

执行完搜索后会将先验概率返回主机,并在新展开节点中替代原有概率。此外,辅助机 CPU

返回的落子评分与辅助机 GPU 返回的价值网络评分都会在主机中储存在原有搜索路径中。

整个走子搜索完成后,AlphaGo 选择搜索访问次数最多的落子选择。在之后的走子中,原来的搜索树会被重新使用,原来的叶节点成为新的根节点,这个节点的子树会被保留,其他的树分支会被丢弃。在实际对战中,AlphaGo 会一直进行搜索直到对手下一步落子。如果在搜索中落子节点的最大访问次数和最大落子价值不符,AlphaGo 会扩展它的搜索。另外,系统的时间控制有单独的设计,最大化利用棋局中盘阶段的时间。AlphaGo 会在判断胜率低于 10%的时候投子认输。

图 60:AlphaGo 中的蒙特卡洛树搜索示意图

资料来源:Nature,天风证券研究所

蒙特卡洛树搜索的概念是进行模拟棋局的对弈时,每一次模拟都从当前给定盘面开始,一直模拟至有一方胜出。开始时模拟是完全随机的:对对弈双方来说,每一个盘面下的落子选择都是随机选择的。在每一步落子的模拟中,系统会记录下例如每个节点被访问了多少次,以及哪些节点能够带来胜利等数据。这些数据又会为之后的落子模拟提供指导,于是随着棋局的深入,模拟执行次数的增加,整个模拟搜索的选择随机性会不断减少。换句话说,随着模拟次数的增加,蒙特卡洛树搜索会向最优化棋局胜利的方向收敛。

另外,研究团队不需要事先向蒙特卡洛树搜索系统提供领域知识(domain knowledge),也就是围棋的专业知识。这与此前战胜了国际围棋冠军的 IBM 人工智能深蓝(Deep Blue)

所不同,深蓝所使用的精密分析方程是在专业国际象棋选手的指导和调教下编写,而蒙特卡洛树搜索只需要遍历树的各个节点并向一些有可能带来胜利的节点向下扩展搜索就可以了。加上,要遍历所有搜索树的可能性是不可能的,因为这个数字太大,所以蒙特卡洛树搜索只会对特定的节点扩展搜索,当然为了获得足够好的模拟结果,搜索量也依然庞大。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 40

图 61:AlphaGo 版本 18 跟版本 13 和其他电脑围棋软件的对比 图 62:Demis Hassabis 和李世石在赛后举起签了名的棋盘

资料来源:Philosophy of Go,天风证券研究所 资料来源:Philosophy of Go,天风证券研究所

2.10.3. AlphaGo 的离线学习和线上对弈过程

AlphaGo 的前期离线学习过程(offline training procedure)过程分为 3 个部分:

棋盘数据针对标准走棋网络使用的是一个 19×19×48 的堆叠图像,抽取出一共有 48 个通道的特征图。

a. 第一阶段:使用网络围棋对战平台 KGS 上的人类选手对弈棋局来训练标准走棋网络和快速走棋策略网络。这是一个深度模仿人类棋手进行走棋的训练过程,研究团队将其称为分类步骤(Classification)。团队建立了一个包含有 16 万局 6-9 段人类棋手对弈棋局的数据集,这里面包含有超过 2940 万个盘面,其中 35.4%的棋局为残局。数据集被分为两个部分,100 万的盘面作为测试集,剩下的 2840 万为训练集。

针对快速走棋网络使用基于局部特征的数据不会观察完整的 19×19 棋盘。研究团队设计了响应类特征图(“response” pattern)和非响应类特征图(“non-response” pattern)。响应类特征图是以对手上一步落子为中心的周围 12 个钻石型点位的局部范围,非响应类特征图将观察区定位在每一个合法步法的 3×3 范围内。

这一阶段的训练阶段进行了大约 3 周时间,进行了 3 亿 4000 万步落子训练。

b. 第二阶段:为了增强落子的精准度,AlphaGo 同时使用了强化学习(Reinforcement

Learning)来做训练:在监督学习策略网络基础上进行自我对局学习的增强学习策略网络(reinforced-learning policy network, RL)。这个强化学习价值网络在结构上与标准走棋网络相同,是一个增强型的走棋网络,通过额外数百万个的自我对局进行训练,并通过策略梯度强化学习(policy gradient reinforcement learning)最大化结果,也就是获得更多胜利。这个建立在监督学习策略网络上的神经网络将每一个棋局都模拟至最后一步,以此做训练数据来判断哪一个落子选择会带来胜利。AlphaGo 与自己之前的版本进行对弈,进行训练迭代。每经过 500 次迭代,团队会把现有参数添加到对弈版本中。这个自我对局的训练生成了一个新的数据集,将在第三阶段的价值网络训练中使用到。

对这个 RL 网络的训练使用了 128 局模拟棋局中每局 10000 个训练样本,动用了 50 个 GPU

的计算资源。让 AlphaGo 进行自我对弈是让它自我提高的好办法,使用 RL 网络能够在与标准走棋网络的对弈中获得 80%的胜利。

不过在实战中 AlphaGo 没有使用这个增强的策略网络,因为使用增强学习后的策略网络,会把走棋选择集中在“明显最好”的落子可能性上,无法提供 MCTS 足够的阅读选择空间,拖累了 AlphaGo 的整体计算。

c. 第三阶段:通过对第二阶段的增强策略网络价值方程的回归拟合来对价值网络进行训练。为防止过度拟合,研究团队构造了一个通过自我对弈生成的超过 3000 万个盘面的数据集:

利用标准走棋网络(SL policy network)来生成棋局的 1 至 U-1 步(U 属于[1, 450]),然后随机采样来决定第 U步的位置,随后使用增强的策略网络(RL policy network)从 U+1步开始,自我对弈直至棋局结束分出胜负。此后,第 U 步的盘面作为特征输入,胜负结果作为评价

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 41

指标,构成一个无偏倚的数据集输入给价值网络,用于判断结果的输赢概率。这个阶段的训练经历了 1 周时间,使用了 32 局模拟棋局中每局 5000 万个训练样本,同样动用了 50

个 GPU 的计算资源。

当然,以上所有的计算都需要巨大的电脑计算资源,所以 AlphaGo 的运算很大程度上依赖于谷歌云计算平台,包括对 AlphaGo 的离线训练,也使用了机器学习平台 DistBelief。而且,开源机器学习数据库也让 DeepMind 团队在进行深度学习算法计算时,更有效的分配和使用 CPU 和 GPU 的资源。

以上是 AlphaGo 的离线学习过程。而在它的线上对弈过程(online testing procedure)中,使用了如下的思考顺序:

a. 根据当前盘面情况提取相应特征;

b. 使用标准走棋网络提出未来可能的落子的几个选择,分别给出落子概率;

c. 对每一个可能的落子选择,分别使用快速走棋策略和价值网络判断局势。价值网络直接判断落子选择的胜负概率,快速走棋策略配合蒙特卡洛模拟出该步落子至盘面结束的胜负情况;

这两种方法独立评估出该步落子的质量,然后通过一个评价参数“混合相关系数”(Mixing

parameter)来决定权重。在完全运行的 AlphaGo 中相关系数λ设置为 0.5,也就是两种评估方法具有相等的权重;

d. 上一步加权后的平均数的得分会被更新至搜索树,当某个节点的被访问次数超过了一个阈值,则在蒙特卡罗树上进一步展开向下的搜索。阈值会动态更新以符合 GPU 使用策略网络评估的比率。

最后,我们经过仔细研究 DeepMind 团队在《自然》上发表的论文原文,精心制作了下面这幅 AlphaGo 系统原理图解。

图 63:AlphaGo 系统原理图解

资料来源:参考 ACM 数据挖掘中国分会研究资料,天风证券研究所整理

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 42

2.11. DeepMind 之 Deep Q-Network (DQN):模仿人脑海马体的经验回放

除了目前全世界闻名的围棋智能程序 AlphaGo,DeepMind 还在进行一项深度强化学习系统的开发。

DeepMind 在 2015 年 2 月于《自然》上发表了一篇《人类控制水平的深度强化学习》的论文,描述了其开发的深度神经网络 Deep Q-Network (DQN)将深度神经网络(Deep Neural

Networks)与强化学习 (Reinforcement Learning) 相结合的深度强化学习系统 (Deep

Reinforcement Learning System)。Q-Network 是脱离模型(model-free)的强化学习方法,常被用来对有限马尔科夫决策过程(Markov decision process)进行最优动作选择决策。

谷歌设计的这个神经网络能够完成雅达利(Atari)游戏机 2600 上一共 49 个游戏,从滚屏射击游戏 River Raid,拳击游戏 Boxing 到 3D 赛车游戏 Enduro 等。令他们惊喜的是,DQN

在所有游戏过程都可以使用同一套神经网络模型和参数设置,研究人员仅仅向神经网络提供了屏幕像素、具体游戏动作以及游戏分数,不包含任何关于游戏规则的先验知识。

游戏结果显示,DQN 在一共 49 个游戏中的 43 个都战胜了以往任何一个机器学习系统,并且在超过半数的游戏中,达到了职业玩家水平 75%的分数水平。在个别游戏中,DQN 甚至展现了强大的游戏策略并拿到了游戏设定的最高分数。

图 64:DQN 中卷积神经网络从游戏图形输入到动作控制的示意图

资料来源:Nature,天风证券研究所

简单来说,DQN 的原理是第一次将深度神经网络和用来指导系统在设定游戏环境中最大化得分的强化学习模式结合在一起。通过模仿人脑海马体(hippocampus)的神经生物学机制,研究团队对 DQN 进行“经验回放”(experience replay)的训练学习。在人脑当中,人类最近获得的经验会在睡眠等休息阶段进行飞速的重激活,这个过程就是通过大脑的海马体完成的。而这个经验重激活的过程对于 DQN 在游戏中的表现至关重要。

近日,AlphaGo 作者、DeepMind 联合创始人兼 CEO David Silver 在 DeepMind 网站上发文谈到了团队在深度强化学习方面的深化研究以及 DQN 的新进展。DQN 在超过一半的 Atari

2600 游戏中达到人类水平后,DeepMind 继续在不同方面优化算法,包括进一步提高 Q 学习(Q-Learning)算法的稳定性,经验回放(experience replay)的优先排序、正常化、收集和校正输出结果。综合优化后,DQN 在 Atari 游戏中的平均分数提高了 300%,在几乎所有Atari 游戏中,DQN 都达到了人类玩家的水平。研究团队甚至可以训练一个单独的神经网络来完成多个 Atari 游戏。

DeepMind 团队还搭建了大规模分布式深度强化学习系统,他们称其为 Gorila。这个系统动用谷歌云计算平台的运算资源,将训练速度提升了一个数量级。Gorila 系统目前被用在谷歌的多个推荐算法系统中。

不过,DeepMind 团队并不满足于 DQN 这个深度强化学习系统,他们继续把目光放在异步

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 43

式强化学习(Asynchronous Reinforcement Learning)上。这个学习方法能够发掘标准 CPU

的多线程处理能力,通过多并行运算对数据进行多样化和去关联化处理,为经验回放提供额外的可行方案。

DeepMind 使用的异步式执行器-评价器(Actor-Critic)算法叫做 A3C,是通过将一个深度Q-network 神经网络以及指导动作选择的深度策略网络进行结合,让训练时间和资源需求较 DQN 和 Gorila 大为减少。他们在 Atari 最难的游戏,例如 Montezuma’s Revenge 中也获得了重大突破。

虽然 Atari 游戏为深度学习系统提供了多样性,但它们都还是二维动画层面的游戏。DeepMind 最近开始把研究重心放在 3D 游戏中并开发了一套 3D 迷宫游戏 Labyrinth 进行深度学习系统的训练。与之前类似,智能系统只获得了在视场(field-of-view)中观察到的即时像素输入,需要找到迷宫地图的正确宝藏路径。

令研究团队惊讶的是,A3C 算法达到了人类的水平,并在许多迷宫挑战中跳出了原有框架(out-of-the-box)。此外,一个基于情节记忆(episodic memory)的方法也被证明获得了成功。这是一个模仿海马体(hippocampus)对情节记忆的控制机制的强化学习方法。

对于连续控制问题例如机器人控制和运动问题,DeepMind 也开发了一系列强化学习方法。他们的通过决定性策略梯度算法(Deterministic Policy Gradients)解决了一系列连续控制问题。而且他们的异步式强化学习算法也能够在结合分级控制策略 (hierarchical control

strategy)后解决包括 54 维的拟人障碍滑雪游戏。值得一提的是,这些算法都不需要先验游戏知识的输入。所以,DeepMind 在深度强化学习方面的探索是在向通用型领域延伸的,同时也解决了 AI 的一大问题,就是板块和领域的局限性。强化学习的最著名应用就是在前面提到的 AlphaGo 中对这个围棋系统的离线训练自我对弈。

图 65:DeepMind 开发的 3D 迷宫游戏 Labyrinth 界面

资料来源:DeepMind 官网,天风证券研究所

DQN 作为第一个深度学习系统,通过进行端到端训练完成一系列有难度的任务。这样的技术能够有效运用到谷歌的产品服务中,我们可以想象一下,以后用户可以直接发出指令要求谷歌为他制定一个欧洲背包旅行计划。

从 Atari 到 Labyrinth,从连续控制到移动操作到围棋博弈,DeepMind 的深度强化学习智能系统在许多领域都表现出优异的成绩。人工智能的一大难题就是局限于在特定的板块和领域里学习。DeepMind 这个板块和领域中性的学习算法能够帮助不同的研究团队处理大规模的复杂数据,在气候环境、物理、医药和基因学研究领域推动新的发现,甚至能够反过来辅助科学家更好的了解人类大脑的学习机制。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 44

2.12. DeepMind 应用到麻将上又会怎样?

DeepMind 还在发展强化学习的博弈论技巧,想要进而开发出德州扑克的超人类智能系统。相对于围棋对局的全信息博弈,德州扑克类似我们的麻将,是一种不完全信息博弈。就是说,围棋中对局双方所掌握的信息是对称的,而麻将中各对局者间所掌握的信息是不对称的。麻将对局者只能看到对方出牌过程中打出的牌,但是牌墙的随机性导致无法知道对方手牌是什么。

从取胜策略上来说,麻将牌局是尽可能增加自己的得分期望(Expected Value, EV)。虽然不知道接下来摸出的牌以及对手的手牌,我们只能在一个概率空间内选择提高自己得分期望的出牌。但是从牌局复杂程度上来说,麻将的复杂程度远小于围棋。一方参与者手牌数为14,牌局总牌数以 136 张计,因此组合总数约为 3 x 1011 种。这个组合数无法与围棋 10170

的数字相比,所以麻将人工智能可以将所有组合数出在系统中,在比赛时搜索调用即可,类似 IBM 的沃森。

目前国标麻将和日本麻将都有高于人类平均水平的人工智能程序。日本麻将的人工智能目前最强的是一款名为“爆打”的程序。这款智能程序是由当时就读于日本东京大学的工学系博士水上直纪的课题设计。他们在 2011 年发表的论文中表示,通过使用机器学习技术,设计出的麻将人工智能达到日本最大的麻将对战平台“天凤麻雀”上二段水平。从 2015

年开始,他们将“爆打”程序放在天凤麻雀上运行,至 2016 年 2 月已经进行 1.3 万多场(约13 万手牌)比赛。2015 年 9 月,“爆打”达到天凤麻雀四段,2015 年 12 月一度冲进天凤七段,长期成绩显示平均为六段以上。这意味着根据天凤的积分段位排名,排位六段的“爆打”成绩超过了天凤麻雀平台上 96.6%的人类玩家。

2.13. DeepMind 推出文本转语音系统 WaveNet

DeepMind 也推出了一项在计算机语音合成领域的最新研究 WaveNet。这是一个文本转语音(Text-to-Speech,TTS)系统,利用神经网络系统对原始音频波形(Raw SoundWave)建模的技术。DeepMind 表示 WaveNet 生成的音频质量将计算机输出音频与人类自然语音差距缩小 50%,超过了此前所有的文本转语音系统。

DeepMind 认为实现人机对话是人机交互领域进一步发展的长远梦想。过去几年的发展中,电脑系统已经初步具备了识别自然语言输入的能力,例如谷歌语音搜索。不过,要让系统合成语音输出,也就是文本转语音,一直以来都是基于叫做拼接式语音合成(Concatenative

Synthesis)的技术,就是通过向系统输入一个说话者的海量语音片段,构建一个大型语料库,然后选择并合成完整的大段音频、词语和句子。但这种拼接式输出的语音无法真正表达句子中的重点词汇、情绪、语调等。

由此衍生出来的文本转语音技术就是参数化文本转语音系统(parametric TTS),所有信息也事先储存在参数模型中,再通过数学参数模型对已知的声音进行排列、组装成词语或句子来输出音频。现在常用的参数化模型主要基于叫做声码器(vocoders)的信号处理算法。以上这些技术都没有从零开始创造音频波形,只是简单、机械地将语音片段拼接起来。

图 66:WaveNet 每秒要处理 16000 个样本 图 67:每一个样本都被用来处理预测下一个样本

资料来源:DeepMind 官网,天风证券研究所 资料来源:DeepMind 官网,天风证券研究所

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 45

而 WaveNet 利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积神经网络(CNN),让其能够辨别这两方面(语言和语音)的音频模式。DeepMind 表示,WaveNet

受他们在 2016 年初发布的基于 PixelRNN 和 PixelCNN 神经网络的图像处理模型 PixelNets

所启发——PixelNets 能够生成复杂的自然图案,而且不是一次只生成一个像素点,而是一次生成一个颜色通道(colour-channel)。在此基础上,DeepMind 将二维层面的 PixelNets

模型转化为一维层面 WaveNet 模型。

使用时,对 WaveNet 系统输入新的文本信息,也即相对应的新的语音特征,WaveNet 系统会重新生成整个原始音频波形来描述这个新的文本信息。在 WaveNet 之前,研究人员会避免使用这种直接建模生产原始音频,因为需要处理每秒内 16000 个样本,每一个输入的音频样本经过神经网络处理,输出的样本会被用来处理生成下一个音频样本,即每一步的样本结果都将影响下一步的样本预测,这样的处理需要强大的计算能力。

WaveNet 的卷积神经网络中卷积层拥有许多扩张因子(dilation factors),来允许其接收域在网络的深度和广度上呈指数级增长并覆盖更多的时间单位。下图是 WaveNet 与传统文本转语音以及人声的自然程度评分,满分为 5 分,WaveNet 将计算机输出音频与人类自然语音差距缩小了 50%,已经非常接近人类说话水平。

DeepMind 在官网放出了对比音频,经过试听,我们感受到 WaveNet 生成的音频确实比其他 TTS 系统生成的更为自然,接近人类发音。DeepMind 还表示,因为这项技术是生成原始的音频,因此甚至可以用来创造音乐。团队将钢琴音乐作为训练集输入模型中,WaveNet

能够生成动听的钢琴音频片段。

图 68:WaveNet 与传统文本转语音以及人声的自然程度评分

资料来源:DeepMind 官网,天风证券研究所

2.14. DeepMind 运用图像识别技术的医疗探索

当前的眼科扫描通过光学相干扫描仪向眼底视网膜发射光束并接收反射光,以此生成视网膜高精度三维图像。不过每次扫描都会产生海量数据,经过专业训练的眼科医生需要从这些数据的细微特征中判断眼部疾病,这样的方式是十分低效,更不必说通过规律性特征归纳及早发现疾病。所以 DeepMind 将人工智能及图像识别技术运用到这个领域里。他们希望能通过机器学习系统对视网膜扫描图像进行自动探测和训练学习,从而判别眼部疾病特征,帮助医生更高效的进行诊断。

DeepMind 与英国伦敦莫菲尔德眼科医院(Moorfields Eye Hospital)展开一项为期五年的研究合作,共同探究眼科测试以及眼部疾病早期检测的新方法。英国伦敦莫菲尔德眼科医院每周都会进行超过 3000 例的眼科光学相干断层扫描(Optical Coherence Tomography,

OCT)。医院向 DeepMind 提供 100 万份病人的眼部扫描图像数据,以及常规诊疗措施。DeepMind 将根据这些数据用人工智能机器学习系统进行训练。目前项目还处于初级阶段,没有披露更多的技术数据,不过 DeepMind 相信通过有针对性的“视网膜特征识别”训练

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 46

机器学习系统,能够应用在老年性视网膜黄斑病变(age-related macular degeneration,

AMD)和糖尿病相关眼疾的识别诊断上,及早发现病变特征来为医生争取更多的治疗时间。

图 69:视网膜扫描图像 图 70:视网膜光学相干断层扫描(OCT)

资料来源:莫菲尔德眼科医院,天风证券研究所 资料来源:DeepMind 官网,天风证券研究所

这是 DeepMind 的首个纯医疗领域研究项目,最开始是莫菲尔德眼科医院的眼科医生找到DeepMind 团队希望借用他们的技术提供更高效的眼部扫描数据分析。目前,糖尿病患者因为相关眼疾的致盲率是普通人的 25 倍,如果无法得到及时救治,多达 50%的糖尿病视网膜病变患者会在五年内致盲,但早期发现并进行及时治疗则有 98%的严重视觉丧失可能被避免。而老年性视网膜黄斑病变是英国最常见的致盲眼疾,至 2020 年预计有 250 万成年人会受该病影响。

2.15. 大规模机器学习应用于药物发现

近几年,深度学习神经网络运用在药物发现(drug discovery)及虚拟药物筛选(virtual drug

screening)中,目标是替代及提高药物研发过程中的高通量筛选 (High-throughput

screening)的速度和成功率。传统研究中,虚拟药物筛选使用的数据只来自特定的疾病实验数据,随着实验药物筛选数据总量的提升,很多研究人员认为多任务神经网络(multitask

neural networks)能够用在多重疾病虚拟筛选中提高筛选效率。

2015 年 2 月,谷歌和斯坦福大学联名提交了一篇讨论“针对药物研发的大规模多任务网络”的论文。谷歌与斯坦福大学实验室合作探讨何如使用多重来源的数据,提高在选择哪种化合物能有效治疗疾病时的准确率。更进一步,谷歌测量了来自多种疾病治疗过程中不同数量和种类的生物数据,来提高虚拟药物筛选的预测精度。

研究人员使用 Jeff Dean 和吴恩达等人在 2012 年发表的大规模分布式深度神经网络(Large

Scale Distributed Deep Networks)训练系统,训练集数据总量达到了以前训练量的 18 倍,他们总共使用了 3780 万个数据点,挖掘了超过 200 个生物实验过程,这数据集的巨大容量,让研究人员能够仔细探究模型对不同变量和输入数据的敏感性。整个论文的实验过程花费了超过 5000 万个 CPU 小时数。

上图是一个接收者操作特征曲线图(Receiver Operating Characteristic, ROC Curve),是一个用来描绘当鉴别阈值(discrimination threshold)不同时的二元分类模型(binary classifier)。曲线表示的是真阳性率(true positive rate, TPR)与假阳性率(false positive rate, FPR)在不同阈值时的对比。同一个二元分类模型的阈值可以设置不同,每一个阈值都对应了不同的 TPR

和 FPR。在医疗临床评价中,我们通过计算 ROC 曲线下面积(Area Under Curve, AUC)来评价诊断价值。

图中,横轴表示实验数据集的大小,纵轴表示测试阈值的变化。整个 ROC 曲线表示随着实验数据的增加,虚拟药物筛选的平均预测准确度也随之提升。谷歌表示实验成果令人激动,他们的模型能够利用来自不同实验的数据,提高跨疾病的预测精度。这是第一次在医药研发领域,人们能够量化检验增加额外数据带来的预测精度提升,而且更多的数据可以进一步的提高在药物研发方面的进展。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 47

图 71:实验数据的增加将虚拟药物筛选的平均预测准确度提高至 79%以上

资料来源:谷歌研究所官方博客,天风证券研究所

通过系统自动化和提高预测技术,不仅加快了以往一般漫长的药物研发过程,而且也大大降低了药物研发成本。对数百万的化合物进行测试需要很长的时间,因此发现新治疗方法是一个高难度挑战。潜在药物必须直击疾病的源头,同时还要满足严格的代谢和毒性的限制。而传统的药物研发需要许多年才能完成,并且研发过程中失败率很高。因此任何能增加成功组合机率的事,都是一件好事,而这也是机器学习能有所帮助的地方。

2.16. 融合了计数机视觉的 YouTube 视频缩略图

出现在 YouTube 网站首页的纷繁绕眼的视频缩略图(video thumbnails),是用户观看视频前的第一印象,所以必须要一幅鲜明的、相关性高的照片来吸引用户。2015 年 10 月,谷歌宣布启动一项利用深度神经网络在图片视频分类识别方面的计算机视觉技术,为 YouTube

带来更好的缩略题展示。

整个缩略图识别生成的流程是当一个视频被上传到 YouTube 后,程式首先从视频中每秒截取出一帧画面作为样本,然后每张样本图片进入神经网络的“质量评估模型”(quality model)

并打分,得分最高的样本图被选取并进行强化和渲染,生成不同尺寸和大小的缩略图用来在网站展示。这其中最重要的就是进行评估打分的“质量评估模型”。谷歌现在就为这个模型加入了深度神经网络的技术。

图 72:YouTube 视频缩略图选择流程展示

资料来源:谷歌研究所官方博客,天风证券研究所

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 48

团队首先需要解决的问题是,缩略图好坏的评价标准是非常主观,而且需要搜集大量样本的优秀缩略图作为神经网络的训练集。研究人员选择用户自行上传的缩略图作为参考依据,设置了一些评价标准,包括构图良好、视觉重点明确、主题清晰等。研究人员在训练这个神经网络的时候定义了图片的“二元分类”(binary classification)标准,就是好图和坏图,类似 GoogLeNet 在 ILSVRC 挑战赛中进行物品分类设计时的思路。

在使用了这个新的深度神经网络缩略图选择系统之后,研究人员进行了人工比较,他们表示 65%的新缩略图要较旧缩略图更受用户欢迎。

2.17. 机器学习计算能力的终极解决方案:量子计算

2013 年 5 月,谷歌宣布其与美国太空总署(NASA’s Ames Research Center)以及大学空间研究联合会(Universities Space Research Association, USRA)联合建立的量子人工智能实验室正式成立。实验室位于 NASA 的加州硅谷埃姆斯研究中心内(Moffett Federal Airfield),放置了谷歌从量子计算机制造商 D-Wave Systems 处购得的一台 D-Wave 2 量子计算机。谷歌的目标是借用量子计算机的强大计算能力,充分发掘人工智能与机器学习领域的技术,搭建更好的学习模型进行天气预测、疾病治疗、搜索算法改进、语音识别等方面的研究。在这个实验室内,大学空间研究联合会将会邀请世界各地的学者前来分享计算机使用。

针对日常使用的计算机在提供最优化解决方案的时候,常用的计算方法是梯度下降法(gradient descent),即从一个随机点开始向下搜索可能的解,然后不断重复这个过程直到达到最优解,不过这种方法的问题就是过度拟合,计算机很容易局限在局部最优解当中(local minimum)。

量子计算机能够更有效的解决这样的问题,即跳过局部最优解直接寻找到最优解决方法。谷歌已经利用量子机器学习开发了一些算法,例如用户手机低电量时的识别系统,或者是对高度污染的训练数据的分辨处理。而且谷歌寻找算法的原则是不单纯利用量子计算机,而是结合常规计算方法,开发两相结合的算法。对于 NASA 来说,量子计算机发挥的作用要超过人们的想象。他们希望量子计算能够应用到星系大气层模拟、航空航天应用、太空探索等领域。

图 73:这句话是不是爱因斯坦说的,现在有点无从稽考,但真理

不用争辩

图 74:D-Wave TWO 量子电脑

资料来源:Wikimedia,天风证券研究所 资料来源:D-Wave Systems 网站,天风证券研究所

2.17.1. 量子计算是啥?具体用来干嘛?

传统电脑是以二进数方式(0&1)存储数据,然后以逻辑来操作。每一个记忆单元叫做比特(bit),而每个 bit 只能在一个时间内维持一个状态。就是说,要么就是 0,要么就是 1,不能同时是 0 和 1。

量子计算是量子物理学的一门,最初是由 Paul Benioff, Yuri Manin, Richard Feynman 和David Deutsch 在 80 年代初开始研究。相对于传统电脑,量子电脑的记忆单元叫做 qubit

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 49

(quantum bit),而它的形态可以是 0、1 或两个都是(superposition of 2 states)。所以,量子电脑可以操作更高维度的计算。这个特性正好用来解决加密、解密和一些机器学习的优化问题(optimization problem)。

量子计算主要应用量子力学的特性,superposition (量子叠加)、quantum tunneling (量子隧穿) 和 entanglement (量子纠缠),来进行混算。量子叠加就是信息可以从一个 qubit 移动到另外一个 qubit 而无需在任何地方之间。而量子纠缠就是在一个 qubit 上发生的情况可以影响到其他 qubit,哪怕他们是在不同的地方。编程量子电脑就是用量子纠缠来配置相邻量子之间的关系,而量子隧穿就是去解决最小能量值的量子。最小能量值就是最佳的答案。

如果一个 qubit 在叠加,而它跟另外一个 qubit 在同样的叠加上,计算时就会产生 4 个结果:0/0,0/1,1/0 和 1/1,或者每 n 个 qubits 就可以有 n^2 个状态。以上例子里的量子特性,让量子电脑可以同时平衡的执行不同计算(quantum parallelism)。鉴于量子计算要在叠加的状态中进行,如果在计算的过程中有任何的观察行为,叠加的状态就会终止,然后量子会返回单独的状态,这就是消相干性(decoherence)。消相干性就是当量子从叠加的状态回复单独(就是 1 或 0)可观察的状态。所以观察行为要等到计算完成后才能执行,而结果就会是单独的(1 或 0)状态。

图 75:D-Wave 2 量子计算机支撑结构,机器被冷却到接近绝对

零度

图 76:可以与不可以被量子计算攻破的加密技术

资料来源:MIT Technology Review,天风证券研究所 资料来源:Wired,天风证券研究所

在经典的“薛定格(Schroedinger)的猫”试验中,猫是放在一个密封的盒子里,然后里面有一种放射性同位素,有 50%的机会会发生衰变,然后发射出一个粒子来触发毒气设置,猫就会死。如果中间没有人在观察猫是生还是死,那么猫就会在既是生又是死的状态。但是,如果有人在观察,那么猫的状态就会是生或者是死。所以,这个例子描述了观察会瓦解量子物理的操作。

理论上,大型的量子电脑对于某一些计算问题是可以做得比传统电脑要快,比如说人工智能、机器学习和破解现代常用的加密技术等。美国的国家安全局(National Security Agency,

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 50

NSA)也估计现代常用的加密技术将会在量子电脑普及之后变得过时。现在,美国的科技巨头包括谷歌、IBM、微软、惠普和加拿大的 D-Wave 都有参与研究和尝试将这个科技商业化。

现代的三款普遍的加密方法有 RSA、Diffie-Hellman 和 Elliptic Curve。RSA 的基楚是两个超大(比如说 300 位数)的质数(prime number)互相乘以的积,要用质数因数分解法(prime

factorization)去破解。Diffie-Hellman 的破解方式是解决离散对数(discrete logarithm),而Elliptic Curve 是 Diffie-Hellman 的变种,破解方式是解决椭圆曲线离散对数。这些加密技术的具体计算方式不是重点,而重点是他们的破解方法都是利用传统电脑需要长时间甚至没办法去计算的问题。虽然量子电脑理论上可以用 Shor's Algorithm 去解决这种问题,但到目前为止,量子电脑能够因数分解的最大数值为 56153。

那么,有没有一些不能被量子电脑破解的加密技术呢?是有的。这些技术被称为后量子加密法(post-quantum cryptography)。他们包括:1、Lattice-based (以格子为基础,在数百空间维度的格子里查找最近的点子,而密钥跟这点子相关), 2、code-based (以代码为基础,密钥跟一个纠错码相关,而公开钥匙是在密钥上加扰)和 3、multivariate (基于求解多元多项式方程组的难度)的方法。

2.17.2. 量子电脑的历史

简短的说下量子电脑的历史。从 2001 年开始已经有 7-qubit 的量子电脑可以用 Shor's 来因数分解 15。到 2011 年以 10 qubits 和 Shor's 因数分解 21,接着因数分解了 143 和 56153

(但不是用 Shor's)。在 2005、2009 和 2010 年,美国密歇根大学、耶鲁大学和英国的布里斯托大学等分别研究量子硬件。

2011 年,加拿大公司 D-Wave Systems 推出了首部商业用的量子退火炉(quantum annealer),叫做 D-Wave One,拥有 128 qubits。美国国防军工公司 Lockheed Martin 采购了一部,放在南加州大学的量子计算机中心。D-Wave Systems的第一部量子电脑是在 2007年建成的,拥有 16 qubits。电脑要在超低温,约 20mK 的接近绝对零度(Absolute Zero,即摄氏-273 度)

下操作。公司称主要的电耗来自冷却方面,而整个系统消耗约 15 千瓦(kilowatt)的电,但芯片只需要少于 1 微瓦(microwatt)。每一个 qubit 都是一个超导体电路,在超低温下电流才能同时双向流。D-Wave 的产品其实不是一部全面的量子电脑,就是说它不是所有问题都合适。他们的电脑最合适的是解决优化问题。所以,对于大数据的处理,包括人工智能和机器学习,是非常合适的。其他应用之处还包括加密技术、蒙地卡罗模拟技术、预测分子的化学作用来设计药物等。

2012 年,IBM 也发表一些突破性的研究。同年 10 月,诺贝尔奖颁给了量子学家 David J.

Wineland 和 Serge Haroche。12 月,第一家量子软件公司 1Qbit 在加拿大成立。同年,亚马逊的 CEO Jeff Bezos 和美国中央情报局(CIA)也投资了 3000 万美元进去 D-Wave。

2013 年,谷歌和美国太空总署(NASA)合作的量子人工智能研究所采购了一部 512-qubit

的 D-Wave 量子电脑。谷歌希望量子电脑可以解决人工智能的问题,而 NASA 希望这电脑可以协助安排火箭升空的时间和模拟日后的太空任务和穿梭机飞行。

2014 年,前 NSA 员工斯诺登(Edward Snowden)透露了 NSA 花了约 8000 万美元去研究量子电脑破解加密方式。

到 2015 年,量子电脑的开发仍然处于幼嫩期,电脑里面的 qubits 还是比较少。9 月份,D-Wave 公开发售最新的 D-Wave 2X 量子电脑。D-Wave System 公司宣布与谷歌签订新的合约,谷歌将在未来 7 年内继续使用 D-Wave System 提供的量子计算机,而且 D-Wave

System 也会在 NASA 的研究中心内安装其最新一代 D-Wave 2X 量子计算机,相较于D-Wave 2 的 500 个量子核心数,2X 的将含有超过 1000 个量子处理器核心。

同一时间,英特尔宣布在 10 年内投资 5000 万美元和荷兰的 Delft 大学的 QuTech 合作研发量子计算科技。英特尔认为量子计算的具体应用还有好几年的时间才成型,而虽然现在有一些突破,但是正式普及也最少需要十年时间。这也反映在他们的投资时间和额度里。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 51

图 77:D-Wave 的量子处理器 图 78:D-Wave 量子计算机示意图

资料来源:D-Wave Systems 网站,天风证券研究所 资料来源:天风证券研究所整理

同年 12 月,NASA 公开展示了价值 1500 万美元的 D-Wave 量子电脑,这是上述提到跟谷歌合作的项目。在选择 D-Wave 的量子计算机之前,谷歌、NASA 以及 USRA 运行了 D-Wave

的机器进行基准测试。D-Wave 标榜自己为第一家生产商业化量子计算机的公司,但因为他们使用的量子运行原理与传统方法不一致,业界一直有对其计算机是否真的符合量子计算机标准的质疑,不过经过检验,在某些特定问题的运算速度上 D-Wave 的机器运算能力是普通计算机的 3600 倍。谷歌也在 2015 年 12 月发表的一片论文中表示,D-Wave 的量子计算机在某项特定而且精心设计的问题上,量子电脑的速度要比传统电脑快一个亿倍。这部量子电脑现在已经由原来的 512 qubits 升级到超过 1000 qubits。而且,qubit 的增加对于耗电量也不会有太多影响。

2.17.3. 谷歌的量子计算机之路

除了上面提到的这个利用 D-Wave公司设计的量子计算机作为研究核心的人工智能实验室。谷歌还与世界上量子计算领域最前沿的学者,加州大学圣巴巴拉分校的 John Martinis,合作设计量子计算机。2014 年 6 月,谷歌聘请了 John Martinis 及他的团队,并预计能在 2017

年设计出含有 100 个量子核心的量子退火炉。John Martinis 希望借助 D-Wave 计算机在规模化方面的优势以及自己团队在稳定性方面的研究,有力地推动整个量子计算领域的研究发展。

2016 年 6 月,谷歌与西班牙巴斯克大学的研究人员共同宣布了在量子计算机领域的重大研究突破,并表示有希望通过更为便捷的方法建造出一台更能够发挥量子计算能力的计算机样机。谷歌这次从之前耗费了大量研究人力和资源的“数字量子计算机”(digital quantum

computers),转移到“模拟量子计算机”(analog quantum computers)的研发上。研究机构一直以来都把重心放在数字量子计算机上,就是针对特定问题,构建特殊排列的量子位设计的数字电路。这种方法类似传统微处理器中的订制数字电路,但缺陷在于需要大量纠错资源(error-correcting)来弥补脆弱的量子效应,而且无法在量子效应上提高数量级。

目前包括谷歌、IBM 等在内,都转移到模拟量子计算机的加速研发上。模拟量子计算机与传统电子计算机的相似程度更小,而且背后的运算原理目前还不能完全解释清楚,不过系统纠错所需要的资源相较数字量子计算机少很多,从而能更好的发挥量子计算的能力。

现在谷歌量子计算机项目的负责人 John Martinis 和他的团队搭建的计算机样机,打造了一款超导量子芯片来模拟 9 个相互磁力作用的原子。谷歌的原型机结合了两种量子计算的方法,第一种就是前文提到的数字量子计算机方法,第二种模拟量子计算方法,被称作“绝热量子计算”(adiabatic quantum computing, AQC)。计算机将给定问题编码为一组 qubits,逐步调整这组 qubits 的相互作用以达到最终共同量子态,从而解决给定问题。这个方法具有普适性,所有问题都可以使用同一组 qubits。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 52

图 79:谷歌量子计算机 9 个量子位排列示意图 图 80:谷歌制造的量子计算实验芯片

资料来源:谷歌论文资料,天风证券研究所 资料来源:MIT Technology Review,天风证券研究所

不过 AQC 这个方法也有局限性,就是会受到随机噪声效应的影响,这个影响会带来无法消除的系统误差。谷歌了解 AQC 也不能保证每一个问题都得到有效解决。在没有纠错技术的帮助下,随着系统量级的提高,利用 AQC 技术去扩大计算规模将非常困难,因为在更大的系统中,误差的积累将会很快。所以,他们需要找到更好的方式来应用纠错技术。他们利用了此前在数字量子计算机研究中积累的纠错技术。Martinis 团队表示,目前这款量子芯片只有 9 个 qubits,而要让量子计算机的运算能力达到传统计算机无法匹及的程度,需要至少拥有 40 个 qubits,D-Wave 安装在 NASA 实验室里的最新代量子计算机 2X 拥有超过 1000 个 qubits。

这 9 个 qubits 采用固态量子位,量子位由十字形的铝制薄膜制成,宽度约为 400 微米,被固定在蓝宝石表面上。研究团队将铝制薄膜降温到 0.02 开氏(约-273 摄氏度),将金属转变为零电阻的超导体。在超导状态下,研究团队可以将信息编码到 qubits 中。

相邻 qubit 的相互作用通过“逻辑门”控制,驱使 qubits 达到能够得出问题解决方案的量子态。在样机中,研究人员调整 qubits 的排列序位来模拟具有自旋态的磁性原子阵列(这个问题在凝聚态物理学中已经得到深入研究),然后研究人员就可以观察 qubits 来确定自旋态原子的最低能量集体态(lowest-energy collective state)。同时,谷歌的量子样机还能够解决传统计算机不能解决的“non-stoquastic”问题,包括在化学研究中所需的对多个电子的相互作用的准确电脑模拟。量子计算机最具实用价值的功能之一就是能够在量子层级模拟分子材料。

南加州大学量子计算专家 Daniel Lidar 表示,新的量子计算方法能够进行量子误差修正,并且可以在谷歌的 9 个 qubits 的样机中完成。谷歌团队表示,凭借量子误差修正能力,他们的量子计算方法能够扩展为通用算法,进而扩展至更为大型的量子计算机使用中。

在未来的几年内,谷歌希望能制造出包含 40 个 qubits 的量子计算机,这个时候“量子优势”(quantum supremacy)才会真正建立起来,进而用来分析并解开医学和能源领域需要进行大规模原子级别仿真计算的难题。谷歌 CEO 皮查伊表示公司已经进入了“人工智能先行”的时代,谷歌量子计算应用设计团队的负责人 Hartmut Neven 也表示,在 10 年之内,人们将会放弃传统机器学习方式,转而拥抱量子机器学习。

2.18. 自行研发的 AI 硬件:张量处理单元 TPU

在大会开题演讲的最后,皮查伊再次强调谷歌在机器学习和人工智能方面的努力,他们希望能够与所有开发者共同努力,推动这块技术的进步。

谷歌在 2015 年 11 月将机器学习的核心代码部分开源,开源第二代深度学习系统TensorFlow,让开发者们能够利用简单的 API 将深度学习和神经网络系统接入自己的开发项目中。TensorFlow 在 GitHub 上成为最受欢迎的深度学习系统。另外,在 2016 年 5 月,谷歌还开源了世界上准确度最高的自然语言分析解析器 SyntaxNet。谷歌的云平台已经具备了云端机器学习、计算机视觉 API 以及语言翻译 API 等,这样所有使用谷歌云计算平台的用户都能使用到谷歌内部一直在使用的机器学习系统。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 53

图 81:皮查伊在大会上介绍 TensorFlow 图 82:皮查伊介绍 TPU 性能对比

资料来源:谷歌 2016 I/O 大会现场照片,天风证券研究所 资料来源:谷歌 2016 I/O 大会现场照片,天风证券研究所

2.18.1. 谷歌为 AI 专门研发的硬件:TPU

谷歌设计了一款为人工智能运算定制的硬件设备,张量处理单元(Tensor Processing Unit,

TPU)芯片。该芯片是在一颗 ASIC 芯片上建立的专门为机器学习和 TensorFlow 量身打造的集成芯片。该芯片在谷歌云平台数据中心已经使用超过一年,而且发现 TPU 能让机器学习每瓦特性能提高一个数量级,相当于摩尔定律中芯片效能往前推进了七年或者三代。

图 83:谷歌 TPU 电路板 图 84:谷歌 TPU 尺寸示意图

资料来源:谷歌研究所官方博客,天风证券研究所 资料来源:谷歌研究所官方博客,天风证券研究所

自 2016 年以来,TPU 运用在人工智能搜索算法 RankBrain、搜索结果相关性的提高、街景Street View 地图导航准确度提高等方面。皮查伊顺带提到了 3 月份进行的举世瞩目人机大战里,在最终以 4:1 击败围棋世界冠军李世石的 AlphaGo 身上,谷歌也使用了 TPU 芯片。这是谷歌第一次为 AI 研发专门硬件。谷歌同时表示,这款芯片目前不会开放给其他公司使用,而是专门为 TensorFlow 所准备。

这款芯片的主要特点是:

1、从硬件层面适配 TensorFlow 深度学习系统,是一款定制的 ASIC 芯片,谷歌将 TPU 插放入其数据中心机柜的硬盘驱动器插槽里来使用;

2、数据的本地化,减少了从存储器中读取指令与数据耗费的大量时间;

3、芯片针对机器学习专门优化,尤其对低运算精度的容忍度较高,这就使得每次运算所动用的晶体管数量更少,在同时间内通过芯片完成的运算操作也会更多。研究人员就可以使用更为强大的机器学习模型来完成快速计算。

2.18.2. 人工智能的推进器:GPU

机器学习得以普及起来,其中一个重要原因就是计算能力的增加和 GPU 的出现,所以在这里我们也简单介绍一下 GPU。图形处理器(Graphics Processing Unit, GPU)是计算机中主要用来处理图形数据方面的处理单元。GPU 在执行复杂的数学计算和几何计算中十分有效,

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 54

因此被广泛地运用在图像和图形处理中。现在 GPU 的运用不单在 3D 图形处理,由于 GPU

同时调用多个核心,让 GPU 可以同时对多像素进行处理。这个特点现在正广泛地运用在有并行特性(Data-Parallelism)的应用中,比如说大数据的多任务处理。

在 1999 年,英伟达(Nvidia)带来了被认为是世界上第一款消费者级别的 3D 图形 GPU,GeForce 256,是 GPU 首次被当作计算机中的一个独立处理芯片。进入 2000 年后,GPU

在 3D 图形的渲染计算能力上得到巨大发展,可编程着色技术(programmable shading)和浮点运算能力(floating point abilities)是实时处理 3D 图形加速技术中最大的飞跃。

随着英伟达 GeForce 8 系列的推出,GPU 成为了一种用途更为广泛的计算设备。现今,并行 GPU 已经开始在计算方面与传统的 CPU 竞争。其中随着研究的细分,GPU 计算以及通用型 GPU(简称 GPGPU)的应用领域已经十分多样化,其中包括深度学习、石油开发、科学图片处理、线性计算、统计、3D 构建甚至股票期权定价策略等。

简单理解 CPU 与 GPU 之间的区别的话,那就是对比二者的任务处理能力。CPU 有着较少量的核来进行最大化的连续串行处理,而 GPU 则有着极大的并行结构,这种结构包含了数以千计的、高效计算能力的核,因此在同时处理多个问题中显得更加得心应手。

图 85:英伟达 GPU 在人工智能的主要合作平台

资料来源:英伟达官网,天风证券研究所

GPU 比 CPU 拥有更多的运算器(ALU),因此在处理庞大的数据中,GPU 可以做得更高效。一个 CPU 核可以同时执行 4 项 32 位指令(用 CPU 中的 128 位 SSE 指令集)或者通过 256

位高级矢量扩展指令集(AVX)执行 8 个指令集。但 GPU 如 Radeon HD 5970,则可以执行3200 个 32 位的指令(通过其 3200 个运算器)。二者之间的运算效率的差距达到 800 倍(如果使用 AVX 则是 400 倍)之多。在 2011 年,运行速度最快的 CPU 拥有 6 个、8 个、最多12 个的核,并有较高的主频(2000-3000MHz,对比 Radeon HD 5970 的 725MHz),但是一个 HD 5970 仍然比 12 核、2.3 GHz 的 CPU 运算速度快 5 倍。GPU 的高运算性能让它能够应用在科学计算、密码破解、数值分析、海量数据处理等方面。

GPU 大规模并行计算(parallel computing)的能力得到充分利用,被运用在当前最前沿的人工智能神经网络算法中。2007 年开始,为游戏中 3D 实时处理而设计的显卡为 GPU 的每秒浮点运算次数(FLOPS)带来了突破性的进展,计算速度的突飞猛进让科学家大量的将GPU 运用到人工智能当中。在 2012 年,英伟达与谷歌的人工智能团队合作,建造最大的人工神经网络,并首次将人工大脑用于分析 YouTube 的视频内容。这个由英伟达 GPU 芯片组成的神经网络被用于识别 YouTube 中有猫的视频,并成功地做出了数以万计的识别。《自然》杂志表示,随着 GPU 的出现,研究人员在对深度学习神经网络进行训练的速度得到了 10-20 倍的提升。英伟达也表示,他们在对 GPU 设计、系统架构、编译器、算法等方面进行改进后,在短短三年时间内,将深度神经网络训练的速度提高了 50 倍。

2012 年,多伦多大学 Alex Krizhevsky 团队获得了当年计算机图像识别大赛的冠军。他们利

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 55

用英伟达 GPU 构建神经网络,由于其大模块数据处理的特性,该团队的 Alexnet 神经网络在没有构建别的程序的情况下得以利用深度学习来识别手画。

到了 2015 年,人工智能获得里程碑式的发展。通过深度学习,谷歌和微软分别在 ImageNet

比赛中战胜人类选手,获得最高分;微软与中科大合作建立的深度学习神经网络在 IQ 测试中达到了大学毕业生的标准;百度宣布 Deep Speech 2 可以同时对英语和普通话进行深度学习。英伟达 GPU 的并行多任务处理能力让深度学习神经网络增速,为研究人员节约数周的迭代训练。另外,英伟达的 CUDA 平台的可编程性与丰富性帮助研究者在深度学习神经网络(DNN)、递归神经网络(RNN)以及 LSTM 网络中进行创新。

2016 年 4 月,英伟达发布一款最新的 GPU,Tesla P100 GPU。根据英伟达 CEO 黄仁勋表示,该款 GPU 较之以往产品可以让深度学习神经网络的处理速度提高 12 倍。P100 的研发耗资 20 亿美元。以往的 Tesla GPU产品,例如 Quadro Plex 2200 S4,最大只有 4 核 GT200GL

芯片,而 P100 则有 8 块最新的 DGX-1 的芯片,配置成本更达到了 12.9 万美元。该款 GPU

在 6 月首先配送到 MIT、斯坦福和加州大学伯克莱分校的人工智能研究部门。我们总结了过往英伟达 Tesla 系列的芯片,发现随着研发的进步,GPU 更加专注于核数量、单精度与双精度的提高。

图 86:英伟达 Tesla GPU 主要产品与性能

资料来源:英伟达官网,天风证券研究所整理

半导体研究公司 Tractica LLC 预计,到 2024 年深度学习项目在 GPU 上的花费将从 2015 年的 4360 万增长到 41 亿美元,而在相关软件上的花费将从 1.09 亿增长到 104 亿美元。GPU

市场基本上被英伟达和 AMD 所占据,IDC 预计独立显卡市场(包括商用、家用移动设备和台式电脑)的总量在 40 亿美元,英伟达则占据其中 85%份额。

图 87:GPU 和 CPU 结构上的区别 图 88:深度学习在计算机视觉领域的优越表现

资料来源:英伟达官网,天风证券研究所 资料来源:英伟达官网,天风证券研究所

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 56

2.18.3. GPU vs CPU+可编程的 FPGA

FPGA (Field Programmable Gate Array)即现场可编程门阵列,它是在 PAL、GAL、CPLD 等可编程器件的基础上进一步发展的产物。它作为专用集成电路 (Application Specific

Integrated Circuit, ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。

根据 Gartner 的分析,2015 年 FPGA 总市场规模达 57.1 亿美元,比 2014 年增长 12%。估计到 2020 年 FPGA 市场规模将达到 79 亿美元。其中,Xilinx 的市场份额为 49%,主要产品包括,Virtex 系列、EasyPath 系列、Spartan® FPGA 系列等。Xilinx 是 FPGA 的发明者,以技术创新为目标,引领市场的发展趋势。他们的 FPGA 芯片比较大,逻辑门比较多,主要应用到工业和通讯领域,但近年亦致力于在云计算数据中心的服务器以及无人驾驶的应用。

Xilinx 早前公布跟 IBM 合作,通过 CPU+FPGA 的组合,在云计算服务器里提供人工智能辅助应用。鉴于 GPU 的速度和性能,他们主要负责提供人工智能的核心和复杂算法,但是算法编程一旦固定了之后修改比较麻烦,加上机器学习算法里有很多参数(parameters)是需要一边训练一边调整,所以在 GPU 以外使用 CPU+FPGA,可以依靠 FPGA 可编程的性能去做参数调整。这样还可以节省成本和能耗,成为现今比较流行的应用组合。

图 89:TPU 与 CPU、GPU、FPGA、ASIC 特征对比

资料来源:天风证券研究所整理

另一巨头 Altera(已被英特尔收购)的市场份额约为 40%。他们的定位跟 Xilinx 类似,同样针对大型芯片和工业、通讯和云计算应用,也比较重视片上系统(System on Chip, SoC)。被收购之后希望与英特尔共同打造完整的嵌入式生态系统。主要产品包括,Cyclone 系列、Stratix 系列等。

莱迪斯半导体(Lattice Semiconductor)的市场份额约为 6%。他们的定位跟 Xilinx 和 Altera 不一样,主要市场为消费电子产品和移动传输,以降低耗电量、缩小体积及缩减成本为主。主要产品有 iCE40 Ultra / UltraLite、MachXO3 Series、ECP Series 等,应用于手机和无人机等。

Microsemi (Actel)的市场份额约为 4%。主要产品为 Fusion、IGLOO、ProASIC3L 等。公司致力于为通信、国防与安全、航天与工业等市场。

相对于 FPGA,ASIC(Application Specific Integrated Circuits,专用集成电路)是指依产品需求不同而定制化的特殊规格集成电路,以特定使用者要求和特定电子系统的需要而设计及制造。TPU 作为特殊应用于人工智能和深度学习领域的芯片,以及 Mobileye 的 EyeQ 系列 SoC 芯片也属于 ASIC 的一种。

未来科技发展趋势是智能化及全能化。FPGA 可进行重新配臵而不扰乱其他芯片进行的计算。加上 FPGA 自身的可更改性、架构灵活、软件系统兼容性等特性,使得深度学习研究者在固定构架之外可针对不同情况优化和调整模型,这将对大规模深度学习模式产生影响。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 57

3. 2B 业务盛妆待发:Firebase 与云计算

3.1. 全新的 BaaS Firebase

2014 年 10 月,谷歌收购了 Firebase,并将这家实时后端数据库创业公司的技术整合到公司的云计算服务中。Firebase 提供数据同步的云服务,服务对象是互联网及移动应用开发者,帮助他们开发具有实时(Real-Time)特性的应用。后端服务(Backend as a Service, BaaS)

主要为移动和互联网用户提供后端云服务,包括云端数据/文件存储、账户管理、消息推送、社交媒体整合等。

在 2016 年的 I/O 大会上,谷歌把 Firebase 升级为一个针对移动开发和互联网开发的完整后端解决方案。谷歌刚收购 Firebase 时上面的开发者人数有 11 万人,现在使用人数已经增长至 45 万人。新的 Firebase 均支持 iOS 和安卓移动系统,大部分功能还支持网页端开发。而且在谷歌分析服务 Analytics 团队的帮助下,Firebase 与分析服务实现了深度集成。

图 90:Firebase 带来一体化平台 图 91:Firebase 与分析服务实现了深度集成

资料来源:谷歌 2016 I/O 大会现场照片,天风证券研究所 资料来源:谷歌 2016 I/O 大会现场照片,天风证券研究所

Firebase 分为三个特性:开发、增长与收入

图 92:Firebase 功能简介

资料来源:谷歌开发者博客,天风证券研究所整理

开发特性:对于开发者最基础的开发功能,Firebase 提供了包括实时数据库、托管、客户认证、云端消息系统、云端储存、崩溃报道、远程配置、测试实验室等功能。Firebase 让开发者专注于 App 的开发,而将调试、配置、错误分析等处理流程交给 Firebase 完成,极大地节约开发时间、缩短开发周期。

实时数据库

(Realtime Database)数据实时保存至云数据库

动态链接

(Dynamic Links)

将用户带至应用内预期页面的深度链

接(deep links)

托管

(Hosting)

2015年收购应用托管服务商

Divshot,现提供免费自定义域名支

持,针对Web应用的全球CDN

App索引

(App Indexing)将应用索引至谷歌搜索

认证

(Authentication)

认证客户使用客户端代码,加入邮件

认证和账户链接

邀请

(Invites)

支持用户与其他用户分享有关应用的

信息

云消息

(Cloud Messaging)

全新的通知系统,每天处理2亿台设

备上的17000条通知消息AdMob

集成了谷歌 AdMob 移动广告管理平

储存

(Storage)

存储用户的语音、图片和视频,由谷

歌云储存平台支持AdWords

集成了谷歌 AdWords 关键词竞价广

告平台

崩溃报告

(Crash Reporting)

监控各类设备上应用的错误并分析服

务集成,评估应用崩溃时的用户行为

通知

(Notifications)

搭建在Firebase云消息端口上的通知

UI,管理发给用户的通知

远程配置

(Remote Config)

开发者在不需要发布新版本 app 的情

况下,修改应用的行为和外观

测试实验室

(Test Lab)

与谷歌云端测试实验室结合,专门针

对Android,提供真实设备App测试

开发 增长与收入

完全免费的分析服务(Analytics):

1.开发者可以更好地洞悉用户的来源及使用行为,并了解付费广告的表现情况

2.新加入“观众”(Audiences)特性,超过500个用户事件定义,让开发者能自定义客户分类

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 58

增长特性:增长功能包括有动态链接、App 索引、用户邀请权限、用户通知管理以及与AdWords 配合的关键词竞价。这些功能让开发者能够更好地找到目标客户群体。

收入特性:接入谷歌的 AdMob 移动广告管理平台,能让开发者更好地管理 App 中的植入广告投放和收入。

上图是我们整理的 Firebase 更新后的全方位开发、增长与收入服务特性。值得一提的是,Firebase 整合了完全免费的分析服务工具 Analytics,在 SDK 中包括了超过 500 个独立用户事件定义,能让开发者更好地洞悉 App 用户的使用习惯数据,实时掌握 App 广告收入情况,获取用户报告并且对用户群体进行有效的分类分析。

Firebase 针对不同的开发者提供了非常吸引人的使用套餐,一共分为三种收费标准:1、对业余开发爱好者提供极少量限制的免费火花(Spark)套餐,2、对成长型 App 开发者提供成本可预估的标准火焰(Flame)套餐,以及 3、对大体量 App 开发者以及企业级用户提供价格低廉的现付现用烈火(Blaze)套餐。烈火(Blaze)套餐,整合了谷歌云计算平台的多项服务工具,除了利用谷歌云储存空间进行开发备份,许多云端设置在 Firebase 和云计算平台之间可以进行互通,包括账单信息等。

图 93:Firebase 收费套餐标准

资料来源:谷歌 Firebase 官网,天风证券研究所整理

图 94:Firebase 与谷歌云服务结合 图 95:2016 Q2 云服务平台市场份额排名(yoy 增长率)

资料来源:谷歌 2016 I/O 大会现场照片,天风证券研究所 资料来源:Synergy Research Group,天风证券研究所

3.2. Diane Greene 挂帅的谷歌云计算

在Synergy Research Group的市场统计数据中,2016年Q2整个云服务平台市场(包括 IaaS、PaaS、私有云及混合云)的总收入达到 80 亿美元,过去 12 月收入达到 280 亿美元.其中亚马逊 AWS 与其他供应商相比有着非常大的优势,而谷歌在 IaaS 领域还需要追赶前面的IBM 和微软。通过较其他对手更灵活的使用方案,想要从 AWS 手中抢夺中小企业用户份

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 59

额,并推出了大受欢迎的虚拟机资源自定义、大数据分析工具、SQL 数据库等工具,2Q

同比增幅 162%。

我们认为谷歌的商业用云计算服务将会迎来快速增长。主要原因为:

1. 谷歌拥有庞大的数据中心,规模效应能够充分节省资本开支及运营开支:谷歌累积十多年的数据中心设计和运行经验,能源使用量比一般机房少 50%。另外,谷歌在全球拥有4 个数据中心区域,包括 70 个数据缓存站,并与 CDN 巨头 Akamai 和其他 CDN 运营商合作加速网络流量。今年前 9 月 Capex 超 71 亿美元,明年预计在英国、德国、印度、巴西等地新开至少 8 个数据区域,并利用机器学习算法节省 15%能源。谷歌云主导混合云,区别于亚马逊和微软更关注公有云的策略。最近推出 G Suite 桌面办公套件,也由 Diane

Greene 领衔发力企业用户。

2. 谷歌利用自身在 2C 云先驱的优势去拓展 2B 云:谷歌是 2C 云的先驱,旗舰产品包括Gmail, Google Docs, Google Drive, Google Calendar 等,日常应用软件已经拥有大量用户基础,同时也为 2B 云服务打稳基础。

3. 谷歌财力充足,外购 2B 业务资深人才,增强公司执行能力:在 2015 年 11 月,谷歌收购了一家初创公司 Bebob,其创业者为前 VMWare 的始创人和 CEO Diane Greene。虽然我们对谷歌在科技方面的创新能力是非常肯定,但是一直以来,我们也比较担忧谷歌在新兴科技转现和 2B 业务方面的执行能力。所以,这次任命 Diane Greene 为企业云业务主管,确实合适不过,而且业界对她的执行能力非常肯定。

谷歌的云计算平台(Google Cloud Platform, GCP)在 2016Q2 的收入同比增长率达到了 162%,通过 Firebase 连接底层云计算平台和上层的 SaaS 业务,以应用为切入口去和亚马逊 AWS

竞争的战略。负责基础设施的谷歌高级副总裁 Urs Hölzle 表示,Firebase 将是构建企业移动应用的重要工具。

挖来VMware的创始人Diane Greene挂帅谷歌的商业云计算部门是谷歌云计算最大的动作之一。2016 年三月,Diane Greene 上任以来第一次正式公开演说中表示,“谷歌云计算的发展将是一个长期而不会停止的商业目标”,她承认亚马逊先谷歌 4 年进入了云计算市场,但是云计算的下一场革新正在酝酿,就是如何挖掘云计算平台背后的支撑技术来为用户提供更好的云端服务。这其中最重要的就是:数据分析、数据洞察以及机器学习能力。未来的云计算发展将沿着一条陡峭的创新曲线,而谷歌拥有着 16 年的技术积累、高效的数据中心以及对自动化的巨大投入,在追赶亚马逊的道路上,谷歌希望让用户体验到谷歌的技术革新带来的便利,同时强调开源带来的技术共享优势。

图 96:谷歌云计算平台现在的六大数据区域

资料来源:谷歌云计算官网,天风证券研究所

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 60

谷歌在 2016 年宣布将在 2017 年底前新建十个数据区域,包括两个新数据区域在已经 2016

年下半年在美国俄勒冈州(美西区域)和日本东京(亚洲东部)落成。2016 年前 9 月 Capex

超 71 亿美元,今年预计在澳大利亚、新加坡、芬兰、美国、英国、德国、印度、巴西等地新开 8 个数据区域。

俄勒冈的数据区域将以谷歌于 2006 年在该地建成的数据中心厂区为基础,谷歌计划投入 6

亿美元,在距离原数据中心厂区一英里的地方新建一个占地 23 公顷的新厂区。至新的数据区域完工,谷歌在这个地区的资本支出将达到 20 亿美元。

与之对比,目前 AWS 在全球拥有 13 个基础设施区域(包括新增设的孟买),可用区域达 35

个,在今年预计将增加 12 个可用区域和 5 个新区域上线。谷歌在与亚马逊、微软竞争的过程中,一直强调将机器学习引入云计算平台后能够给使用者带来更好的服务体验。

在 2016 年 3 月的谷歌云计算平台大会(GCP NEXT 2016)上,谷歌正式宣布推出面向开发者的全新云端机器学习平台(Cloud Machine Learning),并且开放了语音识别的 API。谷歌认为“机器学习就是未来。”

谷歌表示,这次为云计算平台加入的机器学习技术与谷歌使用在 Google Now 中的智能私人助理、Google Photos 相册的图片识别、谷歌搜索中的语音识别、Gmail 邮箱智能回复等使用的是相同的机器学习技术。开发者们可以通过两种方式来使用这个基于机器学习的云平台:

1、开发者使用自己的数据搭建机器学习模型,例如金融服务软件进行价值预测,或是图片分类软件进行图片识别,为了训练模型,开发者还可以运用谷歌云计算的一系列服务产品包括 Dataflow、BigQuery、Dataproc、Datalab 等;

2、为开发者提供一个已经训练好的模型:在语音识别 API 之前,谷歌云计算平台已经开放了机器翻译端口和计算机视觉端口,而这次新加入的语音识别端口,正是谷歌使用递归神经网络(RNN)搭建的改良语音识别模型。这个技术谷歌主要使用在搜索的语音识别以及谷歌键盘的语音打字输入中。

图 97:GCP 提供的三种机器学习端口 图 98:谷歌语音识别神经网络的输出示意图

资料来源:GCP 官网,天风证券研究所 资料来源:谷歌研究所官方博客,天风证券研究所

除了机器学习,谷歌还为云计算平台加入了其他大数据分析服务:

1、BigQuery:GCP的一项 PB(petabyte)量级数据管理仓库,BigQuery是去服务器化(severless)

的,开发者无需搭建底层构架就可以进行数据库分析。在这次的 GCP Next 大会上,谷歌为 BigQuery 带来的服务升级包括:

a) 自动数据表分区,方便开发者访问数据分区表;b) 对数据储存价格的下调,长期储存数据超过 90 天后将自动降价 50%;c) 使用新的储存引擎将访问速度提高至 10 倍,新的储存机制将数据输入输出速度提升 5 倍。

2、谷歌数据 360 工作室(Google Data Studio 360),一个全新的数据可视化工具,开发者可以将所有数据分析工作流统一到这工具中的,然后可以同时审阅不同数据分析服务的报告,并生成新的数据报告。

谷歌认为虽然现代云系统基于“已有数十年之久”的老技术,但是公司现在推出的产品和服务都是在为下一代云计算的创新做准备。埃里克·施密特(Eric Schmidt)在 GCP Next 大会上表示,众包数据(crowd-sourced data)与机器学习相结合的计算框架将会是未来发展趋势,谷歌希望在未来五年内实现。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 61

4. CCAI 2016 中国人工智能大会实录

4.1. 会议摘要

2016 年 8 月 26 日至 27 日,我们参加了在中国科学技术协会、中国科学院的指导下,由中国人工智能学会发起主办、中科院自动化研究所与 CSDN 共同承办的 2016 中国人工智能大会(CCAI 2016)。大会邀请了 40 多位国内外人工智能顶级专家,针对深度学习与人机交互、人工智能和自然语言处理、通用人工智能产业技术路线做出了独到且深刻的讲解。

4.1.1. 中科院副院长谭铁牛《关于人工智能发展的思考》主题演讲

大会的重头戏为谭铁牛院长的开场演讲。演讲主要论述了人工智能的前世、今生和未来的发展,以及中国发展成为“人工智能”强国的战略。整个演讲提纲挈领,从宏观上清楚地梳理了人工智能的发展思路。

图 99:人工智能发展技术曲线

资料来源:人工智能大会现场,天风证券研究所整理

谭院长开篇讲到人工智能经历 60 年的技术沉淀,从 2010 年至今迎来了突破性进展,主要技术表现在竞赛型智能大脑(Alpha Go)、自动驾驶技术(Mobileye)、语音识别(亚马逊的 Echo)、人脸识别和虹膜识别等方面的革新。谭院长也讲到,目前人工智能呈献出 10

大新的动态,分别是:AI 国家战略化、企业技术竞争白热化、投资并购密集化、AI 应用普适化、AI 服务专业化、基础平台开源化、关键技术硬件化、技术方法集成化、学科创新协同化和社会影响大众化。

图 100:宏观角度看人工智能的发展趋势 图 101:Gartner 技术成熟曲线提示警惕“幻灭期”

资料来源:人工智能大会现场,天风证券研究所 资料来源:人工智能大会现场,天风证券研究所

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 62

在宏观角度上,谭院长回顾总结了 60 年来人工智能的 6 大发展趋势:(1)从浅层智能到深层智能的发展,并特别提出深层智能始于知其然,归于知其所以然的特点,主要表现在自我更新、自我完善的学习能力和举一反三的泛化能力;(2)从专用人工智能到通用人工智能,并表示从人脑中寻求启发,在机理层实现自然智能,是从专用人工智能走向通用人工智能的重要途径;(3)从机器智能到混合智能;(4)从数据驱动到数据和知识的协同驱动;(5)从线下智能到云上智能;(6)从网上到网下。

虽然 AI 发展如火如荼,但谭院长仍表示出对于 AI 技术在“期望膨胀”后“幻灭”的忧虑,原因主要在于深度学习依旧存在明显的局限性,尤其是在任务的无缝切换、知识迁移、对环境变化的适应和自我完善,对小样本的举一反三等方面与人类学习能力相差甚远。深度学习的本质是通过多层非线性映射对复杂函数进行逼近,以达到高度模仿人脑的效果,这个前提是在大数据和大规模计算资源驱动下的基于基础理论的突破。目前的瓶颈在于由于脑科学研究尚未深入和成熟,类脑智能研究、模拟、应用等并不能达到“类人脑”的理想效果,因此技术理论突破的艰难可能会是 AI“幻灭”的主要因素。因此谭院长建议从业者不忘初心,苦练理论内功,不盲目跟风,这样才能支持 AI 长足的发展。

图 102:中国人工智能创新战略

资料来源:人工智能大会现场,天风证券研究所整理

4.1.2. 微软人工智能首席科学家邓力《驱动大数据人工智能多种应用的三类深度学习模式》主题演讲

微软人工智能首席科学家邓力博士也是 IEEE Fellow,他的主题演讲从深度学习的三种学习模式开始,第一个模式是用有标注的大数据来做有深度监督学习,第二个是用无标注的(更)大数据来做非监督学习,第三部分就是深度增强学习。

图 103:深度学习的三类学习模式 图 104:微软图像识别技术在 ImageNet 中的表现

资料来源:人工智能大会 PPT,天风证券研究所 资料来源:人工智能大会 PPT,天风证券研究所

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 63

1. 深度监督学习包括了输入输出匹配的大数据训练,然后进行端到端的反向传播。在深度学习之前的很多模型,模型深度“浅”,“端到端”的特点并不是特别明显,很大一部分深度学习的进展,就是专注于把深层优化问题解决。例如使用深度监督学习的语音识别应用,就是输入端(声音)到输出端(文本)的大数据配对训练。

邓力博士表示,深度学习 2012-2013 时在工业界迅速崛起,语音识别在 2012 年时就把错误率降低到约 13%,经过 2 年发展,到 2015 年继续降到了 9%左右。

2. 深度增强学习则是在监督学习的基础上,解决监督学习局限性。目前基于大数据的人工智能的应用局限之一在于依赖于深度监督学习,就是说要在有输入输出匹配的大训练数据之后才能使用端到端的反向传播(backpropagation),不但成本很高,而且系统很不灵活,很难快速适应新环境。如果需要解决复杂的逻辑推理问题,基于大数据和深度学习的人工智能系统往往给不出理想的答案。这种依赖于深度监督学习的系统还缺乏常识和直觉。

增强学习适用于控制和决策任何有阶段性的过程,比如下棋和聊天机器人,大型状态空间以前对增强学习是个大难题,但现在引入深度学习之后问题就基本解决了,于是增强学习和深度学习相结合的模式就是现在的深度增强学习。

3. 无监督深度学习:邓力博士认为这是未来人工智能的一大新兴领域,主要解决在没有标注(label)的情况下系统如何完成学习训练,以及在无监督条件下完成之前有监督学习中的反向传播(Backpropagation)以及系统优化。

图 105:无监督学习的壁垒与难点 图 106:深度学习在人工智能的应用与未来方向

资料来源:人工智能大会 PPT,天风证券研究所 资料来源:人工智能大会 PPT,天风证券研究所

目前基于大数据的人工智能的应用局限之一在于依赖于要求输入输出有匹配的大训练数据的深度监督学习,而破解目前大数据人工智能的缺失思路包括深度非监督学习和深度强化学习,以及新型的基于高维张量的结构表征。无监督深度学习对比有监督学习的优势体现在:不需要输入输出匹配的大数据,这样就不需要建造训练数据集,输入输出数据集都可以现成获得。但是无监督学习目前研究难度非常大,体现在更加困难的优化问题,在达到全局最优前面临更高的壁垒。邓力博士指出量子计算机的通道效应有可能是会是无监督学习的“救星”。

总结深度学习的实际应用,邓力博士指出,目前在语音识别、图像识别、自然语言处理、图像捕捉、棋类游戏等领域已经获得了成功,下一步就是把监督学习、强化学习转向无监督学习的过程。而在接下来的发展中,我们应该看到深度学习在信息检索 (information

retrieval)、聊天机器人、人工智能助理、商业分析、金融对冲、物流优化、机器人学、医疗、安全等领域的进步。

邓力博士最后谈到将来的 AI 会往什么方向发展:

1. 未来 AI 将会是一个通用的 AI,一个最有用的、最后成功的 AI 一定是通用的 AI,否则这个 AI 不会被整个业界广泛采用;

2. 迁移学习的应用:一个领域的知识转化到另外一个领域的知识,这需要基于多种类的深度学习的结合;

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 64

3. 神经网络的表征处理(symbolic processing):未来的人工智能应该能够自动地获取并且产生新的知识,能使得新的知识与所有的知识融合在一起。

4.1.3. 分论坛讨论摘要

图 107:百度展示人脸识别错误率已经降到 2.3% 图 108:百度深度学习研究员主攻方向

资料来源:人工智能大会现场,天风证券研究所拍摄 资料来源:人工智能大会现场,天风证券研究所拍摄

目前在人工智能领域,超过一半的技术类企业投资是在计算机视觉方面。百度的深度学习研究院目前主攻方向基本以图像识别为核心,包括:图像识别基本技术、细粒度图像识别(fine-grained image recognition)、视频分析、AR 技术和医学图像分析。

图 109:百度的 AR 技术交互模式展示 图 110:神经网络在人脸识别上超过人眼

资料来源:人工智能大会现场,天风证券研究所拍摄 资料来源:人工智能大会现场,天风证券研究所拍摄

在图像识别基本技术中,据百度深度学习研究院院长林元庆介绍,百度的光学字符识别(OCR)技术已经排到世界前列,手机端身份证识别准确率达到 99%以上。在细粒度图像识别中,林元庆表示百度在 9 月份上线糯米应用的新功能,系统在机器学习了用户拍摄的菜品图片后,可以识别出是哪家餐馆的具体哪道菜品,并推荐用户附件 5 公里内最佳的餐厅。视频分析方面,百度希望将技术运用到无人驾驶的图像识别领域,目前主攻的方向是视频分割以及 3D 重建;而在 AR 方面,林元庆展示了目前百度达到的通过向视频拍摄画面叠加动画效果的成果。

林元庆总结道,目前是 AI 的黄金时期,机器的深度学习需要建立在庞大的有效数据训练上。接下来的 1-3 年是很多人工智能技术的关键阶段,如果没有跟上发展,及时开发技术,获得数据积累,就会错过人工智能的最佳发展期。

机器学习的明天论坛

大会还举行了“人工智能产业”,包括微软亚洲研究院主管研究员郑宇、蚂蚁金服副总裁/

首席数据科学家漆远、驭势科技联合创始人/CEO 吴甘沙、红杉资本中国基金合伙人周逵、格灵深瞳联合创始人/CTO 赵勇和京东感知认知实验室(Perception and Cognition Lab, PCL)

研发总监陈宇等共同参加论坛。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 65

图 111:MSRA 郑宇介绍北京空气质量监控 图 112:红杉资本周逵介绍公司的 AI 合作伙伴

资料来源:人工智能大会现场,天风证券研究所拍摄 资料来源:人工智能大会现场,天风证券研究所拍摄

微软亚洲研究院主管研究员郑宇介绍了通过大数据和人工智能的结合,人们构建智能城市的想法。他以城市空气质量监控方案为切入点,介绍了基于大数据分析与人工智能的空气质量实时监控及预测,以及进一步的环境治理。

红杉资本中国基金合伙人周逵则表示,未来所有成功的公司都会变成人工智能公司,而目前整个业界的趋势就是人工智能。目前看好金融和安全,未来 5-10 年则可能是汽车,再之后可能是健康领域。

图 113:京东陈宇介绍京东虚拟试衣功能 图 114:京东陈宇介绍京东智能家居布局

资料来源:人工智能大会现场,天风证券研究所拍摄 资料来源:人工智能大会现场,天风证券研究所拍摄

京东 PCL 的陈宇则介绍了京东作为一家电商企业如何应用人工智能来提升运营效率,改良用户体验。他还介绍了公司在 VR、AR 领域的战略以及无人仓、无人机、人工智能客服、智能家居方面的探索。

在网页运营方面,京东商品详情页上介绍产品内容最主要的表现形式,网站对于图片、商标、背景颜色复杂程度、非法广告字的审核,无法单靠人工审核完成海量的工作,因此京东开发出了基于卷积神经网络的钟馗图像审核系统,识别图像内部信息,再结合人工审核,完成对网页图片的精确识别。

陈宇还介绍了在改善用户体验方面的创新,包括京东试衣间、拍照购等应用。虚拟试衣间应用结合了深度学习和传统算法,其中深度学习使用了多任务学习(multi-task learning),对衣物的款式、材质、等属性进行建模;传统算法则根据用户搜索行为推荐更为契合的服装搭配。同时试穿效果的展示也会利用 VR 技术进行虚拟展示。除了在 VR 等技术的涉足,京东还会在无人仓储物流、人工智能客服等方面进行研发,体现人工智能替代人工的功能。

蚂蚁金服副总裁兼首席数据科学家漆远介绍了人工智能驱动的金融生活应用场景。他表示蚂蚁金服的定位就是以信用为基础,人工智能驱动的公司,体现在信用、推荐、风控、搜索、智能助理、营销等方面的应用。以智能客服为例,2015 年“双 11”期间,蚂蚁金服95%的远程客户服务已经由大数据智能机器人完成,同时实现了 100%的自动语音识别。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 66

图 115:蚂蚁金服漆远介绍金融领域 AI 元素 图 116:蚂蚁金服漆远介绍金融领域 AI 应用

资料来源:人工智能大会现场,天风证券研究所拍摄 资料来源:人工智能大会现场,天风证券研究所拍摄

他十分看好人工智能在金融领域的应用,最关键的因素就是金融生活不论是交易、资产配置、信用,本质都是数字数据的体现,这方面深度学习能够发挥作用;另一点是金融行业的规模足够巨大去推动人工智能的应用和发展。

图 117:人工智能产业论坛现场 图 118:智能驾驶的发展之路

资料来源:人工智能大会现场,天风证券研究所 资料来源:人工智能大会 PPT,天风证券研究所

论坛上另外还有来自智能驾驶领域初创公司驭势科技创始人/CEO 吴甘沙阐述对无人驾驶领域的发展观点。吴甘沙是前英特尔中国研究院院长,驭势科技是一家专注于自动驾驶领域的公司,吴甘沙表示:

1. 智能驾驶是未来 10 年市场辐射规模最大、社会效益最卓著的人工智能产业;他表示从全球汽车市场、全球出行市场以及自动驾驶带来的社会效益能产生 3 万亿美元的市场。

2. 智能驾驶技术、市场和政策条件在未来 5 年成熟;他认为“人+机器”的辅助驾驶到高度自动驾驶的前进将在 2020 年开始到来,此后进入限定场景无人驾驶阶段,并在 2030 年间达到全天候全区域无人驾驶的阶段。

3. 生态的合纵连横将是主旋律。

4. 智能驾驶不仅是人工智能,它也是人工智能+汽车电子+系统工程,需要将汽车电子、系统工程的概念加进去才能实现真正的智能驾驶。

5. 智能驾驶创新的重心逐步从人工智能到系统工程。

吴甘沙表示国内对智能驾驶技术要求更为经济,在技术及基础设施上相互配合,肯定比人类驾驶更为安全,进而推动整个社会受益。

4.2. 与 Tomaso Poggio 教授的访谈

在会议间隙,我们采访到了人称“AlphaGo 教父”的麻省理工学院人工智能实验室(MIT

CSAIL)教授、美国人文与科学院院士 Tomaso Poggio 教授。曾在 Poggio 教授门下进行博士后研究的包括有“AlphaGo 之父”AlphaGo 设计者 Demis Hassabis,以及在无人驾驶视觉算法领域大名鼎鼎的以色列公司 Mobileye 的联合创始人 Amnon Shashua。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 67

以下为交流记录:

1、您怎么看待这次 Mobileye 与特斯拉之间的合作关系终止?

我认为特斯拉在宣传 Autopilot 辅助驾驶方面存在着误导,网上有很多粉丝拍摄的坐在车后座双手完全离开方向盘的视频,这些是非常危险的。据我了解,Mobileye 在与特斯拉的合作关系到期后将不会再提供更新的系统,不过之前已有的产品 EyeQ3 应该还会继续使用。

2、Mobileye 的高级驾驶辅助系统背后有深度神经网络么?

Mobileye 在目前的 EyeQ3 芯片中加入了深度神经网络,而且在深度学习方面表现很好,在未来的 EyeQ4、EyeQ5 中也会继续使用深度神经网络。按照 Mobileye 的计划,他们打算在 2018 年之前推出 EyeQ4,未来将能支持 8 个摄像头(现在 EyeQ3 为一个摄像头),并可能加入车载雷达、激光雷达等更多技术。

激光雷达原来的价格达到 80000 美元一套,现在价格可以降到 8000-10000 美元左右,并且预计会进一步降低到几百美元一套。Mobileye 最近与宝马和英特尔达成了合作,争取在2020 年左右推出完全自动汽车,并搭载 Mobileye 的 EyeQ5 自动驾驶系统。

关于无人驾驶何时到来,也取决于我们如何界定无人驾驶。最近在新加坡就有诞生于 MIT

的公司进行无人驾驶车辆的上路试运营,在一个比较封闭的城市区域内,乘客可以通过手机召唤车辆并搭乘。但我认为是我们距离拥有一辆具备完全无人驾驶技术的普通汽车,还有 20 年的时间。

3、您提到新加坡的无人驾驶测试,这家在公司也是诞生于 MIT?

这家从 MIT 分离出来的初创公司叫做 NuTonomy,他们在 2016 年 8 月底宣布将在新加坡的纬壹科技城(One North)区域提供无人驾驶出租车服务测试。这个被称为“新加坡硅谷”的2.5平方公里的科技城区域是非常理想的无人驾驶测试地点。在Nutonomy的无人车上,会配有一名工程师以及一位司机可以随时接管驾驶。

4、您觉得谷歌无人车的发展现状怎么样呢?

我觉得谷歌开启无人车项目的时候并没有对未来要面对的困难正确估计,要实现完全的无人驾驶技术比他们预想的更为复杂。我在与谷歌无人车项目的负责人们交谈中感觉到,在过去 6 个月的时间里,他们在重估无人车项目,进行发展方向上的调整。

5、您觉得特斯拉有可能与谷歌在未来进行合作么?

这一点上很难说,虽然埃隆马斯克也是 DeepMind 的投资者之一,而且谷歌创始人也曾经投资过特斯拉,不过目前只能说未来存在合作可能性。

6、您如何评价 Mobileye 和谷歌无人车各自的技术?

这两家公司使用的是不同的技术,谷歌采用的是激光测距系统(LIDAR),通过精密的激光器旋转扫描周围行驶环境进而来构造环境模型。这种基于激光雷达的技术,需要非常精确的地图数据支撑,地图数据需要不断更新才能保证准确性;Mobileye 的技术基于计算机视觉,更接近人类驾驶员那样的驾驶状态,系统通过车载摄像头捕捉路况,对实时路况随时进行适应和调整。我认为未来要实现完全无人驾驶技术,需要两种技术的相互结合。Mobileye

与德尔菲(Delphi)合作开发一套全自动驾驶系统,而德尔菲拥有与谷歌类似的技术,因此未来的技术实现应该会基于计算机视觉与激光雷达的相互结合。

7、您认为人工智能深度学习的热潮重新兴起,归功于 2006 年左右 GPU 的引入么?

2010 年以后的计算机视觉识别挑战赛 ImageNet 中,包括 2014 年谷歌获得冠军,2015 年谷歌和微软均在比赛中战胜人类选手,他们的技术中都部署了 GPU。GPU 方面主要的供应商是英伟达和 AMD,英伟达也把 GPU 部署到车载系统中,不过人们主要在训练深度学习系统时用到 GPU,我不太确定一块 GPU 芯片在车载系统中能发挥出的功效。

8、最近很多人提到 NPU,这是一个 ASIC,类似专门为神经网络定制的芯片,您如何评价?

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 68

我没有听说过这个产品,不过我们知道 GPU 一开始并不是专门针对人工智能神经网络的芯片,只是人们在使用中发现它的特性很适合人工智能系统的需求,所以我认为未来会出现专门针对神经网络优化的芯片设计。

9、所以简单来说,我们部署了 GPU 后还需要软件层面的编写,发挥 GPU 在神经网络中的计算效能。如果我们具备了专门针对神经网络的硬件芯片,那么计算将大幅提高?

是的。所以 Mobileye 在计算机视觉系统中的定制芯片类似于 GPU,从硬件层面提高了深度学习的速度。

10、提到 FPGA,去年英特尔收购了 FPGA 龙头 Altera,另一家 FPGA 巨头 Xilinx 在与 IBM

合作;我们知道 FPGA 的可编程性,人们表示 FPGA 也能应用到人工智能技术中,您认为FPGA 在未来人工智能领域的应用如何呢?

我们在 MIT 中有课程使用到 GPU 和 CPU,我也有学生在进行 FPGA 方面的研究。我们需要看到,虽然我们能在系统中部署上千个 FPGA 芯片并能将我们以前耗费好几天时间才能完成的计算减少到几个小时,但这仍然需要几个小时。我觉得这类芯片未来不会成为主流方向。

11、目前深度学习是一个非常热门的词汇,这背后的核心理论与我们十几年前进行研究的东西,目前来看有什么提升发展么?

本质上现在的深度学习与 20 年前的研究是一样的,不过在无监督学习方面确实变得更为智能,现在的神经网络能够部署更多的层数,然后无监督学习表现出更好的结果。我最开始做的是有监督学习,使用大量的数据集训练系统,调整设置参数,然后进行迭代。随着研究发展,很多设置调整的步骤可以省略掉,在数据集的使用上也大为减少到以前的 1%,但其实现在使用的“无监督学习”的名字本质上与我以前研究的神经网络是一个东西。

12、在无监督学习领域,您认为最主要的困难是什么?

可能是还没有办法找到适用于所有问题的通用型网络吧。现在的无监督学习在系统结构上与十几年前的深度学习神经网络是一样的,区别只在于那个时候我们还停留在实验室理论阶段,而现在能够被更多地部署到实际问题应用中,我也确信机器学习会成为今后的人工智能领域的主要工具。人类职员会更多地承担监督系统的工作,确保人工智能系统正确工作。我不认为所以人类工作会被消代,就像现在地铁列车一样,列车根据预设的系统行使,驾驶员也能够操作控制车辆系统。所以未来比如优步车中的驾驶员会演变成遇到紧急情况接管车辆控制的职能。

公司报告 | 公司深度研究

请务必阅读正文之后的信息披露和免责申明 69

分析师声明

本报告署名分析师在此声明:我们具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,本报告所表述的

所有观点均准确地反映了我们对标的证券和发行人的个人看法。我们所得报酬的任何部分不曾与,不与,也将不会与本报告中

的具体投资建议或观点有直接或间接联系。

一般声明

除非另有规定,本报告中的所有材料版权均属天风证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)及其附

属机构(以下统称“天风证券”)。未经天风证券事先书面授权,不得以任何方式修改、发送或者复制本报告及其所包含的材料、

内容。所有本报告中使用的商标、服务标识及标记均为天风证券的商标、服务标识及标记。

本报告是机密的,仅供我们的客户使用,天风证券不因收件人收到本报告而视其为天风证券的客户。本报告中的信息均来源于

我们认为可靠的已公开资料,但天风证券对这些信息的准确性及完整性不作任何保证。本报告中的信息、意见等均仅供客户参

考,不构成所述证券买卖的出价或征价邀请或要约。该等信息、意见并未考虑到获取本报告人员的具体投资目的、财务状况以

及特定需求,在任何时候均不构成对任何人的个人推荐。客户应当对本报告中的信息和意见进行独立评估,并应同时考量各自

的投资目的、财务状况和特定需求,必要时就法律、商业、财务、税收等方面咨询专家的意见。对依据或者使用本报告所造成

的一切后果,天风证券及/或其关联人员均不承担任何法律责任。

本报告所载的意见、评估及预测仅为本报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。过往的表现

亦不应作为日后表现的预示和担保。在不同时期,天风证券可能会发出与本报告所载意见、评估及预测不一致的研究报告。

天风证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报

告意见及建议不一致的市场评论和/或交易观点。天风证券没有将此意见及建议向报告所有接收者进行更新的义务。天风证券的

资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。

特别声明

在法律许可的情况下,天风证券可能会持有本报告中提及公司所发行的证券并进行交易,也可能为这些公司提供或争取提供投

资银行、财务顾问和金融产品等各种金融服务。因此,投资者应当考虑到天风证券及/或其相关人员可能存在影响本报告观点客

观性的潜在利益冲突,投资者请勿将本报告视为投资或其他决定的唯一参考依据。

投资评级声明

类别 说明 评级 体系

股票投资评级 自报告日后的 6 个月内,相对同期标普

500 指数的涨跌幅

行业投资评级 自报告日后的 6 个月内,相对同期标普

500 指数的涨跌幅

买入 预期股价相对收益 20%以上

增持 预期股价相对收益 10%-20%

持有 预期股价相对收益-10%-10%

卖出 预期股价相对收益-10%以下

强于大市 预期行业指数涨幅 5%以上

中性 预期行业指数涨幅-5%-5%

弱于大市 预期行业指数涨幅-5%以下

天风证券研究

北京 武汉 上海 深圳

北京市西城区佟麟阁路 36 号

邮编:100031

邮箱:[email protected]

湖北武汉市武昌区中南路 99

号保利广场 A 座 3 楼

邮编:430071

电话:(8627)-87618889

传真:(8627)-87618863

邮箱:[email protected]

上海市浦东新区兰花路 333

号 333 世纪大厦 20 楼

邮编:201204

电话:(8621)-68815388

传真:(8621)-68812910

邮箱:[email protected]

深圳市福田区益田路 4068 号

卓越时代广场 36 楼

邮编:518017

电话:(86755)-82566970

传真:(86755)-23913441

邮箱:[email protected]