人工智能的最新进应用 - amazon web services - new progresses and...nlp–百度ernie...

人工智能的最新进展与应用

柳崎峰, 博士

鹏程实验室，智能金融国际合作项目，负责人

粤港澳大湾区人工智能应用技术研究院，特聘研究员

香港人工智能与机器人学会，常务副理事长 &秘书长

粤港澳大湾区人工智能与机器人联合会，秘书长

中国人工智能学会，理事

提纲

• 概述

• 进展

• 应用

人工智能发展历史

约翰·麦卡锡John McCarthy达特茅斯学院

马文·明斯基Marvin Minsky哈佛大学

纳撒尼尔·罗彻斯特Nathaniel RochesterIBM公司

克劳德·香农Claude Shannon贝尔电话实验室

1956年夏天约翰·麦卡锡等人在美国达特茅斯学院开会研

讨“如何用机器模拟人的智能”，会上提出 “人工智能”这一概念，标志着人工智能学科的诞生。

当前人工智能快速发展

海量数据不断快速增长

硬件处理性能快速增长

模型结构不断提高

人工智能成为各国国家战略

人工智能基本原理

• 世界由（观察，判断）组成，即(X,Y)

• X和Y之间的关系是F，即：Y=F(X)，亦称为模型

• X是观察/特征，例如：👃、👀、👄

• Y是判断/分类，例如：这是一张😀

(X,Y) 机器学习 F( )

(X, ) 机器判断 (X, Y)

👃、👀、👄 😀

人工智能应用原理

问题领域 X Y

自动驾驶周围图像，雷达，车辆参数，周围运动参数油门，刹车，⽅向

反欺诈用户画像，历史⾏为记录，当前⾏为欺诈可能性

征信用户画像，历史⾏为记录，当前⾏为征信分数

问答系统、机器⼈客服、智能音箱

问题（Q）答案（A）

智能制药化学分⼦式组合是否有效

围棋棋局下⼀步落⼦可能性

交易员评价交易记录，市场⾏情下⼀段时间sharp-ratio

交易市场预测市场技术信号、基本面、宏观微观信息、非结构化信息

下⼀段时间振幅、涨跌、交易量

深度学习的突破性进展

NLP – Google BERT

• BERT目前已经刷新的11项自然语言处理任务的最新记录包括：将GLUE基准推至80.4％（绝对改进7.6％），MultiNLI准确度达到86.7% （绝对改进率5.6％），将SQuAD v1.1问答测试F1得分纪录刷新为93.2分（绝对提升1.5分），超过人类表现2.0分。

• BERT-Large 模型有 24 层、2014 个隐藏单元，它们在有 33 亿词量的数据集上需要训练 40 个 Epoch，因此在 8 块 P100 上可能需要 1 年

• 论文链接：https://arxiv.org/pdf/1810.04805.pdf

https://arxiv.org/abs/1810.04805 11 Oct 2018)

NLP – 百度 ERNIE

2019-03-17

NLP - MSRA• 2019年3月29日，由微软亚洲研究院（MSRA）的自然语言处理（NLP）团队

和Microsoft Redmond的语音对话团队的研究人员在斯坦福大学的会话问答（CoQA）挑战赛中处于领先地位。

• 在CoQA挑战中，通过理解文本段落，并回答对话中出现的一系列相互关联的问题，来衡量机器的性能。微软目前是唯一一个在模型性能方面达到人类水平的团队。

• CoQA包含12.7万个问题和答案，这些内容是从8000多个对话中收集而来的。每组对话都是通过众筹方式，以真人问答的形式在聊天中获取的。

XLNet• 2019年6月，CMU 与谷歌大脑提出的全新 XLNet 在 20 个任务上超过了 BERT 的表现，并在 18 个任务

上取得了当前最佳效果！

• 与基于自回归语言建模的预训练处理方法相比，基于自编码的预训练处理方法（比如 BERT）具有良好的双向上下文建模能力。然而，由于依赖于使用掩码破坏输入，BERT 忽略了掩码位置之间的依赖关系，并出现了预训练-微调（ pretrain-finetune）差异。

• XLNet 则是基于 BERT 的优缺点，提出的一种泛化自回归预训练方法。它通过最大化因子分解顺序所有排列的期望似然来实现双向上下文的学习；通过自回归公式克服了 BERT 的局限性，并将来自Transformer-XL(最先进的自回归模型) 的思想集成到预训练中，在长文本表示的语言任务中表现出了优异的性能。

• 论文链接：https://arxiv.org/pdf/1906.08237.pdf

ALBERT

• BERT-base的1.1亿个参数相比，ALBERT模型只有3100万个参数，而使用相同的层数和768个隐藏单元。

• 当嵌入尺寸为128时，对精度的影响很小。精度的主要下降是由于feed-forward层的参数共享。共享注意力参数的影响是最小的。

• 论文链接：https://arxiv.org/abs/1909.11942

机器阅读

• Won No.1 of SQuAD (the top-1 intel. competition of doc. understanding• This is one of the key technologies of RPA, i.e., to let machine read doc.

and do execution.

AI对抗

From Tencent AI Lab

当前人工智能的局限性

会计算不会“算计”：人工智能可谓有智无心，更无谋

有专能无全能：AlphaGO不会下象棋

有智能没智慧：无意识和悟性，缺乏综合决策能力

有智商没情商：机器对人的情感理解与交流还处于起步阶段

香港的人工智能與機器人成就

• 香港素來擁有穩固的科技基礎以及

雄厚的科研實力，香港高等院校的

人工智能技術發展在國際上備受讚

賞。

• 根據全球最大索引摘要資料庫

Scopus的統計，本地大學有關人工

智能的論文在全球被引用的次數及

其影響力排名全球第三。

AI在金融科技中的应用

存贷汇

⽹上支付

⼿机银⾏

⽹上理财

智能营销

智能风控

智能运营

智能投资

智能交易

智能监管

电子银行

网上银行

智能银行

智能风控 – 身份认证

指纹识别人脸识别虹膜识别声纹识别步态识别静脉识别笔迹识别

智能开户

TYPE：永久居民EN NAME：LOK, Wing ChingCH NAME：楽永晴NAME CODE：2867 3057 2532BIRTH：03-06-1985GENDER：女FISSUE DATE：26-11-18NO：Z683365(5)

BANK：HANG SENG BANKTYPE：PLATINUMNO：6250 2620 3333 8888NAME：VIRGINIA TANGVALID FROM：01/16GOOD THRU：01/21

Key information extractedfrom the documents

HKID Recognition Face Recognition /Verification

Table/DocumentRecognition

Bank CardRecognition

Robotic Processing Assistant – RPA. Done within ~3m by few humanwork.

Recog.Results

AIModules

InputData

TakePicture byMobile orScanner

✓/✖

个性化精准推荐-1

P13NRecommendation

Engine

User Profile in High Dim

Massive Infor.

User Behavior User Behavior

Interested Infor.:Horse to followJockey to followTrainer to followBetting assistant

Smart assistant feeds you the information you mostly like!

个性化精准推荐-2

• P13N recommendation for ~100M usersevery day

• Leading-edge AI algorithm and engineering

语音交易

Betting just by voice, so easy and fast!

语音客服Personal virtual secretary can instantly help you anytime, anywhere on anything.

智能投资 - 平台

特征分析回测平台

个性化推荐

智能投资系统

投资组合

数据处理

基金排序

风险控制账户管理资金管理

个性化推荐

用户管理系统

报表

用户画像

下单对接

回测平台基金下单平台

基金1 基金2 基金3 基金N

手机端可视化展示系统

自动调仓

技术提供者销售平台

智能化

软件授权与升级收费

自动化

通道收费~.5%，目前香港手工传真下单

智能投资 – 方案

马克维茨/BL优化模型

风险控制个性化

自选资产组合基于深度学习的收益率和波动性预测

个性化基金排序个性化

用户/专家观点

资产组合优化，动态调仓

根据历史和预测，对资产未来盈利和风险给出

提示

将用户偏好和专家评级，融入到组合优化算法

对用户的自选股票or基金，和专家推荐的大类资产，一起进行组合优化，解决用户

资金分配的难点

对模型中的关键输入参数，用深度学习进行预测，优于传统的历史统计方法

将马克维茨模型和机器学习方法结合起来，在高维空间中，既考虑了基金未来收益预测，又考虑了用户风险偏好所对应的有效前

沿边界。

市场行情数据

智能交易 - 平台

用户交易行为数据

用户画像系统

智能个性化引擎IPE，Intelligent P13N

Engine

新闻资讯

智能投资

智能风控

智能策略

智能盯盘

智能排序

智能量化引擎IQE, Intelligent Quant

Engine

用户

手机前端可视化系统

增值服务

智能交易 – 方案

量化回测平台个性化股票组合（对比推荐）

个性化风险控制（对比推荐）

智能量化策略（对比推荐）

智能盯盘工具（基于回测统计）

个性化股票智能排序

智能交易 – 交易评价• Trader scoring based on behavior finance and machine

learning• Adopted by the largest broker of China – Huatai

联邦机器学习

• Yizhou Sun, Jiawei Han, Philip Yu等于2010年左右提出使用异构信息网络对大量异构数据进行建模• 点具有不同的类型和性质• 边具有不同的类型和性质

新兴社交媒体

Venue Paper AuthorDBLP Bibliographic Network

学术网络医药医疗网络知识图谱网络

• 大量应用：视频预测、推荐系统、链接预测、意见领袖识别、广告系统、用户画像、文本分类、文本生成、风险评估、智能顾投、知识图谱

基于横向联邦学习的银行间联合反洗钱模型A银行与B银行联合建模，AB银行都有相同的X，不同的用户ID，期望优化双方的反洗钱模型，提高可疑客户的预测效果

u设定：ü A银行和B有相同的变量

ü A银行和B的洗钱样例客户不同

u期望结果：ü 保护隐私条件下，建立联合模型

ü 联合模型效果超过单边数据建模

u模拟实验效果：ü 联合模型识别性能较单边模型提升90%

ID身份证号码

X近1个月转账⾦额

（万）

Y是否可疑

U1 70 否

U2 0 否

U3 200 是

U4 10 否

U5 5 否

U6 60 否

U7 200 否

ID身份号码

X近1个月转账⾦额（万）

Y是否可疑

U8 600 是

U9 550 否

U10 20 否

U11 0 否

U12 3 否

U13 50 否

U14 60 否

B银行A银行

19

基于纵向联邦学习的企业风控模型xx与合作企业（发票数据）联合建模，xx有Y（是否逾期），期望优化本方的Y预测模型

u设定：ü 只有xx拥有 Y

ü 合作企业无法暴露底层X

u期望结果：ü 保护隐私条件下，建立联合模型

ü 联合模型效果超过单边数据建模

u实验案例：ü 企业风控模型性能提升7%

ID纳税⼈识别号

X1近3个月开票⾦额

X2近6个月开票⾦额

U1 90 150

U2 40 100

U3 20 80

U4 100 200

U9 50 50

U10 6 10

U11 2 5

ID纳税⼈识别号

X3央⾏征信分

Y是否逾期

U1 600 是

U2 550 否

U3 520 是

U4 600 是

U5 600 是

U6 520 是

U7 600 否

xx银行合作企业

基于纵向联邦学习的知识产权交易平台

深交所

知识产权交易推荐系统

N家卖方知识产权拥有方

M家买方上市公司

PMSPMS

PMS

中科院计算所

PMSPMSPMS

科大讯飞

持有专利数据库公司及行业数据库浏览/下载/购买等行为偏好数据库

买方画像

原始提案库代售专利数据库关联相似专利库

卖方画像

创新知识产权交易服务模式

向卖方精准推荐买方向买方精准推荐卖方

目标：最大化撮合率

上市公司数据库公开售卖专利库

专利交易数据库

标准 IEEE Standard P3652.1 – Federated Machine Learning

IEEE Standard Association is a open platform and we are welcoming more organizations to join the working group.

Guide for Architectural Framework and Application of Federated Machine Learning

l Description and definition of federated learningl The types of federated learning and the application

scenarios to which each type appliesl Performance evaluation of federated learning l Associated regulatory requirements

Title

Scope

Call for participation

• More info: https://sagroups.ieee.org/3652-1/

35

谢谢，请提宝贵意见！

• Email: [email protected]

人工智能的最新进 应用 - amazon web services - new progresses and...nlp–百度ernie...

Documents

人工智能的最新进应用 - amazon web services - new progresses and...nlp–百度ernie...