人工智能的最新进 应用 - amazon web services - new progresses and...nlp–百度ernie...
TRANSCRIPT
人工智能的最新进展与应用
柳崎峰, 博士
鹏程实验室,智能金融国际合作项目,负责人
粤港澳大湾区人工智能应用技术研究院,特聘研究员
香港人工智能与机器人学会,常务副理事长 &秘书长
粤港澳大湾区人工智能与机器人联合会,秘书长
中国人工智能学会,理事
提纲
• 概述
• 进展
• 应用
人工智能发展历史
约翰·麦卡锡John McCarthy达特茅斯学院
马文·明斯基Marvin Minsky哈佛大学
纳撒尼尔·罗彻斯特Nathaniel RochesterIBM公司
克劳德·香农Claude Shannon贝尔电话实验室
1956年夏天约翰·麦卡锡等人在美国达特茅斯学院开会研
讨“如何用机器模拟人的智能”,会上提出 “人工智能”这一概念,标志着人工智能学科的诞生。
当前人工智能快速发展
海量数据不断快速增长
硬件处理性能快速增长
模型结构不断提高
人工智能成为各国国家战略
人工智能基本原理
• 世界由(观察,判断)组成,即(X,Y)
• X和Y之间的关系是F,即:Y=F(X),亦称为模型
• X是观察/特征,例如:👃、👀、👄
• Y是判断/分类,例如:这是一张😀
(X,Y) 机器学习 F( )
(X, ) 机器判断 (X, Y)
👃、👀、👄 😀
人工智能应用原理
问题领域 X Y
自动驾驶 周围图像,雷达,车辆参数,周围运动参数 油门,刹车,⽅向
反欺诈 用户画像,历史⾏为记录,当前⾏为 欺诈可能性
征信 用户画像,历史⾏为记录,当前⾏为 征信分数
问答系统、机器⼈客服、智能音箱
问题(Q) 答案(A)
智能制药 化学分⼦式组合 是否有效
围棋 棋局 下⼀步落⼦可能性
交易员评价 交易记录,市场⾏情 下⼀段时间sharp-ratio
交易市场预测 市场技术信号、基本面、宏观微观信息、非结构化信息
下⼀段时间振幅、涨跌、交易量
深度学习的突破性进展
NLP – Google BERT
• BERT目前已经刷新的11项自然语言处理任务的最新记录包括:将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%),将SQuAD v1.1问答测试F1得分纪录刷新为93.2分(绝对提升1.5分),超过人类表现2.0分。
• BERT-Large 模型有 24 层、2014 个隐藏单元,它们在有 33 亿词量的数据集上需要训练 40 个 Epoch,因此在 8 块 P100 上可能需要 1 年
• 论文链接:https://arxiv.org/pdf/1810.04805.pdf
https://arxiv.org/abs/1810.04805 11 Oct 2018)
NLP – 百度 ERNIE
2019-03-17
NLP - MSRA• 2019年3月29日,由微软亚洲研究院(MSRA)的自然语言处理(NLP)团队
和Microsoft Redmond的语音对话团队的研究人员在斯坦福大学的会话问答(CoQA)挑战赛中处于领先地位。
• 在CoQA挑战中,通过理解文本段落,并回答对话中出现的一系列相互关联的问题,来衡量机器的性能。微软目前是唯一一个在模型性能方面达到人类水平的团队。
• CoQA包含12.7万个问题和答案,这些内容是从8000多个对话中收集而来的。每组对话都是通过众筹方式,以真人问答的形式在聊天中获取的。
XLNet• 2019年6月,CMU 与谷歌大脑提出的全新 XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务
上取得了当前最佳效果!
• 与基于自回归语言建模的预训练处理方法相比,基于自编码的预训练处理方法(比如 BERT)具有良好的双向上下文建模能力。然而,由于依赖于使用掩码破坏输入,BERT 忽略了掩码位置之间的依赖关系,并出现了预训练-微调( pretrain-finetune) 差异。
• XLNet 则是基于 BERT 的优缺点,提出的一种泛化自回归预训练方法。它通过最大化因子分解顺序所有排列的期望似然来实现双向上下文的学习;通过自回归公式克服了 BERT 的局限性,并将来自Transformer-XL(最先进的自回归模型) 的思想集成到预训练中,在长文本表示的语言任务中表现出了优异的性能。
• 论文链接:https://arxiv.org/pdf/1906.08237.pdf
ALBERT
• BERT-base的1.1亿个参数相比,ALBERT模型只有3100万个参数,而使用相同的层数和768个隐藏单元。
• 当嵌入尺寸为128时,对精度的影响很小。精度的主要下降是由于feed-forward层的参数共享。共享注意力参数的影响是最小的。
• 论文链接:https://arxiv.org/abs/1909.11942
机器阅读
• Won No.1 of SQuAD (the top-1 intel. competition of doc. understanding• This is one of the key technologies of RPA, i.e., to let machine read doc.
and do execution.
AI对抗
From Tencent AI Lab
当前人工智能的局限性
会计算不会“算计”:人工智能可谓有智无心,更无谋
有专能无全能:AlphaGO不会下象棋
有智能没智慧:无意识和悟性,缺乏综合决策能力
有智商没情商:机器对人的情感理解与交流还处于起步阶段
香港的人工智能與機器人成就
• 香港素來擁有穩固的科技基礎以及
雄厚的科研實力,香港高等院校的
人工智能技術發展在國際上備受讚
賞。
• 根據全球最大索引摘要資料庫
Scopus的統計,本地大學有關人工
智能的論文在全球被引用的次數及
其影響力排名全球第三。
AI在金融科技中的应用
存 贷 汇
⽹上支付
⼿机银⾏
⽹上理财
智能营销
智能风控
智能运营
智能投资
智能交易
智能监管
电子银行
网上银行
智能银行
智能风控 – 身份认证
指纹识别人脸识别虹膜识别声纹识别步态识别静脉识别笔迹识别
智能开户
TYPE:永久居民EN NAME:LOK, Wing ChingCH NAME:楽永晴NAME CODE:2867 3057 2532BIRTH:03-06-1985GENDER:女FISSUE DATE:26-11-18NO:Z683365(5)
BANK:HANG SENG BANKTYPE:PLATINUMNO:6250 2620 3333 8888NAME:VIRGINIA TANGVALID FROM:01/16GOOD THRU:01/21
Key information extractedfrom the documents
HKID Recognition Face Recognition /Verification
Table/DocumentRecognition
Bank CardRecognition
Robotic Processing Assistant – RPA. Done within ~3m by few humanwork.
Recog.Results
AIModules
InputData
TakePicture byMobile orScanner
✓/✖
个性化精准推荐-1
P13NRecommendation
Engine
User Profile in High Dim
Massive Infor.
User Behavior User Behavior
Interested Infor.:Horse to followJockey to followTrainer to followBetting assistant
Smart assistant feeds you the information you mostly like!
个性化精准推荐-2
• P13N recommendation for ~100M usersevery day
• Leading-edge AI algorithm and engineering
语音交易
Betting just by voice, so easy and fast!
语音客服Personal virtual secretary can instantly help you anytime, anywhere on anything.
智能投资 - 平台
特征分析 回测平台
个性化推荐
智能投资系统
投资组合
数据处理
基金排序
风险控制 账户管理 资金管理
个性化推荐
用户管理系统
报表
用户画像
下单对接
回测平台基金下单平台
基金1 基金2 基金3 基金N
手机端可视化展示系统
自动调仓
技术提供者 销售平台
智能化
软件授权与升级收费
自动化
通道收费~.5%,目前香港手工传真下单
智能投资 – 方案
马克维茨/BL优化模型
风险控制个性化
自选资产组合基于深度学习的收益率和波动性预测
个性化基金排序个性化
用户/专家观点
资产组合优化,动态调仓
根据历史和预测,对资产未来盈利和风险给出
提示
将用户偏好和专家评级,融入到组合优化算法
对用户的自选股票or基金,和专家推荐的大类资产,一起进行组合优化,解决用户
资金分配的难点
对模型中的关键输入参数,用深度学习进行预测,优于传统的历史统计方法
将马克维茨模型和机器学习方法结合起来,在高维空间中,既考虑了基金未来收益预测,又考虑了用户风险偏好所对应的有效前
沿边界。
市场行情数据
智能交易 - 平台
用户交易行为数据
用户画像系统
智能个性化引擎IPE,Intelligent P13N
Engine
新闻资讯
智能投资
智能风控
智能策略
智能盯盘
智能排序
智能量化引擎IQE, Intelligent Quant
Engine
用户
手机前端可视化系统
增值服务
智能交易 – 方案
量化回测平台个性化股票组合(对比推荐)
个性化风险控制(对比推荐)
智能量化策略(对比推荐)
智能盯盘工具(基于回测统计)
个性化股票智能排序
智能交易 – 交易评价• Trader scoring based on behavior finance and machine
learning• Adopted by the largest broker of China – Huatai
联邦机器学习
• Yizhou Sun, Jiawei Han, Philip Yu等于2010年左右提出使用异构信息网络对大量异构数据进行建模• 点具有不同的类型和性质• 边具有不同的类型和性质
新兴社交媒体
Venue Paper AuthorDBLP Bibliographic Network
学术网络 医药医疗网络 知识图谱网络
• 大量应用:视频预测、推荐系统、链接预测、意见领袖识别、广告系统、用户画像、文本分类、文本生成、风险评估、智能顾投、知识图谱
基于横向联邦学习的银行间联合反洗钱模型A银行与B银行联合建模,AB银行都有相同的X,不同的用户ID,期望优化双方的反洗钱模型,提高可疑客户的预测效果
u设定:ü A银行和B有相同的变量
ü A银行和B的洗钱样例客户不同
u期望结果:ü 保护隐私条件下,建立联合模型
ü 联合模型效果超过单边数据建模
u模拟实验效果:ü 联合模型识别性能较单边模型提升90%
ID身份证号码
X近1个月转账⾦额
(万)
Y是否可疑
U1 70 否
U2 0 否
U3 200 是
U4 10 否
U5 5 否
U6 60 否
U7 200 否
ID身份号码
X近1个月转账⾦额(万)
Y是否可疑
U8 600 是
U9 550 否
U10 20 否
U11 0 否
U12 3 否
U13 50 否
U14 60 否
B银行A银行
19
基于纵向联邦学习的企业风控模型xx与合作企业(发票数据)联合建模,xx有Y(是否逾期),期望优化本方的Y预测模型
u设定:ü 只有xx拥有 Y
ü 合作企业无法暴露底层X
u期望结果:ü 保护隐私条件下,建立联合模型
ü 联合模型效果超过单边数据建模
u实验案例:ü 企业风控模型性能提升7%
ID纳税⼈识别号
X1近3个月开票⾦额
X2近6个月开票⾦额
U1 90 150
U2 40 100
U3 20 80
U4 100 200
U9 50 50
U10 6 10
U11 2 5
ID纳税⼈识别号
X3央⾏征信分
Y是否逾期
U1 600 是
U2 550 否
U3 520 是
U4 600 是
U5 600 是
U6 520 是
U7 600 否
xx银行合作企业
基于纵向联邦学习的知识产权交易平台
深交所
知识产权交易推荐系统
N家卖方知识产权拥有方
M家买方上市公司
PMSPMS
PMS
中科院计算所
PMSPMSPMS
科大讯飞
持有专利数据库 公司及行业数据库 浏览/下载/购买等行为偏好数据库
买方画像
原始提案库 代售专利数据库 关联相似专利库
卖方画像
创新知识产权交易服务模式
向卖方精准推荐买方向买方精准推荐卖方
目标:最大化撮合率
上市公司数据库 公开售卖专利库
专利交易数据库
标准 IEEE Standard P3652.1 – Federated Machine Learning
IEEE Standard Association is a open platform and we are welcoming more organizations to join the working group.
Guide for Architectural Framework and Application of Federated Machine Learning
l Description and definition of federated learningl The types of federated learning and the application
scenarios to which each type appliesl Performance evaluation of federated learning l Associated regulatory requirements
Title
Scope
Call for participation
• More info: https://sagroups.ieee.org/3652-1/
35
谢谢,请提宝贵意见!
• Email: [email protected]