机器学习及其挑战

23
机机机机机机机机 周周周 http://cs.nju.edu.cn/people/zhouzh/ 周周周周周周周周周周周周周周周周 2003 周 12 周 27

Upload: oleg-beck

Post on 02-Jan-2016

51 views

Category:

Documents


9 download

DESCRIPTION

机器学习及其挑战. 周志华 http://cs.nju.edu.cn/people/zhouzh/ 南京大学软件新技术国家重点实验室. 2003 年 12 月 27 日. 汇报内容. 机器学习及其重要性 机器学习角色的转变 五个挑战问题. 机器学习. 经典定义:利用经验改善系统自身的性能 [ T.Mitchell, Book 97] 随着该领域的发展,主要做 智能数据分析 典型任务:预测 例如:天气预报. 机器学习 (续). 数据挖掘. 数据分析技术. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 机器学习及其挑战

机器学习及其挑战

周志华http://cs.nju.edu.cn/people/zhouzh/

南京大学软件新技术国家重点实验室 2003 年 12 月 27 日

Page 2: 机器学习及其挑战

机器学习及其重要性

机器学习角色的转变

五个挑战问题

汇报内容

Page 3: 机器学习及其挑战

机器学习

经典定义:利用经验改善系统自身的性能 [T.Mitchell, Book 97]

随着该领域的发展,主要做智能数据分析

典型任务:预测例如:天气预报

Page 4: 机器学习及其挑战

机器学习(续)

数据挖掘

数据库机器学习

数据分析技术 数据管理技术

Page 5: 机器学习及其挑战

美国航空航天局 JPL 实验室的科学家在《 Science 》( 2001 年 9 月)上撰文指出:机器学习对科学研究的整个过程正起到越来越大的支持作用,……,该领域在今后的若干年内将取得稳定而快速的发展

重要性

生物信息学

计算金融学

分子生物学

行星地质学

……

工业过程控制

机器人…… 遥感信息处理

信息安全

机 器 学 习

Page 6: 机器学习及其挑战

重要性:例子—网络安全

入侵检测:是否是入侵?是何种入侵?

如何检测?•历史数据:以往的正常访问模式及其表现、以往的入侵模式及其表现……•对当前访问模式分类

这是一个典型的预测型机器学习问题常用技术:神经网络 决策树支持向量机 k 近邻序列分析 聚类…… ……

Page 7: 机器学习及其挑战

重要性:例子—生物信息学

常用技术:神经网络 支持向量机隐马尔可夫模型k 近邻 决策树序列分析 聚类…… ……

Page 8: 机器学习及其挑战

重要性(续)

计算机科学在过去十年中发展极为迅速,今后会快速稳定地发展、对科学做出更大贡献的领域

[E.Mjolsness & D. DesCoste, Science 01]

人工智能中最活跃、应用潜力最明显的领域(之一)

[T.G. Dietterich, AIMag 97]

美国、欧洲各国都投入了大量人力物力

大型公司如波音、微软、通用电器等都有研究课题已有一些研究成果进入产品

Page 9: 机器学习及其挑战

机器学习角色的转变如果我们想做出重要的贡献,首先需要把握住该领

域发展的脉搏

机器学习现在似乎已经发展到一个新阶段机器学习起源于人工智能对人类学习能力的追求,上一阶段的研究几乎完全局限在人工智能这一领域中(学习本身是目的)

而现在,机器学习已经开始进入了计算机科学的不同领域,甚至其他学科,成为一种支持技术、服务技术(学习本身是手段)

Page 10: 机器学习及其挑战

机器学习角色的转变(续)

现阶段对机器学习的研究可能不应再过多地强调模拟人的学习能力

可能应该把机器学习真正当成一种支持技术(手段而非目的),考虑不同领域甚至不同学科对机器学习的需求,找出其中具有共性的、必须解决的问题,并进而着手研究 我们暂且把这种视角下的机器学习称为: “普适机器学习”( Pervasive ML )

Page 11: 机器学习及其挑战

挑战问题 (1) :泛化能力

共性问题:几乎所有的领域,都希望越准越好

提高泛化能力是永远的追求

目前泛化能力最强的技术:支持向量机( SVM )产生途径:理论 ->实践集成学习( ensemble learning) 产生途径:实践 ->理论

Page 12: 机器学习及其挑战

挑战问题 (1) :泛化能力(续)

第一个挑战问题:今后 10 年

能否更“准”?如果能,会从哪儿来?

Page 13: 机器学习及其挑战

挑战问题 (2) :速度

共性问题:几乎所有的领域,都希望越快越好

加快速度也是永远的追求“训练速度” vs. “测试速度

训练速度快的往往测试速度慢: k 近邻 测试速度快的往往训练速度慢:神经网络

Page 14: 机器学习及其挑战

挑战问题 (2) :速度(续)

第二个挑战问题:今后 10 年

能否更“快”?能做到“训练快”、“测试也快”吗?

如果能,如何做?

Page 15: 机器学习及其挑战

挑战问题 (3) :可理解性

共性问题:绝大多数领域都希望有“可理解性” 例子:医疗诊断

地震预测

目前强大的技术几乎都是(或基本上是)“黑盒子” 神经网络、支持向量机、集成学习

“黑盒子”能满足需要吗?

Page 16: 机器学习及其挑战

挑战问题 (3) :可理解性(续)

第三个挑战问题:今后 10 年

能否产生“白盒子”?是和“黑盒子”完全不同的东西,还是从“黑盒子”变出来?

Page 17: 机器学习及其挑战

挑战问题 (4) :数据利用能力

传统的机器学习技术 — > 对有标记数据进行学习“标记” ——> 事件所对应的结果

共性问题: 随着数据收集能力飞速提高、 Interne

t 的出现,在大多数领域中都可以很容易地获得大量未标记数据

例子:医学图象分析 垃圾邮件过滤

没有标记的数据是没用的吗?

Page 18: 机器学习及其挑战

挑战问题 (4) :数据利用能力(续)

共性问题: 在绝大多数领域中都会遇到“坏”数据,有时甚至只有“坏”数据

例子:海军舰队 Web

“坏”数据 ——> 大量噪音、属性缺失、不一致、……

传统的“坏”数据处理方式 — > “扔掉”

“坏”数据一点用也没有吗?

Page 19: 机器学习及其挑战

第四个挑战问题:今后 10 年

能否“数据通吃”?如何“吃”?

挑战问题 (4) :数据利用能力(续)

Page 20: 机器学习及其挑战

挑战问题 (5) :代价敏感

目前的机器学习技术 — > 降低错误率

“错误”是没有区别的吗?把“好”当成“坏”

把“坏”当成“好”

共性问题:大多数领域中的错误代价都不一样 例子:入侵检测

癌症诊断

一样吗?

Page 21: 机器学习及其挑战

第五个挑战问题:今后 10 年

能否“趋利避害”?在达到较低的总错误率的基础上, 如何“趋”、如何“避”?

挑战问题 (5) :代价敏感(续)

Page 22: 机器学习及其挑战

挑战问题:……

More ……

在任何一个挑战问题上取得突破性进展,都可能成为对机器学习的重要贡献

Page 23: 机器学习及其挑战

谢谢!恭请各位专家 批评指正!