云存储与虚拟化分论坛基于云计算的海量数据挖掘

基于云计算的海量数据挖掘基于云计算的海量数据挖掘

清何清

中科学院计算技术究所中国科学院计算技术研究所

http://js caseducation cn/JS/~heqinghttp://js.caseducation.cn/JS/ heqing

Email: [email protected]

1中国科学院计算技术研究所2010-5-24

内容提要内容提要

算起• 云计算的兴起

数据挖掘发展历程• 数据挖掘发展历程

• 云数据挖掘实践• 云数据挖掘实践

• 云数据挖掘未来走向云数据挖掘未来走向


云计算的定义云计算的定义

Wiki di Cl d i i I b d• Wikipedia: Cloud computing is Internet‐basedcomputing, whereby shared resources, softwareand information are provided to computers andand information are provided to computers andother devices on‐demand, like the electricity grid.

It describes a new supplement, consumption and delivery model for IT services based on the Internet, and it typically involves the provision of dynamically scalable and often virtualized resources as a servicescalable and often virtualized resources as a service over the Internet


云计算的定义云计算的定义

云计算是种基于互联网的大众参与的计算模式• 云计算是一种基于互联网的、大众参与的计算模式，其计算资源（计算能力、存储能力、交互能力）是动态、可伸缩、且被虚拟化的，以服务的方式提供动态、可伸缩、且被虚拟化的，以服务的方式提供

• 云计算是并行计算(Parallel Computing)、分布式计算(Di ib d C i )和网格计算(G id C i )(Distributed Computing)和网格计算(Grid Computing)的发展，或者说是这些计算机科学概念的商业实现

• 云计算是虚拟化 (Virtualization)、效用计算 (UtilityComputing)、IaaS(基础设施即服务)、PaaS(平台即服务) S S(软件即服务)等概念混合演进并跃升的结务)、SaaS(软件即服务)等概念混合演进并跃升的结果


云计算的兴起云计算的兴起云计算风起云涌云计算风起云涌


云计算的大事件候选云计算的大事件候选


2008年底中科院计算所开2008年底中科院计算所开发出基于云计算的并行数据挖掘平台PDMiner


机遇机遇

大大降低中小企业购昂贵设备的成本• 大大降低了中小企业购买昂贵IT设备的成本，且可以享受大企业级的技术

• 为服务器、PC、EU的销售带了机遇

提供种新的并行计算技术服务云服务• 提供一种新的并行计算技术服务—云服务

– 无需购买硬件

– 无需开发软件

在网络上就可以得到并行计算服务并能在线实– 在网络上就可以得到并行计算服务并能在线实时监控

2010-5-24中国科学院计算技术研究所 8

云计算的应用云计算的应用

马逊网络服务• 亚马逊网络服务(Amazon WebServices, AWS)

• Google应用软件引擎(Google AppEngine, GAE), ( g pp g )Google地球、地图、Gmail、Docs等

• Salesforce的网络应用软件平台Force.com, 这一平Salesforce的网络应用软件平台Force.com, 这平台可作为其他企业自身软件服务的基础

• IBM在2007年11月推出了“改变游戏规则”的“• IBM在2007年11月推出了改变游戏规则的

蓝云”计算平台，为客户带来即买即用的云计算平台平台

• 微软在2008年10月推出了Windows Azure操作系统


数据挖掘软件的发展数据挖掘软件的发展

代特征数据挖掘算法集成分布计算模型数据模型

第一代作为一个独立的应用

支持一个或者多个算法

独立的系统单个机器向量数据的应用算法

第二代和数据库以及数据仓库集成

多个算法：能够挖掘一次不能放进内存的数据

数据管理系统，包括数据库和数据仓库

同质、局部区域的计算机群集

有些系统支持对象，文本和连续的媒体数据

第三代和预测模型系统集成

多个算法数据管理和预测模型系统

Intranet/extranet网络计算

支持半结构化数据和web数据据

第四代分布式数据挖掘

多个算法分布在多个节点

算法、调度系统

网格计算普遍存在的数据模型

第五代基于云计算的并行数据挖掘与服务

同一个算法分布在多个节点；多个算法之间也可以并行

计算资源按需分配

云计算 BigTableDFS

11

Map/reduce on multi coreMap/reduce on multi‐core

• Map‐Reduce for Machine Learning on Multicore(NIPS 2006)– Locally Weighted Linear Regression (LWLR),

Naive Bayes (NB)– Naive Bayes (NB), – Gaussian Discriminative Analysis (GDA),– k-means, Logistic Regression (LR), , g g ( ),– Neural Network (NN), – Principal Components Analysis (PCA), – Independent Component Analysis (ICA), – Expectation Maximization (EM),

Support Vector Machine (SVM)– Support Vector Machine (SVM)

目前基于hadoop的数据挖掘工作目前基于hadoop的数据挖掘工作

// / /• Mahout( https://cwiki.apache.org/MAHOUT/algorithms.html)– Classification: Logistic Regression, Bayesian, SVM, Neural Network,

Random ForestsRandom Forests, ……

– Clustering: k‐Means, Fuzzy K‐Means, Expectation Maximization (EM), Hierarchical Clustering, ……

– Pattern Mining: Frequent Itemset mining, ……

– Dimension reduction: SVD, PCA, ICA, GDA

海量数据挖掘需求

海量数据挖掘

海量数据挖掘需求

• 海量数据挖掘

– 从数据中获取有效的、可理解的知识

– 大规模数据挖掘是数据挖掘追求的目标

互联网网页数量随时间成倍增长数千亿乃至– 互联网网页数量随时间成倍增长，数千亿乃至上万亿的网页索引

数据挖掘任务远比搜索任务复杂– 数据挖掘任务远比搜索任务复杂


为什么基于云计算平台？

低成本分布式并行计算环境

为什么基于云计算平台？

• 低成本分布式并行计算环境

– 适应规模不同的组织，为中小企业数据处理带来了新型低成本计算环境

– 大企业“云计算”平台对于某些特定数据计算将不再完全依赖大型高性能机

• 开发方便：屏蔽掉了底层开发方便屏蔽掉了底层

– 数据的划分无需用户考虑

– 数据分配加载到节点无需考虑– 数据分配加载到节点无需考虑

– 计算任务调度无需考虑


为什么基于云计算平台？为什么基于云计算平台？

数据处规模大幅度提高• 数据处理规模大幅度提高

– 由于并行化在利用原有设备的条件下就可以有大幅度提高

• 扩展性好扩展性好

– 可以很方便地增加节点

• 容错计算健壮性强• 容错计算健壮性强

– 可自动处理失败节点，具有高容错能力

– 个别节点down掉，仍能完成计算任务


问题与挑战问题与挑战

需求• 需求

– 个性化个性化

– 多样化

数据• 数据

– 海量数据：数据量TB级乃至PB级

– 高维数据：采集数据项很多

– 噪声数据：网络来源、侦测不准、采集失当噪声数据：网络来源、侦测不准、采集失当

– 动态数据：股票数据、业务数据



算法• 算法

– 算法选择算法选择

– 并行策略

算法设计– 算法设计

– 参数调节

– 性能提高



不确定性• 不确定性

– 数据挖掘任务描述的不确定性数据挖掘任务描述的不确定性

– 数据采集和预处理的不确定性

– 数据挖掘方法和结果的不确定性

– 数据挖掘结果评价的不确定性数据挖掘结果评价的不确定性



信• 可信

– 服务的正确性：正确性是指没有不当的系统状服务的正确性：正确性是指没有不当的系统状态

– 服务的安全性：没有灾难性的环境后果服务的安全性：没有灾难性的环境后果

– 服务的质量：

可用性准备好提供正确服务的概率可用性：准备好提供正确服务的概率

可靠性：在给定的一段时间内提供正确服务的概率

高性能响应时间和吞吐量高性能：响应时间和吞吐量

– 隐私安全：不允许未授权的访问



安全• 安全

– 数据安全数据安全

• 隐私数据保护

– 过程安全– 过程安全

模型与需求一致

算法可检验算法可检验

过程对用户可控、可视

结果仅对用户可理解结果仅对用户可理解

– 公共安全

云计算安全的本质是信任管理云计算安全的本质是信任管理2010-5-24中国科学院计算技术研究所 21

对策对策

基础建设数据挖掘服务平台• 基础建设：数据挖掘云服务平台

– 专业人士成为服务的提供者

– 大众和各种组织成为服务的受益方

– 按领域、行业构建按领域、行业构建

• 虚拟化：计算资源自主分配调度

需求大众参与应对个性化多样化的需求• 需求：大众参与应对个性化多样化的需求

• 可信：算法通用、可查、可调、可视

• 安全：隐私数据由客户自己在平台终端完成加密保护密保护


已完成的工作 PDMiner已完成的工作― PDMiner

在计算平台基础上在云计算平台Hadoop基础上，2008年底我们为中国移动开发了基于云年底我们为中国移动开发了基于云计算的并行数据挖掘系统



具有以下特点• PDMiner具有以下特点：– 提供一系列并行挖掘算法和ETL操作组件

– 开发的并行ETL操作达到了线性加速比

– 可实现TB级海量数据的预处理及之后的并行挖可实现级海量数据的预处及之后的并行挖掘分析处理

– 挖掘算法随节点数线性增加，加速比随之增加挖掘算法随节点数线性增加加速随增加

– 可稳定运行在256个节点组成的Linux集群环境下，具有高可扩展性下具有高可扩展性



多个工作流任务可在云计算环境下的任意节点– 多个工作流任务可在云计算环境下的任意节点同时启动，互不干扰

可自动处理失败节点具有高容错能力– 可自动处理失败节点，具有高容错能力

– 开放式架构，算法组件可通过简单配置方便地封装加载到平台中封装加载到平台中

– Java开发，提供系统日志进行管理，具有较好的可移植性的可移植性



实验结果结果

(ETL)



实验结果

(PKMeans)(PKMeans)


与商用软件比较与商用软件比较

• 达到了商用软件的精度，数据处理规模远远超出商用软件

– 在商用软件能承受的相同数据规模下、采用相同方法和相同参数设置、并且商用软件有结果的条件下，新开发的基于云计算平台的并行数据挖掘系统获得新开发的基于云计算平台的并行数据挖掘系统获得了一致的挖掘结果

上述比较是在同样成本购买的小型机和云计• 上述比较是在同样成本购买的小型机和云计算平台所需硬件设备基础上作的比较，未考虑占地能耗管维护费用虑占地、能耗、管理、维护费用



的意义• PDMiner的意义

– 开发出中国第一个基于云计算平台的并行数据挖掘系统用中国移动级实数据的挖掘挖掘系统用于中国移动TB级实际数据的挖掘

– 特别谈一下数据挖掘。我们开发了一些基于的算法其中有些是经典的数据挖掘Hadoop的算法，其中有一些是经典的数据挖掘

算法，目前我们已经成功将它们使用在实际生产运行中试图挖掘各种用户使用行为和用户产运行中，试图挖掘各种用户使用行为和用户关系。与传统系统相比，这个系统使用了1/6的成本却实现了6倍的性能成本却实现了6倍的性能

——黄晓庆于中国2009云计算大会

htt //l b hi bil / bl /47 40345– http://labs.chinamobile.com/mblog/47_4034531中国科学院计算技术研究所2010-5-24

云数据挖掘的实践云数据挖掘的实践

近期进展― 面向Web基于云计算数据挖掘服务系统WPDMiner据挖掘服务系统WPDMiner


面向Web的WPDMiner面向Web的WPDMiner

开发了面向W b的基于云计算的并行数据• 开发了面向Web的基于云计算的并行数据挖掘服务系统WPDMiner

硬件资源管理子系统

•分配和管理用分配和管理用户申请和使用的硬件资源

前台Web界面

三个子系统

后台并行挖掘

界面

•与用户交互

子系统

•提供并行数据挖掘服务


面向Web的WPDMiner (续)面向Web的WPDMiner (续)

• 硬件资源管理子系统和后台并行挖掘子系统紧密结合• 对用户透明，抽象成提供数据挖掘服务的“云”• 用户通过前台的Web交互界面定制数据挖掘任务


面向Web的WPDMiner (续)面向Web的WPDMiner (续)


面向Web的WPDMiner (续)面向的 (续)数据管理

2010-5-24 中国科学院计算技术研究所 36

面向Web的WPDMiner (续)管

面向的 (续)数据管理


面向Web的WPDMiner (续)面向的 (续)任务管理


面向Web的WPDMiner (续)面向的 (续)配置工作流任务


面向Web的WPDMiner (续)面向的 (续)执行任务


面向Web的WPDMiner (续)面向的 (续)

查看任务结果和日志查看任务结果和日志


未来走向未来走向

数据挖掘务将兴起• 数据挖掘云服务将兴起

– 专业人士成为服务的提供者专人成为服务的提供者

– 大众和各种企业、组织机构成为服务的受益方

数据挖掘研究受计算环境影响降低– 数据挖掘研究受计算环境影响降低

– 数据挖掘应用范围将大大拓宽


未来走向未来走向

物联网中的基计算的数据挖掘• 物联网中的基于云计算的数据挖掘

– 云计算是物联网中普适的计算模式云计算是物联网中普适的计算模式

– 云计算是物联网的基石

数据挖掘在物联网中是不可缺少的– 数据挖掘在物联网中是不可缺少的

• 高可信的基于云计算的数据挖掘软件与服务


参考资料参考资料

• J Dean and S Ghemawat: Mapreduce: Simplified DataJ. Dean and S. Ghemawat: Mapreduce: Simplified Data Processing on Large Clusters, OSDI’04

• C. T. Chu, S. K. Kim, Y.A. Lin, Y. Y. Yu, G. Bradski, A. Y. Ng: Map‐, , , , , g pReduce for Machine Learning on Multicore, NIPS’06

• C. Ranger, R. Raghuraman, A. penmetsa, G. Bradski, C. Kozyrakis: Evaluating MapReduce for Multi‐core and Multiprocessor System, HPCA’07

• E. Y. Chang, K.Z. Zhu, H. Wang, H. Bai: Psvm: Parallelizing support vector machines on distributed computers, NIPS’07

d d• H. C. Yang, A. Dasdan, R. L. Hsiao, D. S. P: Map‐reduce‐merge: simplified relational data processing on large clusters, Sigmod07Sigmod07


参考资料参考资料• T. Elsayed, J. Lin, D. W. Oard: Pairwise Document Similarity in y , , y

Large Collections with MapReduce, ACL’08

• W.Z. Zhao, H. F. Ma, Q, He: Parallel K‐Means Clustering Based on MapReduce, CloudCom’09

• C. Liu, H. C. Yang, J. L. Fan, L. W. He, Y. M. Wang: Distributed Nonnegative Matrix Factorization for Web‐Scale Dyadic Data Analysis on MapReduce, WWW’10

h //l b l / / d h l• http://labs.google.com/papers/mapreduce.html

• http://lucene.apache.org/hadoop

h // k d / k / l d• http://en.wikipedia.org/wiki/Cloud_computing


参考资料参考资料• http://csrc.nist.gov/groups/SNS/cloud‐computing/index.htmlp // g /g p / / p g/

• http://rgrossman.com/about‐cloud‐computing/

• http://www.ibm.com/developerworks/cn/java/j‐mahout/p // / p / /j /j /

• http://www.infoq.com/news/2010/04/mahout‐03


谢谢！欢迎大家提问！谢谢！欢迎大家提问！

http://www.intsci.ac.cn/pdm/pdminer.htmlEmail: [email protected] : eq g@ ct.ac.c

Tel:13910062653 2010.5.220 0.5.


云存储与虚拟化分论坛 基于云计算的海量数据挖掘

Technology

云存储与虚拟化分论坛基于云计算的海量数据挖掘