大数据分析基础与实践 - cs.livedu.com.cn · crm、erp、hr 多媒体:视频、...

88
大数据分析基础与实践 计卫星 2018年8月

Upload: others

Post on 24-Aug-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析基础与实践

计卫星

2018年8月

Page 2: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

内容提要

• 大数据分析:What & Why• 大数据分析:When & Where• 大数据分析:Who• 大数据分析:How - Algorithm• 大数据分析:How - Platform• 大数据分析:How - Hadoop Ecosystem• 大数据分析:How - Visualization• 大数据分析:How - Example

Page 3: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:What & Why

Page 4: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

• 什么是大数据分析?

– 许多重大发现和决策都是通过大数据集分析发现的

• 天文、地质、生命科学……

“大数据分析”是指数据本身的规模、多样性和复杂性需要新的体系架构、技术、算法和分析方法来处理它,以期望能够从中抽取出隐藏的有价值的信息。

Page 5: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

• 大数据的特点:1-数据规模海量性(Volume)– 信息技术发展推动社会经济和活动向数字化转型,由此产生的数据规模不断增长

– 2009年到2020年数据增长44倍– Facebook每个月数据增长约 8PB– 纽约证券交易所每天产生4TB交易数据

– Internet Archive保存了约19PB的数据

– …

Page 6: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

• 大数据的特点:2-数据多样性 (Variety)

文档:扫描文件、医疗记录等

文件:xls、doc等

商业应用:CRM、ERP、HR

多媒体:视频、音频、图片

社交网络:微信、微博等

网站:新闻、Wikipedia、搜索引擎

数据存储:关系数据库、非关系数据库

系统日志:访问记录、trace

传感器数据:智能电表、智能农业、工业互联网

Page 7: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

Customer游戏

娱乐

金融

业务

新浪微博微信

个人博客

支付宝微信支付

银联

王者荣耀

优酷

抖音 京东淘宝

亚马逊

社交

购物

快手

SAP

IBM

绝地求生

Page 8: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

• 大数据特点:3-高速性 (Velocity)

Page 9: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

• 大数据特点:3-速度 (Velocity)• 在线数据处理、离线数据处理

• 高延时可能会错过重要时机

在线商品推荐 健康监护

Page 10: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

• 大数据的特点:4-真实性 (Veracity)– 由于数据不一致、不完整、二义性等导致的

Page 11: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

• 总结

大数据技术通过使用高速的采集、发现或分析,从超大容量的多样数据中经济地提取价值。

Page 12: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

• 生产和消费数据的模式已经发生了变化

– 旧模式:少数公司生产数据,其他人消费数据

– 新模式:所有人生产数据,我们所有消费数据

Page 13: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

• 与传统数据分析有什么不同

传统数据分析(BI) 大数据分析

关注点•描述性分析•诊断性分析

预测性分析

数据集•有限的数据集•干净的数据集•简单模型

•大规模数据集•多类型原始数据•复杂数据模型

分析结果Causation:事件及其原因

Correlation:新的规律和知识

Page 14: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:When & Where

Page 15: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: When & Where

• 大数据分析使用场景– 提高过程和系统的处理效率

• 广告推送:目标群体优化

• 目标定价:动态定价(杀熟)

• 风险防范:账户入侵、反欺诈

• 推荐引擎:刺激消费和购买

• 系统安全:故障预测、异常诊断

– 科学计算和工程• 天文数据分析

• 流行传染病预测

Page 16: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

数据分析: When & Where

• 大数据在工业界的使用

– 金融服务、电信、零售、制造、健康管理、制药、石油和天然气、政府管理

– 制造:传感器数据,供应链管理,生产线质量保证,crowd-sourced质量保证

– 石油和天然气:传感器,地理数据,探测和生产数据,实时安全监控

Page 17: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

数据分析: When & Where

• 实例1:零售网站

Page 18: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

数据分析: When & Where

• 实例2:交通状况分析

Page 19: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

数据分析: When & Where

• 实例3:滴滴通勤数据

Page 20: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

• 传染病预测与分析

Google流感预测

ü使用与流感相关搜索数据

ü考虑区域和州的统计数据

ü逻辑回归方法

ü拟合2003-2008年数据做预测模型

ü为2009年流感做预测

Page 21: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

数据分析: When & Where

• 实例4:足球大数据

– 德国足球协会与SAP

– 赛前球队分析

– 赛前球员分析• 场上运动轨迹

• 罚球的特点

Page 22: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: What & Why

• 实例5:美国大选

Page 23: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

数据分析: When & Where

• 实例6:天文大数据

Optical Proper Motion Measurements of the M87 Jet: New Results from the Hubble Space Telescope Eileen T. Meyer, et. al. The Astrophysical Journal Letters 744:2, L21 (2013)

Page 24: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

数据分析: When & Where

• 天气预测

• 医疗诊断

• 商业市场

• 资源管理

• 智能城市和智能家庭

• ……

Page 25: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析 :Who

Page 26: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:Who

• 数据人才的培养需要多学科交叉

计算机Computational

数学和统计Statistics 领域应用

Domain

Page 27: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:WhoØ 2015年,LinkedIn通过分析全球超过3.3亿用户的工作经历和技

能后,认为统计分析和数据挖掘位列最受雇主喜欢、最炙手可

热的25项技能中的榜首。

Ø 全球顶尖管理咨询公司麦肯锡(McKinsey)预计2018年,大数据

科学家的缺口在14-19万,大数据分析师和经理的岗位缺口则将

更多一些!

Ø IDC称,“2018年,美国将有18万个深度分析岗位,是数据管理

和数据解读相关技能岗位数量的五倍。”

Ø 由于人才缺口过大,罗伯特·哈夫技术公司预测,数据科学家

的平均薪资将增长6.5%,大数据工程师的薪资也将增长5.8%

Page 28: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:Who

• 职位需求情况( CareerCast.com 2017 )

Page 29: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:Who

• BOSS直聘:2018求职旺季人才趋势报告

Page 30: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: Who

• 大数据人才分类

大数据工程师

大数据分析师

数据科学家

u 设计和开发大数据平台u 管理和优化大数据平台u 大数据质量监控等

u 围绕业务,对数据进行采集、处理、分析

u 面向业务建立模型等

u 围绕业务及数据现状,规划构建AI应用场景

u 研究、设计和开发AI算法u 优化算法/模型

Page 31: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: Who

• 数据科学家和数据工程师的区别

https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer

Page 32: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: Who

• 处理流程

https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer

Page 33: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: Who

以计算为中心 以数据为中心

培养目标计算机科学家计算机工程师

数据科学家数据分析师

核心技能 编程 数据分析

优化焦点 系统性能 系统效能

数据量 适量 海量

计算平台 集中式为主 分布式为主

领域相关 较弱 强

该部分材料来自中国人民大学文继荣等人公开报告内容

Page 34: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: Who

• 岗位和角色技能

https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer

Page 35: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: Who

• 教育背景

https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer

Page 36: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析: Who

• 发展趋势

2015年8月国发[2015]50号文《促进大数据发展行动纲要》

“······建立健全多层次、多类型的大数据人才培养体系。鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据专业人才。鼓励采取跨校联合培养等方式开展跨学科大数据综合型人才培养,大力培养具有统计分析、计算机技术、经济管理等多学科知识的跨界复合型人才。”

Page 37: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Algorithm

Page 38: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Algorithm

• The “dirty” secret of Big Data– 从不同的数据源获取数据

– 整理和清洗数据

– 移除异常数据

– 格式、编码和度量同一化

– 去重和匹配

• 研究表明数据准备大概占80%的工作量

Page 39: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Algorithm

• 数据分析

– 数据查询• 在过去的一年里变化较大的十只股票是?

• 90后或者00后最喜欢买的东西是什么?

– 数据挖掘• X,Y,Z一起购买的商品

• 喜欢看书的人也喜欢看电影

– 机器学习• 通过其他城市的气温预测当地气温

Page 40: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Algorithm

• 数据挖掘:寻找数据中的模式

– 经常与特定的数据类型和模式相关

物品 交易/子集

货物 购物车

大学课程 学生选课

高校学生 聚会

电影 观众

症状 病人

菜单 点菜

单词 文档

Page 41: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Algorithm• 数据挖掘算法

– 频繁项集:在一个事务中频繁一起出现的物体/事件集合

• 购买的商品• 同一个学生上的课程• 参加同样聚会的学生• 同一个人观看的电影

– 关联规则:当某些事件一起发生时,另一个事件也经常发生

• 购物者买了电话和充电器的也经常买箱子• 学习了多门安全课程的学生经常参加一些安全的峰会或者讲座

Page 42: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Algorithm

• 分类算法

Page 43: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Algorithm

• 分类算法

K-nearest neighbors Decision tree

Page 44: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Algorithm

• 其他算法

Logistic Regression

Page 45: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Algorithm

• 其他算法

Page 46: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

Page 47: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• 用途

Page 48: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• 主流技术类型

容量

数据源

吞吐量

延迟

可扩展性

数据质量

可靠性

安全

自服务

Page 49: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• 扩展的关系型和非关系型架构比较

Page 50: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• 数据发现:非关系型架构

Page 51: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• 商业分析报告: 混合架构

Page 52: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• 按照处理对象和模式分

– 批处理

– 流式处理

– 图处理

– …

Page 53: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• 横向水平切分Orchestration & Workflow Oozie, ODE, Airavata and OODT (Tools) NA: Pegasus, Kepler, Swift, Taverna, Trident, ActiveBPEL, BioKepler, Galaxy

Data Analytics Libraries: Machine Learning Mahout , MLlib , MLbaseCompLearn (NA)

Linear Algebra Scalapack, PetSc (NA)

Statistics, BioinformaticsR, Bioconductor (NA)

Imagery ImageJ (NA)

MRQL(SQL on Hadoop,

Hama, Spark)

Hive (SQL on Hadoop)

Pig (Procedural Language)

Shark(SQL on

Spark, NA)

HcatalogInterfaces

Impala (NA)Cloudera

(SQL on Hbase)

Swazall(Log Files

Google NA)

High Level (Integrated) Systems for Data Processing

Parallel Horizontally Scalable Data Processing Giraph~Pregel

Tez(DAG)

Spark(Iterative

MR)

Storm S4Yahoo

SamzaLinkedIn

Hama(BSP)

Hadoop(Map

Reduce)

Pegasuson Hadoop

(NA)

NA:TwisterStratosphereIterative MR

GraphBatch Stream

Pub/Sub Messaging Netty (NA)/ZeroMQ (NA)/ActiveMQ/Qpid/Kafka

ABDS Inter-process Communication Hadoop, Spark Communications MPI (NA)& Reductions Harp Collectives (NA)

HPC Inter-process Communication

Cross CuttingCapabilities

Distributed C

oordination: ZooKeeper, JG

roups

Message Protocols: Thrift, Protobuf (N

A)

Security & Privacy

Monitoring: A

mbari, G

anglia, Nagios, Inca (N

A)

Page 54: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• 纵向切分

Page 55: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• Lambda Architecture

Page 56: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• 实例:电商网站点击记录

Page 57: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• 架构选择ü数据量(45 TB)ü数据源(半结构化 - JSON)ü吞吐量(> 20K/sec)ü延迟(1小时)ü可扩展性(定制标签)ü数据质量(Not critical)

ü可靠性 (24/7)ü安全(多租户)ü自服务(扫描报告,数据科学)ü成本(越低越好)ü限制(公有云)

扩展的关系型 非关系型

容量/可伸缩性 +/- +

吞吐率 + +

自服务 + +/-

可扩展性 - +

非关系型架构

Page 58: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform

• 参考架构

Page 59: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Platform• 平台/架构设计要点

– 理解用户需求和数据源– 理解已有平台和架构– 选择一个合适的参考架构– 进行比较分析,考虑各自的优缺点– 考虑参考架构的技术支撑软件栈– 构造原型进行重新评估– 估算实现成本– 搭建开发环境– 不断的一点一点改进– 充分考虑灵活性,大数据技术发展非常快

Page 60: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How - Hadoop Ecosystem

Page 61: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Hadoop Ecosystem

• Hadoop Ecosystem

Page 62: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Hadoop Ecosystem

• HDFS体系架构

NameNode

DataNode

DataNode DataNode DataNode

DataNode

DataNode

DataNode DataNode

Secondary NameNodeClient

Heartbeat,Cmd, Data

Page 63: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Hadoop Ecosystem

Page 64: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Hadoop Ecosystem

• Map ReduceNodeMap

File

AB

CD

NodeMap

A

NodeMap

NodeMap

B

C

D

NodeReduce

NodeReduce

F

NodeReduce

NodeReduce

E

G

H

Shuffle&

Sort

I am Sam

Sam I am

(I,1)(am,1)(Sam,1)

(I,1)(am,1)(Sam,1)

(I,2)(am,2)(Sam,2)(…,..)(..,..)

………

………

Page 65: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Hadoop Ecosystem

• Spark

Page 66: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Hadoop Ecosystem

• Hadoop与Spark

Iteration1 Iteration2

HDFS read

Iteration1 Iteration2

HDFS read

HDFS Write

HDFS read

HDFS Write

Spark

Hadoop

Page 67: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Hadoop Ecosystem

• HBase

Page 68: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Hadoop Ecosystem

• Pig– High-level language for data analysis

• Hive– SQL-like Query language and Metastore

• Mahout– Machine learning

• Zookeeper– Coordinating distributed applications

Page 69: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Visualization

Page 70: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Visualization

• 与已有的图表不同之处

– 能够创建可交互的视图

– 能够对外发布可交互的可视化结果

Page 71: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Visualization

• 拿破仑东征图

https://robots.thoughtbot.com/analyzing-minards-visualization-of-napoleons-1812-march

Page 72: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Visualization

• Show Me the Numbers– Time Series– Ranking– Part to Whole– Deviation– Distribution – Correlation– Geospatial– Nominal Comparison

Page 73: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Visualization

• 可视化类型

http://echarts.baidu.com/echarts2/doc/example.html

Page 74: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Visualization

• 实例1:北京公交运行图

http://echarts.baidu.com/examples/editor.html?c=lines-bmap-effect

Page 75: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Visualization

• 实例2:稀疏矩阵

Page 76: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Visualization

• 实例3:北京16区人口密度

Page 77: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

Page 78: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

• 旅游行业信息化发展现状

– 旅游行业是所有行业中信息化水平相对偏低

– 旅游行业不同环节信息化发展水平极不平均• 机票

• 酒店

• 旅行社

• 景区

– 旅游线上化趋势倒逼旅游行业信息化程度提升

Page 79: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

• 移动互联网

• 物联网技术

• 电子支付

• 可穿戴设备

• 北斗导航

• 人工智能

• 虚拟现实

• 社交网络

• 大数据

• 云计算

Page 80: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

• 旅游大数据从何而来?

– 游客数量• 消费升级、全民休闲时代、产业发展

– 出行方式• 自由行比例增加,信息获取方式变化,交易方式变化,信息分享、传播方式变化

– 收集分析方法• 线上旅游带来的数据收集自动化

• 本地旅游信息化为精细化管理提供技术保障

Page 81: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

• 当前旅游行业统计上报机制的局限性

• 旅游行业大数据

整合数据 大数据云服务 管理决策支持

Page 82: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

• 数据来源

– 本地数据• 市政、公共服务数据:公安、交通、车站、机场数据

• 目的地、景区自有数据:门票、入口闸机

• 本地设备、系统收集数据:摄像头、WiFi

– 外部数据• 三大运营商信令数据

• 互联网在线数据: BAT、OTA、微博、地图、点评…• 其他行业(非本地)数据:保险、教育、医疗等行业…

Page 83: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

• 针对景区的数据分析

– 游前• OTA订单数据、游客画像、购买行为……

– 游中• 实时入园人数监测

• 消费方式、行动轨迹、参观感知

– 游后• 景区口碑、意见反馈

Page 84: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

• 基于公众口碑大数据的景区评价

– 数据抓取、数据整理、数据分析、数据展示

• 架构设计考虑

– 数据类型:已有评论,将来包括图片、视频等

– 数据规模:存储总量TB以上

– 数据分析:分析的工作量比较大

– 时间要求:不要求实时

Page 85: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

• 系统架构

Crawler 1 Crawler 2 Crawler N-1 Crawler N

APP Server

……

Page 86: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

• 数据分析

爬虫 文本数据清理

l格式归一化l数据去重l文本分词l……

数据分析

l主题分析l词云分析l情感分析l……

评论查看 景区评价

景区排名 地域分析

Page 87: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

• 可视化结果:景区总体评价

Page 88: 大数据分析基础与实践 - cs.livedu.com.cn · CRM、ERP、HR 多媒体:视频、 音频、图片 社交网络: 微信、微博 等 网站:新闻、 Wikipedia、 搜索引擎

大数据分析:How-Example

• 可视化结果:评论词云