python大数据处理与分析教学方案 - dblab.xmu.edu.cn
TRANSCRIPT
Python大数据处理与分析教学方案
嵩 天
北京理工大学
There are a thousand Hamlets in a thousand people's eyes.
—— William Shakespeare
为什么? -> 是什么? -> 怎么用?
汇报主题 一门大数据课程及一套教学方案
大数据
看不懂但不得不做的教改方向,因为Python和数据的魅力,更因为人邮社和华为
5V: 数量大、种类多、价值低、速度快、基本真实
平台系
大数据教学
Hadoop、Hbase、NoSQL、Spark…
算法系
数据挖掘、增长性、并行性、独特性…
应用系
搜索大数据、电商大数据、生物大数据…
大 精
深
5V: 数量大、种类多、价值低、速度快、基本真实
这三个系列教学方案是否全面呢?…
种类多:结构化、半结构化、非结构化 然后,就没有然后了…
多维数据
大数据种类
主体为结构化数据
Web数据
自然语言数据 主体为半结构化数据
图像数据 主体为非结构化数据
社交关系数据
主体为半结构化数据
主体为半结构化数据
平台系
大数据教学
Hadoop、Spark…
算法系
数据挖掘、增长性…
应用系
搜索大数据、医疗大数据…
类别系 多维、图像、自然语言、Web…
大 精 深 博
大数据教学 "博大精深" ->
类别系
差异性:强调各类型数据的内在关系及分析方法,有区分度
适用性:大数据入门类方案,建立思维及分析基础,见微知著
类别系
原创性:无参考内容、无借鉴方案,内容构建很烧脑…
普适性:数据/大数据 表达->处理->分析->挖掘->平台….
目标:建立针对不同数据类别的分析思维及实践能力
Python大数据处理与分析
Python大数据处理与分析
基础性实践工具
计算生态语言:可深可浅、覆盖广泛…
一批优质Python第三方库功能讲解
数据的程序表达
各类数据的表示、清洗、基本操作…
思维及应用实践
对各类数据本质的思考…
多维数据的处理方法
增量Web数据的处理方法
自然语言数据的处理方法
图像数据的处理方法
社交关系数据的处理方法
Python大数据处理与分析
关联分析
问答分析
差异分析
势情分析
网络分析
(1) 多维数据处理与关联分析
UserID MovieID Rating Datetime
196 242 3 2017-12-04 15:55:49
186 302 5 2018-04-04 19:22:22
22 377 1 2017-11-07 07:18:36
244 51 4 2017-11-27 05:02:03
166 346 1 2018-02-02 05:33:16
numpy、pandas、matplotlib…
清洗、统计、相关系数… 关联分析算法 Apriori…
电影推荐
(2) 自然语言数据处理与问答分析
re、jieba、wordcloud 分词、词性标注、Zipf
关键词抽取、文本相似度分析…
知识图谱、…
Q: 亲,这款背包多少钱?
A: 不要998,只要98…. 专题问答系统
Q: 《千与千寻》的编剧是谁?
Q: 谁是《千与千寻》的编剧?
A: 宫崎骏
(3) 图像数据处理与差异答分析
OpenCV-python
一起
来找茬
图像变换、形态学、梯度、匹配… 图像特征值、相似度对比及视频…
人脸定位
(4) Web增量数据处理与势情分析
网络爬虫requests、scrapy Web信息提取JSON、bs4 趋势可视化展示seaborn
商品评论获取
(5) 社交关系数据处理与网络分析
网络关系networkx 热点、网络、中心度… 社团发现、结构洞…
六度分隔理论 电影演员合作关系分析
Python大数据处理与分析
(1) 多维数据处理与关联分析
(2) 自然语言数据处理与问答分析
(3) 图像数据处理与差异分析
(4) 增量Web数据处理与势情分析
(5) 社交关系数据处理与网络分析
8-10学时
8-10学时
8-10学时
8-10学时
8-10学时
48-64学时
Python大数据处理与分析
(1) 多维数据的电影推荐
(2) 专题内容问答引擎
(3) 图像识别及找茬
(4) 网络爬虫与信息提取
(5) 社交关系网络分析
拓展:覆盖爬虫、识别、问答、社交和推荐的综合实践案例
Python大数据处理与分析
必要性:必须是Python语言,才能可难可简,其他语言没有生态性
基础性:大数据平台(华为等)采用Python语言扩展处理和算法
前导性:先有“博”,微观看见,才能“博大精深”
Python大数据处理与分析
• 嵩天 北京理工大学
策划、组织、70%内容
• 刘文飞 大连理工大学
30%内容
Python入门课程
数据+方法+分析+实践
大二 - 大三
"博大精深"
Python大数据处理与分析
V1.2 2018.6