python大数据处理与分析教学方案 - dblab.xmu.edu.cn

26
Python大数据处理与分析教学方案 北京理工大学

Upload: others

Post on 21-Feb-2022

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

Python大数据处理与分析教学方案

嵩 天

北京理工大学

Page 2: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

There are a thousand Hamlets in a thousand people's eyes.

—— William Shakespeare

Page 3: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

为什么? -> 是什么? -> 怎么用?

汇报主题 一门大数据课程及一套教学方案

Page 4: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

大数据

看不懂但不得不做的教改方向,因为Python和数据的魅力,更因为人邮社和华为

5V: 数量大、种类多、价值低、速度快、基本真实

Page 5: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

平台系

大数据教学

Hadoop、Hbase、NoSQL、Spark…

算法系

数据挖掘、增长性、并行性、独特性…

应用系

搜索大数据、电商大数据、生物大数据…

大 精

Page 6: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

5V: 数量大、种类多、价值低、速度快、基本真实

这三个系列教学方案是否全面呢?…

种类多:结构化、半结构化、非结构化 然后,就没有然后了…

Page 7: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

多维数据

大数据种类

主体为结构化数据

Web数据

自然语言数据 主体为半结构化数据

图像数据 主体为非结构化数据

社交关系数据

主体为半结构化数据

主体为半结构化数据

Page 8: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

平台系

大数据教学

Hadoop、Spark…

算法系

数据挖掘、增长性…

应用系

搜索大数据、医疗大数据…

类别系 多维、图像、自然语言、Web…

大 精 深 博

Page 9: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

大数据教学 "博大精深" ->

Page 10: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

类别系

差异性:强调各类型数据的内在关系及分析方法,有区分度

适用性:大数据入门类方案,建立思维及分析基础,见微知著

Page 11: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

类别系

原创性:无参考内容、无借鉴方案,内容构建很烧脑…

普适性:数据/大数据 表达->处理->分析->挖掘->平台….

Page 12: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

目标:建立针对不同数据类别的分析思维及实践能力

Python大数据处理与分析

Page 13: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

Python大数据处理与分析

基础性实践工具

计算生态语言:可深可浅、覆盖广泛…

一批优质Python第三方库功能讲解

数据的程序表达

各类数据的表示、清洗、基本操作…

思维及应用实践

对各类数据本质的思考…

Page 14: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

多维数据的处理方法

增量Web数据的处理方法

自然语言数据的处理方法

图像数据的处理方法

社交关系数据的处理方法

Python大数据处理与分析

关联分析

问答分析

差异分析

势情分析

网络分析

Page 15: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

(1) 多维数据处理与关联分析

UserID MovieID Rating Datetime

196 242 3 2017-12-04 15:55:49

186 302 5 2018-04-04 19:22:22

22 377 1 2017-11-07 07:18:36

244 51 4 2017-11-27 05:02:03

166 346 1 2018-02-02 05:33:16

numpy、pandas、matplotlib…

清洗、统计、相关系数… 关联分析算法 Apriori…

电影推荐

Page 16: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

(2) 自然语言数据处理与问答分析

re、jieba、wordcloud 分词、词性标注、Zipf

关键词抽取、文本相似度分析…

知识图谱、…

Q: 亲,这款背包多少钱?

A: 不要998,只要98…. 专题问答系统

Q: 《千与千寻》的编剧是谁?

Q: 谁是《千与千寻》的编剧?

A: 宫崎骏

Page 17: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

(3) 图像数据处理与差异答分析

OpenCV-python

一起

来找茬

图像变换、形态学、梯度、匹配… 图像特征值、相似度对比及视频…

人脸定位

Page 18: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

(4) Web增量数据处理与势情分析

网络爬虫requests、scrapy Web信息提取JSON、bs4 趋势可视化展示seaborn

商品评论获取

Page 19: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

(5) 社交关系数据处理与网络分析

网络关系networkx 热点、网络、中心度… 社团发现、结构洞…

六度分隔理论 电影演员合作关系分析

Page 20: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

Python大数据处理与分析

(1) 多维数据处理与关联分析

(2) 自然语言数据处理与问答分析

(3) 图像数据处理与差异分析

(4) 增量Web数据处理与势情分析

(5) 社交关系数据处理与网络分析

8-10学时

8-10学时

8-10学时

8-10学时

8-10学时

48-64学时

Page 21: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

Python大数据处理与分析

(1) 多维数据的电影推荐

(2) 专题内容问答引擎

(3) 图像识别及找茬

(4) 网络爬虫与信息提取

(5) 社交关系网络分析

拓展:覆盖爬虫、识别、问答、社交和推荐的综合实践案例

Page 22: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

Python大数据处理与分析

必要性:必须是Python语言,才能可难可简,其他语言没有生态性

基础性:大数据平台(华为等)采用Python语言扩展处理和算法

前导性:先有“博”,微观看见,才能“博大精深”

Page 23: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

Python大数据处理与分析

• 嵩天 北京理工大学

策划、组织、70%内容

• 刘文飞 大连理工大学

30%内容

Page 24: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

Python入门课程

数据+方法+分析+实践

大二 - 大三

"博大精深"

Page 25: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

Python大数据处理与分析

V1.2 2018.6

Page 26: Python大数据处理与分析教学方案 - dblab.xmu.edu.cn

Python · 大数据 · 大舞台

嵩 天

北京理工大学计算机学院

[email protected]