silverlight briefing - mix07free.eol.cn/edu_net/edudown/2017bdt/wjm.pdf ·...

53
清华大学大数据人才培养项目 王建民 清华-青岛数据科学研究院 清华大学软件学院 2017年8月3日

Upload: others

Post on 09-Jul-2020

20 views

Category:

Documents


0 download

TRANSCRIPT

清华大学大数据人才培养项目

王建民

清华-青岛数据科学研究院清华大学软件学院

2017年8月3日

大数据人才需求

缺口超过130万缺口达到150万

国际形势

2015年全球大数据人才需求

全球大数据人才总数

440万

<310万

国内形势

2015年中国大数据人才总数

未来3-5年,中国需求

180万

~30万

大数据人才分类

应用数据分析师

算法设计工程师

具备行业应用领域知

识,提供基于数据挖

掘分析的战略决策

注重数据分析算法设计,

具备统计分析为核心的

数学与编程能力

数据系统构架师

对数据的管理、处理

与分析等技术和系统

构架有深入理解

A

B

C

A

B

C

1、清华大学大数据硕士项目

2、清华大学大数据能力提升项目

3、清华大学数据科学与工程专业硕士项目

清华大学大数据人才培养项目

清华大学大数据硕士项目

(学位项目)

酝酿提出

2013年12月3日,研究生院召开大数据研究和人才培养研讨会。酝酿由研究生

院统筹,依托清华大学工科和商科优势,把握社会科学在大数据环境下的

战略机遇期,并利用清华大学的业界资源,成立数据科学研究院。

培养目标

培养一批具有大数据思维、掌握大数据分析与应用技术的高层次大数据人才

,引领中国乃至世界的大数据研究和开发应用。

方针确定

2014年1月2日,陈吉宁校长主持召开清华数据科学研究院筹建会议,全校相

关院系和部门等参加。提出“学校统筹、问题引导、社科突破、商科优势

、工科整合、业界联盟”24字方针。

培养框架建构

确定大数据硕士项目总学分不少于30学分,采用统一培养方案,分设数据科学

与工程、大数据与国家治理、经济社会数据、互联网金融、商务分析等若干不

同的培养方向。

设置大数据分析(3学分)、大数据系统基础(3学分)、大数据思维与行为(

2学分)、大数据管理与创新(2学分)、大数据治理和政策(2学分)等5门必

修课,大数据科学选修课(3学分)和大数据实践(1-3学分)必修环节,核心

课程由几个学院分别牵头、共同设计。

清华-青岛数据科学研究院成立 启动大数据人才培养

2014年4月26日下午,清华大学与青岛市人民政府签署共建合作协议,清华

-青岛数据科学研究院正式成立。同时,清华大学宣布将推出多学科交叉培

养的大数据硕士项目。

2014年9月,第一届大数据硕士项目开始招生,统筹协调7个学院。计划每

年招生150人。

大数据硕士项目参与院系和研究方向

数据科学与工程

商务分析和金融硕士保险方向

大数据与国家治理

经济社会数据

互联网金融

信息学院深圳研究生院交叉信息研究院

经管学院

公管学院

社会科学学院

五道口金融学院

教育指导委员会

校外委员:

1. 刘 震 微软亚洲工程研究院院长

2. 戴金权 Intel亚太研发有限公司大数据首席架构师、资深首席工程师

3. 梁小英 中国平安财产保险股份有限公司副总经理/总精算师兼CIO

4. 刘激扬 北京国双科技有限公司(Gridsum)首席技术官

5. 刘静芳 中国建设银行总行数据管理部总经理

6. 刘 政 SAS软件研究开发(北京)有限公司总经理

7. 严成文 IBM全球副总裁兼中国硏发中心总经理

8. 张 高 百度教育事业部总经理

校内委员:

1. 武永卫 计算机系教授

2. 柴跃廷 自动化系教授

3. 陈煜波 经济管理学院副院长

4. 刘涛雄 社会科学学院党委书记

5. 王建民 数据科学研究院副院长、软件学院院长

6. 徐 葳 交叉信息研究院助理院长、助理教授

课程名(课号) 学分

大数据分析A(60700033)或B(60240103) 必修 3学分

大数据系统基础A(60470013)或B(64100033) 必修 3学分

数据伦理(60250121) 必修 1学分

大数据科学与应用系列讲座(60250131) 必修 1学分

下面三门课程三选一:

数据思维与行为(60700052) 必修 2学分

大数据管理与创新(60510202) 必修 2学分

大数据治理与政策(80591342) 必修 2学分

大数据平台核心技术 选修 2学分

课程设置(部分)

课程特色

信息类和非信息类同学交叉混合组队,跨学科团队合作

引入大数据企业实际项目,和真实用户交流

企业导师和授课老师搭配,共同指导学生

培养大数据系统设计和实现能力

特色课程:《大数据系统基础A、B》

课程征集2类项目

偏重系统架构• 如何持续、高效地进行大数据分析

• 如何整合不同的数据集

偏重数据分析和应用• 如何通过一个数据集高效地分析出结果

大数据课程实践项目

2014-2016年实践项目汇总情况

0

2

4

6

8

10

12

餐饮

大数

城市

大数

房地产大数据

工业

大数

互联网大数据

环保

大数

健康医疗大…

建筑

大数

交通

大数

教育

大数

金融

大数

科技

大数

消费

大数

物流

大数

遥感

大数

营销

大数

舆情

大数

娱乐

大数

政务

大数

实践项目领域

2014 2015 2016

0

5

10

15

20

25

30

35

40

45

50

实践项目总数

大数据系统基

大数据分析

暑期实践

大数据实践项目数据统计

2014 2015 2016

2014年至2016年共征集了99个项目,涉及工业大数据、交通大数

据、金融大数据、互联网大数据、房地产大数据、遥感大数据等19个

主要领域。

由AB课程学生结合的小组进行,完成真实的项目需求

为每个团队提供5台服务器(虚拟机)

实现持续、高效地大数据整合、分析等

A课程考核:侧重文档

开题报告:需求分析文档,产品背景调研,相关案例

阶段性报告:代码、实验、数据、团队管理过程文档

期末报告:系统架构完成程度,系统性能评估,应用展示

B课程考核:侧重实践

开题报告:技术路线调研,初步设计

阶段性报告:代码的正确性与可读性,项目进展

期末报告:系统架构设计的合理性,系统性能,应用展示

实验与考核

“脑洞”大开,收获巨大

项目答辩

第一届大数据硕士毕业生情况

2017年共有117名大数据硕士毕业生,分布在自动化系,软件学院,社

科学院,交叉信息研究院,五道口金融学院和深圳研究生院;毕业去向多为

互联网科技公司,其中包括微软、亚马逊、百度、腾讯、阿里巴巴、华为、

京东等多家知名企业。

自动化系 软件学院 社科学院交叉信息

研究院

五道口金

融学院

深圳研究

生院总人数

系列1 8 23 11 6 37 32 117

0

20

40

60

80

100

120

140

第一届大数据硕士毕业生情况

国家公务员3%

商贸、电商类4%

继续深造5%

金融类33%

互联络科技类40%

其他15%

大数据硕士项目典型毕业生

王斐

本科:公共事业管理 ;硕士:科技哲学

就业:亚马逊(中国) 负责Kindle媒体数据运营的工作。

先后拿到多家知名企业offer, 包括:华

为技术有限公司(供应链管理工程师)、京东商城(技术研发产品经理)、中国西电集团等。

“特别是在求职技术类公司的过程中,单靠科技哲学很难通过简历筛选,而再后来的面试中面试官也对我的大数据背景很感兴趣,所提的问题也都集中于该领域。”

清华大学大数据能力提升项目

(证书项目)

清华大学大数据能力提升项目官方发布

2015年12月4日,清华大学研究生院、清华大学数据科学研究院共同

发布清华大学大数据能力提升项目,面向全校在学研究生招生。

截止2017年5月底统计,来自全校28院系,756名同学参加大数据人才

培养项目,其中包括工程硕士167名,学生范围几乎覆盖全校所有院系。

其中,2014年150人,2015年279人,2016年327人。

0

50

100

150

200

250

300

350

0

10

20

30

40

50

60

70

80

90

100

交叉…

信息…

社科…

材料…

电机系

工物系

航院

核研院

化工系

环境…

机械…

建筑…

经管…

理学院

生命…

土木…

新闻…

医学院

法学院

公管…

深研院

其他

大数据能力提升项目

大数据能力提升项目

• 数据科学• 社会科学• 工商管理• 公共管理

• 大数据基础技能• 大数据能力提升• 大数据应用实践

• 大数据分析能力

• 应用创新能力

• 培养具有大数据思维和应用创新能力的“π”型人才 一个

定位

两种

能力

多学

科交叉

三个

模块

课程体系设计

1、基础技能模块: 大数据分析(A) 大数据分析(B)

大数据系统基础(A) 大数据系统基础(B)

2、能力提升模块(部分): 大数据平台核心技术 大数据分析与处理

大数据算法基础 大数据机器学习

大数据系统导论 大数据的采集与智能处理

数据伦理 大数据科学与应用系列讲座

数据思维与行为 大数据管理与创新

大数据治理与政策 数据分析与优化建模

3、实践模块:(必修) 大数据实践课

大数据公开系列讲座

(包括:技术前沿、应用创新、RONG论坛等)

项目特点

不限学期和学年,毕业前一个学期完成要求的学分,可获得证书;

突出创新性和实战性,引入大数据企业实际项目,提供丰富实践机会;

突出跨学科交叉融合

招生对象:在学研究生(博士和硕士)

证书要求

总学分≥10学分

大数据基础技能模块:≥3学分

大数据能力提升模块:≥4学分

大数据实践模块:必修(3学分)

基础技能模块学分不可由能力提升模块替代

累计至少参与8次及其以上讲座和实践活动

公开系列讲座

2015年行业讲座共29场涉及13个领域

2016年行业讲座共32场涉及14个领域

关于“RONG”品牌

RONG,取其与“融”“溶”“荣”“容”之谐音,意指“

融合”“融洽”“包容”“宽容”“繁荣”“荣光”等,代表了数据研究院成立的某种初衷和理念,故以RONG 之音一言以蔽之。

RONG的logo:

RONG系列交流会

RONG奖学金

第一届奖学金获奖名单:

特等奖学金:付 睿、刘念宏

一等奖学金:刘清晨、刘山松、董永奇

二等奖学金:庞人铭、高亭巍、暴天鹏

三等奖学金:李为智、谢露露、汝 楠

Big Data Day

学生大数据研究协会

第一届“大数据能力提升项目”

毕业生

自2015年12月底项目发布以来,已有6名参加”大数据能

力提升项目”的毕业生;

姓 名 院系

李娅强 航空航天学院

陈 蕾 公管学院

王瑞琰 法学院

马大蔚 精密仪器系

王 博 社会科学学院

曾 加 工物系

“大数据能力提升项目”

优秀毕业生

王瑞琰

本科:机械工程及自动化专业;硕士:知识产权法律

就业:中国证券登记结算有限公司

“作为文理交叉生,学大数据目的是培养大数据思维和能力,既要敏锐发现数据特征、挖掘数据价值,又要学会处理数据、应用数据。”

清华大学数据科学与工程专业硕士项目

顺应互联网+时代国家治理、产业经济、政府决策、社会运行等模式变革而诞生;

培养具备数据存储、运行监管、智能分析挖掘以及战略决策等技能的专门人才;

胜任数据存储管理师、数据分析师、数据系统架构师乃至数据科学家、首席数据官、商务分析师、战略管理者等岗位;

项目目标

项目启动

国内首个混合式教育学位

2015年5月7日新闻发布会

项目影响力

随时随地随心学随时随地随心自主学习

线下交互答疑项目驱动引导的课堂研讨学习

项目特色:基于MOOC的翻转课堂模式

以学习和实践能力为考核标准的招录环节改革

专业笔试 综合面试研究生入学考试

2015年,共有281人报名该项目并参加GCT考试,MOOC学习报名

人数80人,最终共有112人进入复试,其中MOOC学习者28人。

问卷反馈(大数据系统基础B- 2015-3-7)

大部分同学对课堂氛围还算满意(占比70.59%),但是对于教师在课堂上使用的教学方法只有47.06%认为满意,52.94%的人认为一般

对于多名教师共同授课的方式,52.94%的人认为合理,35.29%的人认为一般,11.76%的人认为不合理。

同学反映这种方式课程连续性差,不成体系,前后课程内容会有重复,课堂纪律和课后复习缺乏足够的监督。

关于企业调研方面基本上都认为很有必要。

关于大数据人才培养的思考

产业领域迫切需要大数据人才

互联网数据网页数据、社交数据、

电子商务数据

产业数据时序数据、过程数据

科学数据、非结构化数据

复合型极客分析、编程、领域知识数据库、分布式计算

产业领域型人才领域知识

有限计算机能力

融合发展的大数据系统软件

自主可控

工业4.0

现代农业

公共服务

政府治理

网页搜索

电子商务

大数据为新工业革命提供基础动力

德国工业4.0 美国工业互联网

IBM认为:工业4.0就是大数据驱动的智

能制造

德国莱比锡商学院院长潘安德认为:大

数据是工业4.0的核心

工业互联网,将智能的机器、先进的分

析和工作人员进行集成

GE董事长认为,未来每一个工业企业也

必须是一家软件企业

44

个体数据传递 vs 集合数据分析

生 产部 门

设 备管 理

维 修服 务

生 产制 造

设 计工 艺

产品设计 产品制造 安装调试 产品档案 服务响应 维修执行 分析服务数据 回收再利用

设计BOM工艺路线

产品缺欠改进需求

供应商评价问题追溯影响分析

面向设计分析

面向服务设计

面向制造分析

状态信息采集

设备规划

面向服务制造

投入使用例行维护

面向服务分析

自制、采购备件

运行信息

维修备件管理

服务备件管理

维修计划执行

使用规程

备件发放

翻新备件

备件发放

回收备件

备件准备

状态监测故障诊断

产品档案资产管理

维修需求管理

维修日志分析挖掘

维修计划管理

技术要求

产成品实例BOM

技术资料

备件准备

服务请求响应

故障率完好率

面向设备分析

结果评价

安装测试验收入库

产成品

装箱BOM

技术资料

设备采购

采购清单

供货商信息

装备制造企业

签订合同提出技术要求

装备使用企业

生命初期(BOL) 生命中期(MOL)末期(EOL)

拆解清洗

翻新组装

报废申请

返厂大修

信息化与大数据

滴滴打车:从信息化到大数据

1. 采集2. 管理 3. 处理

5. 应用

关系

键值

文档

时序

多媒体

数据集

Da

taS

et-

DS

IoTDB

Cluster

IoT

IoTDB

Edge

感知/预警

查询/检索

转换/度量

决策/预测

气象应用

三一应用

金风应用

从DS到DS

DS的BOM

DS1

DS2

DS1.3

DeepTrans

从DS到模型M

M.R.1.3

M.DL.2.2

回归

决策树

DS2.2

M.

DT.1.3

深度学习

TsClean

Flok – 交互编程

求y=f(x)

批处理

机器学习

流处理

交互

大数据系统软件栈

英业达应用

4. 分析

国家气象局近实时大数据环境

模式数据 站点实况卫星数据 雷达数据

欧洲0.125度网格欧洲2.5度网格美国细网格日本细网格中国T639模式等

全部200多部单站雷达基数据和PUP产品

中国风云静止卫星日本向日葵8号卫星等

MICAPS4客户端现代天气制作平台(数字化/精细化)

近10种站点实况数据:站点实况时间序列图模式剖面计算闪电数据分钟自动站数据等

随机读取数据左右/左右翻页模式剖面图序列预测图雷达外推图短期定量预报短时近临预报…

更多数据类型

气象大数据平台BDIPS

多数据源、多类型、多维度

气象业务处理

气象算法系统

MCP监控系统

BDPreprocess分布式预处理系统

BDStore分布式存储系统

数据代理系统BDComputing分布式计算系统

BDEmsemble集合预报系统

BDDeepCast智能预报系统

双方已完成 双方开发中气象局已有

16TB/天 10TB/天 一百万文件/天 实时观测

三一重工装备大数据系统

清华LaUD数据库

M2M数据仓库(Oracle)

M2M业务数据库(Oracle) 历史数据应用系统

M2M监测数据处理集群

在线数据应用系统

原始SCP报文

工况数据

主机数据

接口机集群 处理机集群

在线工程机械

vkeyi搅拌站ERPIEM服务器 GCP

XML/JSON实际工况数据

工况数据查询Web Service

远程维护系统

经营决策系统

已经实现

外部用户

LaUDMS

SQL

SQL

1. 采集3. 处理与分析

2. 存储

4. 应用

4. 应用

数据分析6个步骤

49

数据、模型与算法

不同算法的逼近能力不同,复杂度不同,应根据数据分布特征和应用效果选择

A

B

C

理想大数据人才的知识结构

若干挑战

多学科交叉的复合型人才培养

“应用牵引、技术支撑”

“有方法、少平台、缺数据”

致谢

感谢各位来宾的聆听。

感谢清华大学数据科学研究院的罗国荣老师、刘璐老师、软件学院学

院宋韶旭老师提供了相关材料。

本PPT版权归清华大学研究生院和数据科学研究院所有。