数据科学:大数据,大机会,大挑战 什么需要 team data science...

26

Upload: others

Post on 07-Jul-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects
Page 2: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects
Page 3: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

• 数据科学:大数据,大机会,大挑战

• 为什么需要Team Data Science Process

• TDSP的四个主要元素

• 微软如何实施TDSP

• 现场演示

Page 4: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

人工智能

云计算大数据与物联网

正引领我们进入第四次工业革命

Page 5: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

$1.6T 接下来4年数据能给我们的商业带来的红利

大数据,大机会

Data source: Microsoft and IDC, April 2014

速度如何实现?

Page 6: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

“Only 27% of the big data projects are regarded as successful”

“Only 8% of the big data projects are regarded as VERY successful”

Only 13% of organizations have achieved full-scale production for

their Big Data implementations

Source: CapGemini 2014

“Only 17% of survey respondents said they had a well-

developed Predictive/Prescriptive Analytics program in

place, while 80% said they planned on implementing

such a program within five years” – Dataversity 2015

Survey

Page 7: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects
Page 8: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

Source: http://berkeleysciencereview.com/how-to-become-a-data-scientist-before-you-graduate/

Page 9: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects
Page 10: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects
Page 11: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

质量控制

团队协作

知识积累

敏捷制造

全球化的团队

• 西雅图,旧金山,

波士顿,伦敦,新

加坡

多样化的成员

• 计算机,统计,物

理,神经生物学…

各行业的客户

• 金融机构,航空公

司,电商,制药…

Page 12: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects
Page 13: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

Source: KDNuggets, October 2014

数据科学流程:有人在用吗?

Page 14: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

标准化的项目流程

标准化的文档模板,以及标准化的Git

Repository目录结构

共享分布式的数据,计算平台

共享数据科学工具以提高效率

1

2

3

4

Page 15: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

Cross-Industry Standard Process for Data Mining

(CRISP-DM)Knowledge Discovery in Databases

(KDD)

Page 16: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects
Page 17: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects
Page 18: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

Templates Utilities

Page 19: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

共享分布式的数据,计算平台

Page 20: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

经验积累,效率提升

项目

效率

项目 1

项目 2

项目 3

项目 4

项目 5

项目 6

Page 21: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

• Azure数据科学虚拟机作为基础的开发平台

• 使用Visual Studio Team Services (VSTS) • 记录追踪任务,sprint计划• Git repositories

• 每个项目一个git repository,并且采用标准化的目录结构和文档模板

• 一个git repository用以分享数据科学工具

Page 22: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

xgboost

Vowpal Wabbit

Rattle

CNTK

Developer edition

Page 23: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

IDEAR• 数据质量评估• 数据相关性评估• 机器学习任务难度评估• 揭示数据中的隐性结构• 获取对数据机器产生过程的深入了解• 所见即所得的方式产生数据报告AMAR

• 快速构建基准模型• 生成标准化的模型报告• 获取对模型,数据,以及机器学习任务的深入了解

Page 24: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

数据科学团队

1. 更好地组织代码和文档2. 标准化数据科学流程3. 版本控制4. 知识积累5. 数据和信息安全

1. 更高的工作效率2. Collaboration:

distributed compute, no

contending for resources.

经理 数据科学家

Page 25: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

所有的教材都在公共github repositories: http://aka.ms/tdsp

IDEAR and AMAR发布在公共github repository: https://github.com/Azure/Azure-

TDSP-Utilitieses

获取免费的VSTS帐户: http://www.visualstudio.com http://www.visualstudio.com

开源,共享,贡献你的力量,让我们一起让TDSP成为服务所有许据科学家的:• 版本受控• 信息安全• 团队协作• 运转高效的数据科学过程

Page 26: 数据科学:大数据,大机会,大挑战 什么需要 Team Data Science …download.microsoft.com/download/D/E/7/DE7AE181-EE05-4699-A23… · “Only 27% of the big data projects

扫描此二维码填写此次课程调查表格,即有机会赢取限量版精致好礼!