資料科學的第一堂課 data science orientation

62
微軟專業學程 - 資料科學 資策會大專院校「未來之星 – 菁英培育」計畫 Ryan Chung III IT Training Center 1

Upload: ryan-chung

Post on 21-Jan-2018

611 views

Category:

Technology


6 download

TRANSCRIPT

Page 1: 資料科學的第一堂課 Data Science Orientation

微軟專業學程 - 資料科學資策會大專院校「未來之星 – 菁英培育」計畫

RyanChung IIIITTrainingCenter1

Page 2: 資料科學的第一堂課 Data Science Orientation

[email protected]

元智資工

台科大資工所

資策會工程師

自由軟體推廣計畫

網站開發線上學習

資策會講師

行動開發學院

資策會課程經理

資料科學人工智慧

2

Page 3: 資料科學的第一堂課 Data Science Orientation

資策會 IT Training Center

² 最新科技進修Ø 在職夜間假日進修Ø 轉職全天養成班

² 資訊技術充電站

Ø 國際技術趨勢

Ø 職場必備能力

Ø 基本資訊技能

http://taipei.iiiedu.org.tw/3

Page 4: 資料科學的第一堂課 Data Science Orientation

未來之星 – 菁英培育計畫• 台灣大學• 中山大學• 中央大學• 元智大學• 金門大學• 東華大學• 暨南大學• 長榮大學• 逢甲大學• 。。。

http://elite.iiiedu.org.tw/4

Page 5: 資料科學的第一堂課 Data Science Orientation

如何加入學習的行列?

1. 在「資策會線上學習網」上選修課程2. 參加「未來之星菁英培育」校園巡迴講座3. 上FB社團版「大學生的資訊充電站」討論

https://www.facebook.com/groups/846979765403349/

openedx.iiiedu.org.tw

5

Page 6: 資料科學的第一堂課 Data Science Orientation

Microsoft Professional Program

6

Page 7: 資料科學的第一堂課 Data Science Orientation

Microsoft Professional Program

DataScience

• T-SQL• Excel• PowerBI• Python• R• AzureMachineLearning• HDInsight• Spark

BigData

• AzureDataLake• Hadoop• HDInsight• Spark• AzureDataFactory• AzureStreamAnalytics

Front-endWebDevelopment

• HTML• CSS• JavaScript• Angular• jQuery• DevOps

https://academy.microsoft.com7

Page 8: 資料科學的第一堂課 Data Science Orientation

資料科學 -> 大數據 -> 人工智慧

1.依工作專業需求規劃2.搭配 Hands-on lab 和實務專題3.完成課程可加購數位認證(非必要)4.擁抱開源,適用於不同平台的資料科學技能

https://technews.tw/2017/09/04/microsoft-tmu-ai-plan/8

Page 9: 資料科學的第一堂課 Data Science Orientation

IT 技術集大成

網站開發 APP開發語音助理Chatbot

資料科學 巨量資料 智慧系統

AI

人工智慧

9

Page 10: 資料科學的第一堂課 Data Science Orientation

推廣策略

• 未來之星-菁英培育計畫校園講座 elite.iiiedu.org.tw

大專在校學生

• 線上開放式課程 openedx.iiiedu.org.tw

一般社會大眾

• 國際菁英俱樂部-資料科學家 mobiledev.tw/dma777

在職人士進修

• AI Engineer 應用開發就業養成班 taipei.iiiedu.org.tw/training/aien.html

求職人士轉業

10

Page 11: 資料科學的第一堂課 Data Science Orientation

微軟x資策會 資料科學認證課程

11

https://www.bnext.com.tw/article/44337/microsoft-team-up-with-iii-to-cultivate-data-scientist-in-taiwan

Page 12: 資料科學的第一堂課 Data Science Orientation

TVBS 報導

12

Page 13: 資料科學的第一堂課 Data Science Orientation

微軟專業學程 - 資料科學

http://taipei.iiiedu.org.tw/mpp-ds/13

Page 14: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

FUNDAMENTALS COREDATASCIENCE APPLIEDDATASCIENCE

MOC20-761:QueryingDatawithTransact-SQL

Course10989A:AnalyzingDatawithPowerBI

EXAM70-761:QueryingDatawithTransact-SQL

70-778: AnalyzingDatawithPowerBI

70-773:AnalyzingBigDatawithMicrosoftR

70-779:AnalyzingDatawithExcel

OPENEDX

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

14

Page 15: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱 Data Science Orientation 資料科學導論

時數 每週 2 ~ 4 小時、共 6 週

目標了解資料科學的範疇,如何透過分析、視覺化工具、統計學等知識與工具,揭露資料背後的秘密。

15

Page 16: 資料科學的第一堂課 Data Science Orientation

模組

• 課程簡介• Module1:修課說明以及資料科學家訪談• Module2:資料分析導論• Module3:統計學簡介• Lab:使用Excel探索資料

16

Page 17: 資料科學的第一堂課 Data Science Orientation

專家認為應具備的能力• 統計學、數學• 程式語言

– R、Python

• 視覺化工具呈現與講解能力– Power BI, Tableau, Qlik, Excel

• 建模技術、彙整工具– Azure machine learning, Spark

17

Page 18: 資料科學的第一堂課 Data Science Orientation

1. 了解問題Ø 探究領域知識

2. 了解資料Ø 向資料提供者發問Ø 仔細觀察資料Ø 保持好奇心與熱情

3. 採用適當的方法解決問題Ø 學習+經驗+嘗試

資料科學家研究過程

18

Page 19: 資料科學的第一堂課 Data Science Orientation

Working with Data in Excel

l 匯入資料方式Ø 文字檔

Ø 資料庫

Ø …

l 資料欄位型別確認Ø 標頭

Ø 屬性

Ø 分隔

l 新增欄位(Sales、Weekday、Revenue)l 資料整理

Ø 刪除重覆資料

Ø 缺失值

19

Page 20: 資料科學的第一堂課 Data Science Orientation

Exploring Data in Excel

l 設定格式化的條件

Ø 資料橫條(Data Bars)

Ø 色階(Color Scale)

Ø 圖示(Icon Set)

Ø 頂端底端規則(Top10、Button10)

l 插入圖表

Ø 折線圖(High/Low Points)

Ø 直條圖

20

Page 21: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱 Querying with Transact-SQL資料庫概論 – 使用 T-SQL

時數 每週 4 ~ 5 小時、共 6 週

目標了解資料庫的語法,從第一個SELECT指令開始學起,到能實作常見的資料庫操作邏輯在MS SQL Server或Azure SQL 資料庫

21

Page 22: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱Analyzing and Visualizing Data with Excel

資料分析與視覺化 – 使用 Excel

時數 每週 2 ~ 4 小時、共 6 週

目標使用Excel來分析前所未有的大量資料,運用更好的視覺化方式與穩健的商業邏輯,並知道如何從各種來源進行資料匯入。

22

Page 23: 資料科學的第一堂課 Data Science Orientation

Excel 2016

23

Page 24: 資料科學的第一堂課 Data Science Orientation

Excel 2016 各平台比較

24

Page 25: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱Analyzing and Visualizing Data with Power BI

資料分析與視覺化 – 使用 Power BI

時數 每週 2 ~ 4 小時、共 6 週

目標學習如何透過Power BI將你的資料視覺化,了解如何匯入資料,並能發佈報告以及如何建立跨平台均可使用的Dashboard

25

Page 26: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱Essential Statistics for Data Analysis using Excel

資料分析會用到的統計學 – 使用 Excel

時數 每週 2 ~ 4 小時、共 6 週

目標 學習如何透過基礎的統計與機率,運用Excel來實作資料分析與資料科學基礎。

26

Page 27: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱Introduction to R for Data Science資料科學會用到的R語言 - 導論

時數 每週 2 小時、共 4 週

目標學習資料科學專家常用的R語言,從基礎語法、變數與基本運算開始,接著來了解R語言的資料結構如向量、矩陣與清單等。

27

Page 28: 資料科學的第一堂課 Data Science Orientation

DataCamp

https://campus.datacamp.com/courses/introduction-to-r-for-data-science-edx/28

Page 29: 資料科學的第一堂課 Data Science Orientation

R語言練習

http://mobiledev.tw/languager/29

Page 30: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱Introduction to Python for Data Science

資料科學會用到的Python語言 - 導論

時數 每週 2~4 小時、共 6 週

目標學習Python語言,從簡單的運算、變數與資料結構,再到函數、流程控制,並開始能用真實的資料來進行視覺化。

30

Page 31: 資料科學的第一堂課 Data Science Orientation

模組與學習目標1. Python語法基礎

– 了解基本語法、變數與型態2. List 資料結構

– 建立與維護一個常見的Python List3. 函數與套件

– 了解如何使用函數、匯入套件4. Plotting with Matplotlib

– 使用真實資料來繪製圖型5. 流程控制與Pandas

– 使用控制流程以及了解Pandas data frame31

Page 32: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱 Data Science Essentials資料科學精要

時數 每週 3~4 小時、共 6 週

目標

了解資料科學的運作中,必備的關鍵概念與技術,包含統計分析、資料清理與轉換、R或Python的資料視覺化,以及Azure機器學習。

32

Page 33: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱 Principles of Machine Learning機器學習準則

時數 每週 3~4 小時、共 6 週

目標 學習如何建立、評估與最佳化機器學習模型,包含分類、回歸、叢集與推薦。

33

Page 34: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱 Programming with R for Data Science資料科學的應用 – 使用R語言

時數 每週 4~8 小時、共 6 週

目標 運用R語言的資料結構與語法,將檔案送至雲端資料庫,並轉換成你所需要的樣貌。

34

Page 35: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱Programming with Python for Data Science

資料科學的應用 – 使用Python

時數 每週 3~4 小時、共 6 週

目標使用Python來實作知名的資料掘礦模型,來獲取資料背後的秘密,並了解如何進行資料視覺化、叢集與分類等任務。

35

Page 36: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱Applied Machine Learning

機器學習應用

時數 每週 3~4 小時、共 6 週

目標學習如何運用機器學習,來解決常見的預測問題,如文字分析、空間資料分析、影像處理與時間序列預測等。

36

Page 37: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱Implementing Predictive Solutions with

Spark in HDInsight在HDInsight中使用Spark實作預測型解決方案

時數 每週 4 小時、共 6 週

目標

學習如何運用Spark在微軟Azure HDInsight中建立預測分析與機器學習的解決方案。了解如何進行資料清理與轉換,並能建立機器學習模型。

37

Page 38: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱 Developing Intelligent Apps and Bots智慧應用與機器人開發

時數 每週 4 小時、共 6 週

目標 了解如何透過機器學習來開發智慧應用,與使用者有著超乎想像的連結關係。

38

Page 39: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱 Analyzing Big Data with Microsoft R Server巨量資料分析 – 使用微軟R Server

時數 每週 4 小時、共 4 週

目標 了解如何在微軟R Server上使用R語言,來分析大量的資料集。

39

Page 40: 資料科學的第一堂課 Data Science Orientation

PROGRAMMINGWITHPYTHONFORDATASCIENCE

PROGRAMMINGWITHRFORDATA

SCIENCE

APPLIEDMACHINELEARNING

DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS

IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN

HDINSIGHT

CORE DATASCIENCE

資料科學核心FUNDAMENTALS

基礎課程

APPLIEDDATA SCIENCE

應用資料科學

ANALYZING&VISUALIZINGDATAWITHPOWERBI

QUERYINGDATAWITHTRANSACT-

SQL

DATASCIENCEORIENTATION

ANALYZINGANDVISUALIZINGDATA

WITHEXCEL

PRINCIPLESOFMACHINELEARNING

EssentialStatisticsforDataAnalysis

usingExcel

INTRODUCTIONTORFORDATA

SCIENCE

INTRODUCTIONTOPYTHONFORDATASCIENCE

DATASCIENCEESSENTIALS

CORTANACOMPETITION

PROJECT專案

Microsoft Professional Program

ANALYZINGBIGDATAWITHMICROSOFTR

SERVER

DATA SCIENCE CHALLENGE

名稱 Data Science Professional Project資料科學實際案例實作

時數 每週 3~4 小時、共 4 週

目標利用這一系列的學習,來解決一個真實世界的資料科學問題。你必須開發出一套機器學習的解決方案,經由測試來決定最終分數。

40

Page 41: 資料科學的第一堂課 Data Science Orientation

課程在哪裡openedx.iiiedu.org.tw

41

Page 42: 資料科學的第一堂課 Data Science Orientation

裡面有什麼?• 課程影片• 階段性測驗

– 選擇題、填充題

• 實作Lab– 實作後回填結果

• 期末測驗– 限時測驗

42

Page 43: 資料科學的第一堂課 Data Science Orientation

註冊帳號 – 請使用學校email

43

Page 44: 資料科學的第一堂課 Data Science Orientation

設定密碼 – 超過八碼• 密碼原則:英文大小寫 + 數字 + 符號

44

Page 45: 資料科學的第一堂課 Data Science Orientation

如何取得每個科目的認證?1. 完成要求

– 試題、作業、問卷達到該課程標準(通常為 70%)2. 購買序號

– 透過資策會-資訊技術訓練中心購買證照申請序號(不定期優惠)3. 取得證書

– 回到課程網站,輸入序號,取得證書

45

Page 46: 資料科學的第一堂課 Data Science Orientation

購買證照序號• 付款方式

– 信用卡 / 匯款 / 現金– 台北市復興南路一段390號2樓

• 價格– 原價台幣NT$3,200– 不定期優惠

https://www.slideshare.net/ryan/xopenedxiiieduorgtw46

Page 47: 資料科學的第一堂課 Data Science Orientation

Data science

47

Page 48: 資料科學的第一堂課 Data Science Orientation

資料科學家2012年哈佛商業評論資料科學家:21世紀最性感的職業

2015人力資源點評網Glassdoor調查工作生活兼具薪水又高,資料科學家榮登最夢幻工作

工作生活平衡度排名前 25職業薪資對照表(Source:Glassdoor)

「用資料解決真實問題的人」

48

Page 49: 資料科學的第一堂課 Data Science Orientation

資料分析5 個關鍵職務

資料來源:104資訊科技

(imagesource:managertoday)

49

Page 50: 資料科學的第一堂課 Data Science Orientation

數據科學家、數據工程師、軟體工程師

https://read01.com/g8mQoO.html50

Page 51: 資料科學的第一堂課 Data Science Orientation

資料科學的迷思• 資料科學是門新學問?

– 學術界已經使用數十年,並不是甚麼新領域• 資料科學會計算出好的結果?

– 資料科學不是魔術,你自己都不知道問題與如何解決時,資料科學是很難跑出好結果的

• 使用大數據的解決方案比較好?– 解決方案的好壞與否取決於其解決問題的全

面性和效率。並沒有用大數據建置的解決方案就是好方案的說法。

51

Page 52: 資料科學的第一堂課 Data Science Orientation

SchuttR,O'NeilC(2014)

資料科學家做哪些事?

52

Page 53: 資料科學的第一堂課 Data Science Orientation

文字探勘流程

Data Source

Data Storage

Data Pre-processing

Data Analysis

· 使用爬蟲程式抓取想分析的資料

· 將取得的資料儲存於分散式檔案系統

· 使用元件:Solr

· 將資料去除特殊符號以及不必要的URL

· 使用元件:Spark、Pandas

· 將資料做TFIDF計算每個字詞的權重

· 使用元件:Spark、Scikit-learn

Data visualization · 將資料做分析並產出預測結果

· 使用元件:Tableau、文字雲服務

Data Processing · 將前處理後的字詞作分詞

· 使用元件:Jieba

Source : 資策會系統所巨資中心53

Page 54: 資料科學的第一堂課 Data Science Orientation

資料探索實例分享-信用卡PIN碼

Source:http://datagenetics.com/blog/september32012/index.html54

Page 55: 資料科學的第一堂課 Data Science Orientation

基本統計PIN Freq PIN Freq#1 1234 10.71% #9980 8557 0.00%#2 1111 6.02% #9981 9047 0.00%#3 0000 1.88% #9982 8438 0.00%#4 1212 1.20% #9983 0439 0.00%#5 7777 0.75% #9984 9539 0.00%#6 1004 0.62% #9985 8196 0.00%#7 2000 0.61% #9986 7063 0.00%#8 4444 0.53% #9987 6093 0.00%#9 2222 0.52% #9988 6827 0.00%#10 6969 0.51% #9989 7394 0.00%#11 9999 0.45% #9990 0859 0.00%#12 3333 0.42% #9991 8957 0.00%#13 5555 0.40% #9992 9480 0.00%#14 6666 0.39% #9993 6793 0.00%#15 1122 0.37% #9994 8398 0.00%#16 1313 0.30% #9995 0738 0.00%#17 8888 0.30% #9996 7637 0.00%#18 4321 0.29% #9997 6835 0.00%#19 2001 0.29% #9998 9629 0.00%#20 1010 0.29% #9999 8093 0.00%

⋯⋯ ⋯⋯ #10000 8068 0.00%

「2580」名列第22?

不意外!1234,1111,0000,1212,7777

55

Page 56: 資料科學的第一堂課 Data Science Orientation

資料視覺化

不到五百組就把一半密碼都破解了 (全部 10000組)

CumulativeFrequency

56

Page 57: 資料科學的第一堂課 Data Science Orientation

資料視覺化CumulativeFrequency

人們偏好「19XX」系列?

57

Page 58: 資料科學的第一堂課 Data Science Orientation

資料視覺化

「195X」一直到「198X」的出現頻率比遠遠高過其他年份

58

Page 59: 資料科學的第一堂課 Data Science Orientation

資料視覺化-資料矩陣

00

99

0099

19

越偏白黃的顏色就是頻率越高的組合

偏紅黑色即是頻率低的組合

兩個一組重複

(如:1212,5454,..)17.8%!!

0987

2468

2345

4321

5678

7890

前兩位數 00~20後兩位數 00~30

前兩位數 10~12後兩位數 00~30

59

Page 60: 資料科學的第一堂課 Data Science Orientation

某新創公司的智慧商情分析系統利用監控攝影機,讓數字說話

Source :http://iknow.stpi.narl.org.tw/Post/Read.aspx?PostID=12747

• 人流統計• 櫥窗轉換率• 客人停留次數與平均

停留時間• 即時反應店內人數• 熱區分析• 動線分析• 自動天氣• 客層分析• 黑白名單• 即時遠端觀看• 結合POS

60

Page 61: 資料科學的第一堂課 Data Science Orientation

相關資訊• 微軟x資策會 - 資料科學家線上學習

– https://openedx.iiiedu.org.tw

• 未來之星 – 菁英培育計畫– http://elite.iiiedu.org.tw/

• FB社團 – 大學生的資訊充電站– https://www.facebook.com/groups/846979765403349/

• FB粉絲團 – 行動開發學院– https://www.facebook.com/mobiledev.tw/

61

Page 62: 資料科學的第一堂課 Data Science Orientation

敬請指教

Ryan ChungProgram R&D Manager

III IT Training [email protected]

62