資料科學的第一堂課 data science orientation
TRANSCRIPT
微軟專業學程 - 資料科學資策會大專院校「未來之星 – 菁英培育」計畫
RyanChung IIIITTrainingCenter1
資策會 IT Training Center
² 最新科技進修Ø 在職夜間假日進修Ø 轉職全天養成班
² 資訊技術充電站
Ø 國際技術趨勢
Ø 職場必備能力
Ø 基本資訊技能
http://taipei.iiiedu.org.tw/3
未來之星 – 菁英培育計畫• 台灣大學• 中山大學• 中央大學• 元智大學• 金門大學• 東華大學• 暨南大學• 長榮大學• 逢甲大學• 。。。
http://elite.iiiedu.org.tw/4
如何加入學習的行列?
1. 在「資策會線上學習網」上選修課程2. 參加「未來之星菁英培育」校園巡迴講座3. 上FB社團版「大學生的資訊充電站」討論
https://www.facebook.com/groups/846979765403349/
openedx.iiiedu.org.tw
5
Microsoft Professional Program
6
Microsoft Professional Program
DataScience
• T-SQL• Excel• PowerBI• Python• R• AzureMachineLearning• HDInsight• Spark
BigData
• AzureDataLake• Hadoop• HDInsight• Spark• AzureDataFactory• AzureStreamAnalytics
Front-endWebDevelopment
• HTML• CSS• JavaScript• Angular• jQuery• DevOps
https://academy.microsoft.com7
資料科學 -> 大數據 -> 人工智慧
1.依工作專業需求規劃2.搭配 Hands-on lab 和實務專題3.完成課程可加購數位認證(非必要)4.擁抱開源,適用於不同平台的資料科學技能
https://technews.tw/2017/09/04/microsoft-tmu-ai-plan/8
IT 技術集大成
網站開發 APP開發語音助理Chatbot
資料科學 巨量資料 智慧系統
AI
人工智慧
9
推廣策略
• 未來之星-菁英培育計畫校園講座 elite.iiiedu.org.tw
大專在校學生
• 線上開放式課程 openedx.iiiedu.org.tw
一般社會大眾
• 國際菁英俱樂部-資料科學家 mobiledev.tw/dma777
在職人士進修
• AI Engineer 應用開發就業養成班 taipei.iiiedu.org.tw/training/aien.html
求職人士轉業
10
微軟x資策會 資料科學認證課程
11
https://www.bnext.com.tw/article/44337/microsoft-team-up-with-iii-to-cultivate-data-scientist-in-taiwan
TVBS 報導
12
微軟專業學程 - 資料科學
http://taipei.iiiedu.org.tw/mpp-ds/13
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
FUNDAMENTALS COREDATASCIENCE APPLIEDDATASCIENCE
MOC20-761:QueryingDatawithTransact-SQL
Course10989A:AnalyzingDatawithPowerBI
EXAM70-761:QueryingDatawithTransact-SQL
70-778: AnalyzingDatawithPowerBI
70-773:AnalyzingBigDatawithMicrosoftR
70-779:AnalyzingDatawithExcel
OPENEDX
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
14
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱 Data Science Orientation 資料科學導論
時數 每週 2 ~ 4 小時、共 6 週
目標了解資料科學的範疇,如何透過分析、視覺化工具、統計學等知識與工具,揭露資料背後的秘密。
15
模組
• 課程簡介• Module1:修課說明以及資料科學家訪談• Module2:資料分析導論• Module3:統計學簡介• Lab:使用Excel探索資料
16
專家認為應具備的能力• 統計學、數學• 程式語言
– R、Python
• 視覺化工具呈現與講解能力– Power BI, Tableau, Qlik, Excel
• 建模技術、彙整工具– Azure machine learning, Spark
17
1. 了解問題Ø 探究領域知識
2. 了解資料Ø 向資料提供者發問Ø 仔細觀察資料Ø 保持好奇心與熱情
3. 採用適當的方法解決問題Ø 學習+經驗+嘗試
資料科學家研究過程
18
Working with Data in Excel
l 匯入資料方式Ø 文字檔
Ø 資料庫
Ø …
l 資料欄位型別確認Ø 標頭
Ø 屬性
Ø 分隔
l 新增欄位(Sales、Weekday、Revenue)l 資料整理
Ø 刪除重覆資料
Ø 缺失值
19
Exploring Data in Excel
l 設定格式化的條件
Ø 資料橫條(Data Bars)
Ø 色階(Color Scale)
Ø 圖示(Icon Set)
Ø 頂端底端規則(Top10、Button10)
l 插入圖表
Ø 折線圖(High/Low Points)
Ø 直條圖
20
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱 Querying with Transact-SQL資料庫概論 – 使用 T-SQL
時數 每週 4 ~ 5 小時、共 6 週
目標了解資料庫的語法,從第一個SELECT指令開始學起,到能實作常見的資料庫操作邏輯在MS SQL Server或Azure SQL 資料庫
21
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱Analyzing and Visualizing Data with Excel
資料分析與視覺化 – 使用 Excel
時數 每週 2 ~ 4 小時、共 6 週
目標使用Excel來分析前所未有的大量資料,運用更好的視覺化方式與穩健的商業邏輯,並知道如何從各種來源進行資料匯入。
22
Excel 2016
23
Excel 2016 各平台比較
24
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱Analyzing and Visualizing Data with Power BI
資料分析與視覺化 – 使用 Power BI
時數 每週 2 ~ 4 小時、共 6 週
目標學習如何透過Power BI將你的資料視覺化,了解如何匯入資料,並能發佈報告以及如何建立跨平台均可使用的Dashboard
25
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱Essential Statistics for Data Analysis using Excel
資料分析會用到的統計學 – 使用 Excel
時數 每週 2 ~ 4 小時、共 6 週
目標 學習如何透過基礎的統計與機率,運用Excel來實作資料分析與資料科學基礎。
26
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱Introduction to R for Data Science資料科學會用到的R語言 - 導論
時數 每週 2 小時、共 4 週
目標學習資料科學專家常用的R語言,從基礎語法、變數與基本運算開始,接著來了解R語言的資料結構如向量、矩陣與清單等。
27
DataCamp
https://campus.datacamp.com/courses/introduction-to-r-for-data-science-edx/28
R語言練習
http://mobiledev.tw/languager/29
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱Introduction to Python for Data Science
資料科學會用到的Python語言 - 導論
時數 每週 2~4 小時、共 6 週
目標學習Python語言,從簡單的運算、變數與資料結構,再到函數、流程控制,並開始能用真實的資料來進行視覺化。
30
模組與學習目標1. Python語法基礎
– 了解基本語法、變數與型態2. List 資料結構
– 建立與維護一個常見的Python List3. 函數與套件
– 了解如何使用函數、匯入套件4. Plotting with Matplotlib
– 使用真實資料來繪製圖型5. 流程控制與Pandas
– 使用控制流程以及了解Pandas data frame31
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱 Data Science Essentials資料科學精要
時數 每週 3~4 小時、共 6 週
目標
了解資料科學的運作中,必備的關鍵概念與技術,包含統計分析、資料清理與轉換、R或Python的資料視覺化,以及Azure機器學習。
32
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱 Principles of Machine Learning機器學習準則
時數 每週 3~4 小時、共 6 週
目標 學習如何建立、評估與最佳化機器學習模型,包含分類、回歸、叢集與推薦。
33
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱 Programming with R for Data Science資料科學的應用 – 使用R語言
時數 每週 4~8 小時、共 6 週
目標 運用R語言的資料結構與語法,將檔案送至雲端資料庫,並轉換成你所需要的樣貌。
34
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱Programming with Python for Data Science
資料科學的應用 – 使用Python
時數 每週 3~4 小時、共 6 週
目標使用Python來實作知名的資料掘礦模型,來獲取資料背後的秘密,並了解如何進行資料視覺化、叢集與分類等任務。
35
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱Applied Machine Learning
機器學習應用
時數 每週 3~4 小時、共 6 週
目標學習如何運用機器學習,來解決常見的預測問題,如文字分析、空間資料分析、影像處理與時間序列預測等。
36
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱Implementing Predictive Solutions with
Spark in HDInsight在HDInsight中使用Spark實作預測型解決方案
時數 每週 4 小時、共 6 週
目標
學習如何運用Spark在微軟Azure HDInsight中建立預測分析與機器學習的解決方案。了解如何進行資料清理與轉換,並能建立機器學習模型。
37
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱 Developing Intelligent Apps and Bots智慧應用與機器人開發
時數 每週 4 小時、共 6 週
目標 了解如何透過機器學習來開發智慧應用,與使用者有著超乎想像的連結關係。
38
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱 Analyzing Big Data with Microsoft R Server巨量資料分析 – 使用微軟R Server
時數 每週 4 小時、共 4 週
目標 了解如何在微軟R Server上使用R語言,來分析大量的資料集。
39
PROGRAMMINGWITHPYTHONFORDATASCIENCE
PROGRAMMINGWITHRFORDATA
SCIENCE
APPLIEDMACHINELEARNING
DEVELOPINGINTELLIGENTAPPLICATIONSANDBOTS
IMPLEMENTINGPREDICTIVESOLUTIONSWITHSPARKIN
HDINSIGHT
CORE DATASCIENCE
資料科學核心FUNDAMENTALS
基礎課程
APPLIEDDATA SCIENCE
應用資料科學
ANALYZING&VISUALIZINGDATAWITHPOWERBI
QUERYINGDATAWITHTRANSACT-
SQL
DATASCIENCEORIENTATION
ANALYZINGANDVISUALIZINGDATA
WITHEXCEL
PRINCIPLESOFMACHINELEARNING
EssentialStatisticsforDataAnalysis
usingExcel
INTRODUCTIONTORFORDATA
SCIENCE
INTRODUCTIONTOPYTHONFORDATASCIENCE
DATASCIENCEESSENTIALS
CORTANACOMPETITION
PROJECT專案
Microsoft Professional Program
ANALYZINGBIGDATAWITHMICROSOFTR
SERVER
DATA SCIENCE CHALLENGE
名稱 Data Science Professional Project資料科學實際案例實作
時數 每週 3~4 小時、共 4 週
目標利用這一系列的學習,來解決一個真實世界的資料科學問題。你必須開發出一套機器學習的解決方案,經由測試來決定最終分數。
40
課程在哪裡openedx.iiiedu.org.tw
41
裡面有什麼?• 課程影片• 階段性測驗
– 選擇題、填充題
• 實作Lab– 實作後回填結果
• 期末測驗– 限時測驗
42
註冊帳號 – 請使用學校email
43
設定密碼 – 超過八碼• 密碼原則:英文大小寫 + 數字 + 符號
44
如何取得每個科目的認證?1. 完成要求
– 試題、作業、問卷達到該課程標準(通常為 70%)2. 購買序號
– 透過資策會-資訊技術訓練中心購買證照申請序號(不定期優惠)3. 取得證書
– 回到課程網站,輸入序號,取得證書
45
購買證照序號• 付款方式
– 信用卡 / 匯款 / 現金– 台北市復興南路一段390號2樓
• 價格– 原價台幣NT$3,200– 不定期優惠
https://www.slideshare.net/ryan/xopenedxiiieduorgtw46
Data science
47
資料科學家2012年哈佛商業評論資料科學家:21世紀最性感的職業
2015人力資源點評網Glassdoor調查工作生活兼具薪水又高,資料科學家榮登最夢幻工作
工作生活平衡度排名前 25職業薪資對照表(Source:Glassdoor)
「用資料解決真實問題的人」
48
資料分析5 個關鍵職務
資料來源:104資訊科技
(imagesource:managertoday)
49
數據科學家、數據工程師、軟體工程師
https://read01.com/g8mQoO.html50
資料科學的迷思• 資料科學是門新學問?
– 學術界已經使用數十年,並不是甚麼新領域• 資料科學會計算出好的結果?
– 資料科學不是魔術,你自己都不知道問題與如何解決時,資料科學是很難跑出好結果的
• 使用大數據的解決方案比較好?– 解決方案的好壞與否取決於其解決問題的全
面性和效率。並沒有用大數據建置的解決方案就是好方案的說法。
51
SchuttR,O'NeilC(2014)
資料科學家做哪些事?
52
文字探勘流程
Data Source
Data Storage
Data Pre-processing
Data Analysis
· 使用爬蟲程式抓取想分析的資料
· 將取得的資料儲存於分散式檔案系統
· 使用元件:Solr
· 將資料去除特殊符號以及不必要的URL
· 使用元件:Spark、Pandas
· 將資料做TFIDF計算每個字詞的權重
· 使用元件:Spark、Scikit-learn
Data visualization · 將資料做分析並產出預測結果
· 使用元件:Tableau、文字雲服務
Data Processing · 將前處理後的字詞作分詞
· 使用元件:Jieba
Source : 資策會系統所巨資中心53
資料探索實例分享-信用卡PIN碼
Source:http://datagenetics.com/blog/september32012/index.html54
基本統計PIN Freq PIN Freq#1 1234 10.71% #9980 8557 0.00%#2 1111 6.02% #9981 9047 0.00%#3 0000 1.88% #9982 8438 0.00%#4 1212 1.20% #9983 0439 0.00%#5 7777 0.75% #9984 9539 0.00%#6 1004 0.62% #9985 8196 0.00%#7 2000 0.61% #9986 7063 0.00%#8 4444 0.53% #9987 6093 0.00%#9 2222 0.52% #9988 6827 0.00%#10 6969 0.51% #9989 7394 0.00%#11 9999 0.45% #9990 0859 0.00%#12 3333 0.42% #9991 8957 0.00%#13 5555 0.40% #9992 9480 0.00%#14 6666 0.39% #9993 6793 0.00%#15 1122 0.37% #9994 8398 0.00%#16 1313 0.30% #9995 0738 0.00%#17 8888 0.30% #9996 7637 0.00%#18 4321 0.29% #9997 6835 0.00%#19 2001 0.29% #9998 9629 0.00%#20 1010 0.29% #9999 8093 0.00%
⋯⋯ ⋯⋯ #10000 8068 0.00%
「2580」名列第22?
不意外!1234,1111,0000,1212,7777
55
資料視覺化
不到五百組就把一半密碼都破解了 (全部 10000組)
CumulativeFrequency
56
資料視覺化CumulativeFrequency
人們偏好「19XX」系列?
57
資料視覺化
「195X」一直到「198X」的出現頻率比遠遠高過其他年份
58
資料視覺化-資料矩陣
00
99
0099
19
越偏白黃的顏色就是頻率越高的組合
偏紅黑色即是頻率低的組合
兩個一組重複
(如:1212,5454,..)17.8%!!
0987
2468
2345
4321
5678
7890
前兩位數 00~20後兩位數 00~30
前兩位數 10~12後兩位數 00~30
59
某新創公司的智慧商情分析系統利用監控攝影機,讓數字說話
Source :http://iknow.stpi.narl.org.tw/Post/Read.aspx?PostID=12747
• 人流統計• 櫥窗轉換率• 客人停留次數與平均
停留時間• 即時反應店內人數• 熱區分析• 動線分析• 自動天氣• 客層分析• 黑白名單• 即時遠端觀看• 結合POS
60
相關資訊• 微軟x資策會 - 資料科學家線上學習
– https://openedx.iiiedu.org.tw
• 未來之星 – 菁英培育計畫– http://elite.iiiedu.org.tw/
• FB社團 – 大學生的資訊充電站– https://www.facebook.com/groups/846979765403349/
• FB粉絲團 – 行動開發學院– https://www.facebook.com/mobiledev.tw/
61