Transcript
Page 1: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

機器學習與跨業應用展望

蔡孟儒 (Raymond)

資深協理

開發體驗暨平台推廣事業部

台灣微軟

https://blogs.msdn.microsoft.com/mengtsai/

Page 2: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

關於我…

• 建國中學、輔仁大學應用數學系、交通大學工業工程研究所。1999年於南加大取得 M.S. Degree in Computer Science 後,留美於一間新創公司的軟體工程師開始職涯,後歷任 US. Interactive Inc. 資深工程師、Sierra Systems 技術主管。

• 2005 返台並加入台灣微軟,目前擔任「開發體驗暨平台推廣事業部」資深協理;負責最新或未上市的微軟技術,於新創公司及學界的導入及應用。目前同時就讀台大 EMBA (104級)。

• 具多年協助大型企業及新創公司導入新一代技術平台之經驗,如Microsoft Azure 公有雲解決方案、企業搜尋解決方案、企業單一入口及 Windows Apps、Kinect、Windows 10、Azure 等。

Page 3: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

Agenda

• 什麼是機器學習?

• 機器學習應用情境

• 討論

Page 4: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 5: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

全世界的資料 – 2000 年以前,類比資料還多於數位

Page 6: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

2000~2005年,網路連結資料大幅成長

DATACENTERS (CLOUD)

PC / DEVICE

DIGITAL TAPE

DVD / BLU-RAY

CD

Page 7: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

今天,全球資料量每年以 40% 成長

CLOUD / IoT

PC / MOBILE

Page 8: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

10年後,絕大部份將為網路連結資料

CLOUD

MOBILE

Page 9: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 10: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 11: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 12: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 13: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 14: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 15: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 16: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

什麼是 Machine Learning?

機器學習並非新的觀念或技術。

超過三十年的時間裡,學術界及電腦科學家們已累積了機器學習之理論及技巧,並給予定義:

“The goal of machine learning is to program computers to use example data or past experience to solve a given problem.”

– Introduction to Machine Learning, 2nd Edition, MIT Press

“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E”

- Tom M. Mitchell, Chair of the Machine Learning Department at CMU

Page 17: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

以白話文來說的話…

「機器學習,可藉由電腦系統分析歷史資料,來預測未來趨勢和行為。」

重點是…?

重點即在於「預測」,若能預期事情將如何發展,企業或個人即能早期投資以開創新商機、或是迴避重大風險的發生。

• 預測使用者行為來調整商業行為

– 根據用戶喜好推薦商品

– 預測機器損壞的時間

• 分類

– 判斷信件是否為垃圾郵件

– 判斷客戶是否會續約

• 分群

– 社群網路區分性質相近的會員

– 精準廣告

18

Page 18: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

為何「機器學習」最近愈來愈紅?

• 早期要實作「機器學習」進行實務應用是相當昂貴的。不但需要高階的硬體設備及複雜的軟體環境,同時還需要深諳統計學、人工智慧等的資料科學家團隊,更遑論隨之而來的管理及作業成本。

• 但隨著公有雲服務讓計算機運算以及儲存成本大幅降低、科學家們持續發展出強固的各種演算法、再加上如 Azure ML 等易用工具的產生,將使用成本、學習成本及管理成本一併大幅下降。即是讓傳統上資源消耗甚巨的 Machine Learning 應用日漸火紅的主要原因。

19

Page 19: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

機器學習可作到哪幾種預測?

• 若以預期產出作區別的話:

– Classification (分類預測)

– Regression (迴歸分析)

– Clustering (分群)

– Density estimation

– Dimensionality Reduction

分類預測 (2-class)

分群 (3群)

迴歸分析 (線性)

http://en.wikipedia.org/wiki/Machine_learning

Page 20: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

微軟自己有在用 Machine Learning 嗎?

21

Page 21: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

照張狗的照片,辨別出是屬於哪個品種

22

(羅得西亞背脊犬)

https://www.youtube.com/watch?v=zOPIvC0MlA4#t=45

Page 22: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 23: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 25: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 26: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

了解你的資料• 針對預期產出,在資料中找出合適的特徵值作為學習之用

27

Page 27: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

找出資料的相關性更重要:啤酒 & 尿布

• 乓乒球桌的銷量 & 科技新創公司投資案

28

http://www.wsj.com/articles/is-the-tech-bubble-popping-ping-pong-offers-an-answer-1462286089

Page 28: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

人工智慧 vs. 機器學習過去人工智慧著重於模擬人類思維的邏輯模式。

近代的人工智慧,在機器學習以及今日電腦的高速計算能力與大量記憶體等優勢下,來協助解決原本需要人類智慧才能做到的問題。

情感溝通

創造思考

Page 29: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

如果你登上了鐵達尼號,生還機率多少?http://demos.datasciencedojo.com/demo/titanic/

Page 30: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

1. 你的資料

2. 預測模型

3. 預測結果

Page 31: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

https://studio.azureml.net/community/unpack?packageUri=https%3a%2f%2fstorage.azureml.net%2fdirectories%2fc8c02ed8f99841388a460a1df0a1b6d2&communityUri=https%3a%2f%2fgallery.azureml.net%2fDetails%2f01b2765fa75147ce99679e18482d280f

Page 33: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 34: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

資料分析的種類• Descriptive (描述性的):可以回答 “What happened?” 的問題,增加對資料的了解程度。

• Diagnostic (診斷性的):可以回答 “Why did it happen?” 的問題,通常用來找出事情發生或出錯的原因。

• Predictive (預測性的):可以回答 “What will happen?” 的問題,預測未來可能發生什麼事。

• Prescriptive (規範性的):可以回答 “What should I do?” 的問題,要模擬預測出某決策後的結果。

35

機器學習

Page 35: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

哪些問題,是適合讓 Machine Learning 解決的?

台灣大學資訊工程系林軒田老師:

• 若問題是需要我們設計一個非常複雜的系統來解決的話,那麼Machine Learning 即能提供另一種解法,而不需實際設計出這樣一個系統。

36

-當人們無法定義出所有可能的規則時 (比如要在火星上探險)、-當沒有簡單、甚或不完全的解法方案時 (如語音/視覺識別)、-需要超快速的判斷時 (如極短線股票交易)、-或是資料量大到人為經驗亦無法負荷的程度(如消費市場行銷策略)

Page 36: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

機器學習 in Finance – 應用類別

39

Financial Markets & etc. Retail Banking Insurance

即時 非即時/批次作業Duration

Market

Assets Price

Prediction

資產市值預估

Social

Network

Analysis

網軍分析Fraud

Detection

詐欺檢測

Risk Analysis

風險分析

Compliance

&

Regulatory

Reporting

Advertising

Campaign

Optimizatio

n

News

Analysis

新聞分析

Customer

Loyalty &

Marketing

Improving

operational

efficiencies

提升內部作業

Credit

Scoring

信用評比

Brand

Sentiment

Analysis

Personalize

d Product

Offering

Customer

Segmentation

客戶分群

Reference: http://0xcode.in/big-data-in-banking

Page 37: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

機器學習 in Finance- 應用方向及資料來源

40

C –(Classification 分類)

CA –(Cluster Analysis 分群)

LSA –(Latent Semantic Analysis 文本分析)

AD –(Anomaly Detection 異常偵測)

CF –(Collaborative Filtering 分類/分群)

詐欺檢測

信用評比

個人化產品

客戶忠誠及行銷

客戶分類

Page 38: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

應用案例:信用評比預測 (Credit Scoring)

• 有人要來申請貸款,銀行如何評估風險?

• 1,000 筆客戶歷史資料 (UC Irvine 提供),包含 22 個特徵值:帳戶餘額、信用紀錄、貸款目的、貸款金額、貸款時間、姓別、年紀…

41

Page 39: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

應用案例:信用評比預測 (Credit Scoring)

• 成效:透過 SVM 訓練模型達到 72.6% 準確率

42

Page 40: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

43

Page 41: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 42: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

類神經網路

45

Page 43: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

深度學習 vs. 機器學習Deep Learning vs. Machine Learning

1. 深度學習其實是機器學習的一種作法。

2. 深度學習是多層次的類神經網路。

“Deep learning carries out the machine learning process using an artificial

neural net that is composed of a number of levels arranged in a hierarchy.”

Page 44: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

深度學習基礎應用:辨視手寫阿拉伯數字

47

隱藏層 *2 w/ 節點數 200; 準確率 95% => 98.1%

隱藏層 *4 w/ 節點數 200; 準確率 98.1% => 99.7%

Page 45: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 46: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

AlphaGo 中加入了兩個深度神經網路 (Deep Learning)。首先評估大量的選點,再選擇落子範圍及機率。

同時結合蒙地卡羅樹狀搜尋,與以上兩個神經網路共同計算出勝率最佳之落子。

http://technews.tw/2016/01/30/google-alphago-2/

http://googleresearch.blogspot.tw/2016/01/alphago-mastering-

ancient-game-of-go.html

Page 47: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

新型態的決策樹

Decision Tree

決策樹Decision Jungle

決策叢林Decision Forest

決策森林

Page 48: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

K-means 分群演算法

51

假設我們最後想分成三群 (k=3)

Step 1. 隨機選 3 點:

Page 49: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

K-means 分群演算法

52

Step 2. 其他所有的點,與這 3 點的「距離」最小者,視為同一群

Page 50: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

K-means 分群演算法

53

Step 3. 各別找出這三群的中心點,設為最新的 3 個點

重複 Step 2 & 3~

Page 51: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 52: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 53: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 54: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望
Page 55: 20160525 跨界新識力沙龍論壇 機器學習與跨業應用展望

Top Related