mixtaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

53
從資料科學到人工智慧 發揮大數據的價值,別忽略機器學習及人工智慧 陳昇瑋 台灣資料科學協會理事長 中央研究院資訊科學研究所研究員

Upload: mix-taiwan

Post on 07-Apr-2017

268 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

從資料科學到人工智慧 發揮大數據的價值,別忽略機器學習及人工智慧

陳昇瑋

台灣資料科學協會理事長

中央研究院資訊科學研究所研究員

Page 2: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Page 3: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Page 4: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

3 Major Trends of Data Science

Big Data Deep

Learning Data

Discovery

Page 5: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

3 Major Trends of Data Science (#1)

#1. Big Data

Page 6: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

3V Explained

Page 7: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Collecting & storing data is much cheaper now

Massive number of online users

Open data from governments

New types and wide deployed sensors

Why Big Data Arises?

Page 8: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Google patent covers using vehicle sensors to detect road quality, improve

Maps

11

Page 9: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Computer Vision Matters

Safety Health Security

Comfort Access Fun

(Slide Credit: Jia-Bin Huang)

Page 14: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Page 16: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

22

Page 17: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

3 Major Trends of Data Science (#2)

#2. Deep Learning

Page 18: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Machine Learning

24

A field of study that gives computers the ability to learn without being explicitly programmed.

Find the common patterns from the left waveforms

It seems impossible to write a program for speech recognition

你好 你好

你好 你好

You quickly get lost in the exceptions and special cases.

(Slide Credit: Hung-Yi Lee)

Page 19: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Let the machine learn by itself

你好

大家好

人帥真好

You said “你好”

A large amount of audio data

You only have to write the program for learning

Learn how to do speech

recognition

(Slide Credit: Hung-Yi Lee)

Page 20: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Types of Machine Learning Methods

26

Machine Learning

Supervised Unsupervised Reinforcement

Task driven (Regression /

Classification)

Data driven (Clustering)

Learning by reacting to feedback

Page 21: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Big data vs. Machine learning vs. AI

Big data: 3Vs

Machine learning: “A field of study that gives computers

the ability to learn without being explicitly programmed"

Artificial intelligence

Turing test

32

Page 22: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Page 23: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧 34

Page 24: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧 35

Page 25: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧 36

Page 26: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧 37

Page 27: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

A set of function

Define the goodness of a function

Pick the best

function f*

Step 1: Network Structure

Step 2: Learning

Target

Step 3: Learn!

Three Steps for Deep Learning

• Speech Recognition

• Handwritten Recognition

• Playing Go

• Dialogue System

*f

*f

*f

*f

“2”

“你好”

“5-5”

“Hello” “Hi” (what the user said) (system response)

(step)

(Slide Credit: Hung-Yi Lee)

Page 28: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Human Brains

(Slide Credit: Hung-Yi Lee)

Page 29: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Artificial Neural Network

z

z

z

z

Different connections leads to different network structured

Weights and biases are network parameters 𝜃

Each neurons can have different values of weights and biases.

(Slide Credit: Hung-Yi Lee)

Page 30: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Output Layer Hidden

Layers

Input Layer

Fully Connect Feedforward Network

Input Output

1x

2x

Layer 1

……

Nx

……

Layer 2

……

Layer L

……

……

……

……

……

y1

y2

yM

Deep means many hidden layers

neuron

(Slide Credit: Hung-Yi Lee)

Page 31: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

Ultra Deep Network

8 layers

19 layers

22 layers

AlexNet (2012) VGG (2014) GoogleNet (2014)

16.4%

7.3% 6.7%

http://cs231n.stanford.edu/slides/winter1516_lecture8.pdf

(Slide Credit: Hung-Yi Lee)

Page 32: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

Ultra Deep Network

AlexNet (2012)

VGG (2014)

GoogleNet (2014)

152 layers

3.57%

Residual Net (2015)

Taipei 101

101 layers

16.4% 7.3% 6.7%

This ultra deep network have special structure.

(Lecture IV)

(Slide Credit: Hung-Yi Lee)

Page 33: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Visual Question Answering

source: http://visualqa.org/

(Slide Credit: Hung-Yi Lee)

Page 35: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Word Vector

Source: http://www.slideshare.net/hustwj/cikm-keynotenov2014

(Slide Credit: Hung-Yi Lee)

Page 36: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Word Vector

Characteristics

Solving analogies

𝑉 ℎ𝑜𝑡𝑡𝑒𝑟 − 𝑉 ℎ𝑜𝑡 ≈ 𝑉 𝑏𝑖𝑔𝑔𝑒𝑟 − 𝑉 𝑏𝑖𝑔

𝑉 𝑅𝑜𝑚𝑒 − 𝑉 𝐼𝑡𝑎𝑙𝑦 ≈ 𝑉 𝐵𝑒𝑟𝑙𝑖𝑛 − 𝑉 𝐺𝑒𝑟𝑚𝑎𝑛𝑦

𝑉 𝑘𝑖𝑛𝑔 − 𝑉 𝑞𝑢𝑒𝑒𝑛 ≈ 𝑉 𝑢𝑛𝑐𝑙𝑒 − 𝑉 𝑎𝑢𝑛𝑡

Rome : Italy = Berlin : ?

𝑉 𝐺𝑒𝑟𝑚𝑎𝑛𝑦 ≈ 𝑉 𝐵𝑒𝑟𝑙𝑖𝑛 − 𝑉 𝑅𝑜𝑚𝑒 + 𝑉 𝐼𝑡𝑎𝑙𝑦

Compute 𝑉 𝐵𝑒𝑟𝑙𝑖𝑛 − 𝑉 𝑅𝑜𝑚𝑒 + 𝑉 𝐼𝑡𝑎𝑙𝑦

Find the word w with the closest V(w)

(Slide Credit: Hung-Yi Lee)

Page 37: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Machine Reading

Machine learn the meaning of words from reading a lot

of documents without supervision

Machine learns to understand 鄉民用語 via reading the posts on PTT

(Slide Credit: Hung-Yi Lee)

Page 38: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧 49

Page 39: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

如果你想 “深度學習 深度學習”

“Neural Networks and Deep Learning”

written by Michael Nielsen

http://neuralnetworksanddeeplearning.com/

“Deep Learning”

Written by Yoshua Bengio, Ian J. Goodfellow and Aaron Courville

http://www.iro.umontreal.ca/~bengioy/dlbook/

Course: Machine learning and having it deep and structured

http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLSD15_2.html

(Slide Credit: Hung-Yi Lee)

Page 40: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

New types of data (high variety)

Advances in machine learning and data mining techniques

3 Major Trends of Data Science (#3)

Q: 如何提高利潤?

#3. Data Discovery

提升產品品質? 加強包裝?

加強行銷? 降低生產成本?

提升研發效率? 提升行政效率?

提升回頭率? 技術水準?

Page 41: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Data Science vs. Big Data

Data Science is a superset of Big Data.

However, the rise of Big Data draws people’s

attention to Data Science.

55

Data Science

Big Data

Machine Learning

Data Mining

Deep Learning

Page 42: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Big data (small data also do)

Statistics / machine learning

Data analysis languages (e.g., R, Python)

Data infrastructure (e.g., NoSQL, Hadoop, Spark)

Data visualization

Data Science is More Than …

Page 43: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Data Visualization vs. Data Analysis

57

Visualization is the act or process of interpreting in visual terms or of putting into visible form.

Analysis indicates a careful study of something to learn about its parts, what they do, and how they are related to each other.

—Merriam-Webster's Dictionary

Page 44: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

維護市民安全! 北市開放犯罪地圖

58

Page 45: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

定義空間尺度與問題

以長寬各 500 公尺的方格為單位

共 1081 個方格

剔除無建築物之方格後 823 個

犯罪機率

= 累計犯罪紀錄/建築物數量

共 396 個方格內有犯罪紀錄

藉由每方格內的基礎建設和

鄉里資料,定義方格特性

60

Page 46: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

Dataset

每個里的

面積

人口

性別比例

婚姻狀態

教育程度

平均收入

平均年齡和老化指數

平均戶數和每戶平均人數

地點資料 (地址)

公園

公廁

銀行

學校

公車站

捷運站

警察局

便利商店

戶外停車場

路邊停車格

路邊監視器

建築物高度

Page 47: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

與犯罪嚴重程度相關的變數

正相關

性別比 (男:女) ***

離婚人口比例 ***

離最近的學校距離 ***

離最近的銀行距離 ***

離最近的警察局距離 ***

離最近的捷運站距離 ***

負相關

路燈數量 ***

監視器數量 ***

公車站牌數量 ***

每家戶平均人數 ***

教育程度 (就讀大學比例) ***

Significance code: * = 0.05; ** = 0.01; *** = 0.001

Page 48: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧

犯罪嚴重程度分類

將有犯罪紀錄的方格區分為

高危險

低危險

以 SVM Recursive Feature Elimination

挑選出 17 個 features

以 SVM classification 作為預測模型

Accuracy: 0.722

AUC: 0.730

63

Page 49: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧 66

Page 50: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧 67

Page 51: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧 68

Page 52: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

陳昇瑋 / 從資料科學到人工智慧 69

如同精靈寶可夢需要有訓練師才能發揮能力

,擁有大數據後,我們也需要很多很多的機

器學習專家(人呼為 AI 訓練師),才能讓我

們手中的大數據真正發揮價值。

Page 53: MixTaiwan 20170104-趨勢-陳昇瑋-從資料科學到人工智慧

擁抱資料,更不要錯過 AI

陳昇瑋

台灣資料科學協會 中央研究院資訊科學研究所

2017