what is data science? ds123 · harry potter iron man saw inception titanic aquaman ann 3 5 1 5 5 ?...

25
What is Data Science? DS123 January 7, 2019

Upload: others

Post on 29-Sep-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

What is Data Science?

DS123

January 7, 2019

Page 2: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Netflix (Recommender System)

1

Page 3: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Harry Potter Iron Man Saw Inception Titanic Aquaman

Ann 3 5 1 5 5 ?

Ben 2 3 5 4 5 2

Cat 5 4 3 4 5 5

Dan 3 4 1 3 4 4

Emma 4 3 2 4 5 4

How can we predict Ann’s rating on Aquaman?

2

Page 4: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

ให d(Ann,u) เปนผลบวกของผลตาง rating ของหนังแตละเรื่องระหวาง Ann และผูใช u.

HP Iron Man Saw Inception Titanic Aquaman d(Ann,u)

Ann 3 5 1 5 5 ?

Ben 2 3 5 4 5 2 8

Cat 5 4 3 4 5 5 6

Dan 3 4 1 3 4 4

Emma 4 3 2 4 5 4

3

Page 5: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

ในตัวอยางนี้เราไดใชความเขาใจวา “คนที่มีความชอบเหมือนกันจะมี rating คลายๆกัน” ใน

การสราง d(Ann,u) เพื่อวัดความคลายระหวาง Ann กับผูใชคนอื่น

4

Page 6: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

นิยามของ Data Science (วิทยาการขอมูล)

Data Science คือ ศาสตรของการใชความเขาใจในขอมูล (understanding of data)

ในการสรางขั้นตอนวิธี (process/algorithm) เพื่อดึงโครงสรางหรือความรูใหมของ

ขอมูล (structure or knowledge of data) ออกมา

5

Page 7: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

6

Page 8: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

7

Page 9: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

ทำไมคนถึงหันมาใหความสนใจกับ Data Science?

1. การเติบโตอยางรวดเร็วของขอมูลในยุคอินเทอรเน็ต

- ในป 2012 พบวามีขอมูลใหมเพิ่มเขามาจำนวนประมาณ 2.5 พันลาน GB ตอวัน

(IBM)

- เกิดจากการพัฒนาของอุปกรณบันทึกขอมูลตางๆเชนมือถือ, กลองวงจรปด,

ดาวเทียม

2. ราคาของอุปกรณเก็บบันทีกขอมูลที่ถูกลง

- มือถือสามารถเก็บขอมูลไดมากกวา 32 GB และคอมพิวเตอรสามารถเก็บขอมูลได

มากกวา 1 TB

8

Page 10: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Credit: Data Never Sleeps 5.0 — Domo

9

Page 11: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

ชนิดของขอมูล

Page 12: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Table data

Titanic data

• ขอมูลชิ้นเดึยว เรียกวา data point

• ขอมูลทั้งชุด เรียกวา dataset10

Page 13: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Time Series data

Alcohol Sales data from 2000-2017

• ขอมูลมีตัวแปรเดียวคือ Alcohol Sales ซึ่งเปลี่ยนแปลงตามเวลาและฤดูกาล11

Page 14: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Graph data

Example of Facebook social network

12

Page 15: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Graph data

13

Page 16: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Image data

Hand-written image data (MNIST)

14

Page 17: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Image data

Image read by a computer program

• แตละ pixel มีคาที่เปนไปไดจาก 0-255 15

Page 18: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Extracting structure and knowledge from data

Page 19: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Basic ideas

Concept/Class description

• What are characteristics of people who survived the Titanic incident?

Data statistics

• Central Tendency Measure – Mean, Mode, Median

• Dispersion Measure – Standard deviation, Variance

All of these ideas must generalize well on unseen data!

16

Page 20: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Association rules

Frequent patterns

• What items are frequently purchased together at 7-11?

Association, correlation vs causality

• Diaper → Beer

• Fried chicken → Sticky rice

• Coke → Dimsum

We can find “efficient rules” using Weka, more in Chapter 4

How can we make use of these rules?17

Page 21: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Classification

Basic idea

• Construct models based on some labeled training examples.

• Goal: Predicting correct label of future unseen data.

• E.g., classify numbers based on images from MNIST, or classify cars

based on gas mileage.

Typical methods

• Decision trees, naïve Bayesian classification, support vector machines,

neural networks, nearest neighbours, logistic regression, ...

Typical applications: Credit card fraud detection, diseases, ratings, ...18

Page 22: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

19

Page 23: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

20

Page 24: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Cluster analysis

Basic idea

• Construct models based on some unlabeled training examples.

• Goal: Group similar inputs to form new categories.

• E.g., clustering online customers, clustering English words.

Typical methods

• K-means clustering, Hierarchical clustering, Gaussian Mixture Model.

21

Page 25: What is Data Science? DS123 · Harry Potter Iron Man Saw Inception Titanic Aquaman Ann 3 5 1 5 5 ? Ben 2 3 5 4 5 2 Cat 5 4 3 4 5 5 Dan 3 4 1 3 4 4 Emma 4 3 2 4 5 4 How can we predict

Learning path for Data Science

22