20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

85
從公益資料分析到 聰明公益平台 陳昇瑋 台灣資料科學協會理事長 中央研究院資訊科學研究所研究員 以資料科學及人工智慧做為後盾

Upload: net-tuesday-taiwan

Post on 22-Jan-2018

749 views

Category:

Internet


0 download

TRANSCRIPT

Page 1: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

從公益資料分析到聰明公益平台

陳昇瑋台灣資料科學協會理事長

中央研究院資訊科學研究所研究員

以資料科學及人工智慧做為後盾

Page 2: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Page 3: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Page 4: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

(Photo credit: Brian Harrington Spier)

Page 5: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路
Page 6: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Page 7: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

3 Major Trends of Data Science

Big Data Deep Learning

Deep Analytics

Page 8: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

3V Explained

#1. Big Data

Page 9: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Computer vision in sports

Play tracking

(Slide Credit: Jia-Bin Huang)

Page 10: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Computer vision in sports

Second Spectrum: visual analytics

(Slide Credit: Jia-Bin Huang)

Page 11: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路
Page 12: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Computer vision for healthcare

Video magnification(Slide Credit: Jia-Bin Huang)

Page 13: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧 13

https://www.youtube.com/watch?v=QbXgEbeceJI

(Credit: Jia-Bin Huang)

Page 14: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧 14

Page 15: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

3 Major Trends of Data Science (#2)

#2. Deep Learning

Page 16: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Machine Learning

16

A field of study that gives computers the ability to learn without being explicitly programmed.

Find the common patterns from the left waveforms

It seems impossible to write a program for speech recognition

你好 你好

你好 你好

You quickly get lost in the exceptions and special cases.

(Slide Credit: Hung-Yi Lee)

Page 17: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧 17

Page 18: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Let the machine learn by itself

你好

大家好

人帥真好

You said “你好”

A large amount of audio data

You only have to write the program for learning

Learn how to do speech

recognition

(Slide Credit: Hung-Yi Lee)

Page 19: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧 19

Page 20: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Page 21: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧 21

Page 22: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧 22

Page 23: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧 23

Page 24: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧 24

Page 25: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Word Embedding

25

Page 26: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Word Embedding

26

Page 27: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Word Vector

Source: http://www.slideshare.net/hustwj/cikm-keynotenov2014

(Slide Credit: Hung-Yi Lee)

Page 28: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Word Vector

Characteristics

Solving analogies

𝑉𝑉 ℎ𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 − 𝑉𝑉 ℎ𝑜𝑜𝑜𝑜 ≈ 𝑉𝑉 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑜𝑜𝑜𝑜 − 𝑉𝑉 𝑏𝑏𝑏𝑏𝑏𝑏𝑉𝑉 𝑅𝑅𝑜𝑜𝑅𝑅𝑜𝑜 − 𝑉𝑉 𝐼𝐼𝑜𝑜𝐼𝐼𝐼𝐼𝐼𝐼 ≈ 𝑉𝑉 𝐵𝐵𝑜𝑜𝑜𝑜𝐼𝐼𝑏𝑏𝐵𝐵 − 𝑉𝑉 𝐺𝐺𝑜𝑜𝑜𝑜𝑅𝑅𝐼𝐼𝐵𝐵𝐼𝐼𝑉𝑉 𝑘𝑘𝑏𝑏𝐵𝐵𝑏𝑏 − 𝑉𝑉 𝑞𝑞𝑞𝑞𝑜𝑜𝑜𝑜𝐵𝐵 ≈ 𝑉𝑉 𝑞𝑞𝐵𝐵𝑢𝑢𝐼𝐼𝑜𝑜 − 𝑉𝑉 𝐼𝐼𝑞𝑞𝐵𝐵𝑜𝑜

Rome : Italy = Berlin : ?

𝑉𝑉 𝐺𝐺𝑜𝑜𝑜𝑜𝑅𝑅𝐼𝐼𝐵𝐵𝐼𝐼≈ 𝑉𝑉 𝐵𝐵𝑜𝑜𝑜𝑜𝐼𝐼𝑏𝑏𝐵𝐵 − 𝑉𝑉 𝑅𝑅𝑜𝑜𝑅𝑅𝑜𝑜 + 𝑉𝑉 𝐼𝐼𝑜𝑜𝐼𝐼𝐼𝐼𝐼𝐼

Compute 𝑉𝑉 𝐵𝐵𝑜𝑜𝑜𝑜𝐼𝐼𝑏𝑏𝐵𝐵 − 𝑉𝑉 𝑅𝑅𝑜𝑜𝑅𝑅𝑜𝑜 + 𝑉𝑉 𝐼𝐼𝑜𝑜𝐼𝐼𝐼𝐼𝐼𝐼Find the word w with the closest V(w)

(Slide Credit: Hung-Yi Lee)

Page 29: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Machine Reading

Machine learn the meaning of words from reading a lot of documents without supervision

Machine learns to understand netizens via reading the posts on PTT

(Slide Credit: Hung-Yi Lee)

Page 30: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧 (Slide Credit: Hung-Yi Lee)

Page 31: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 資料科學往前看-從大數據到人工智慧

Big data vs. Machine learning vs. AI

Big data: 3Vs

Machine learning: “A field of study that gives computers the ability to learn without being explicitly programmed"

Artificial intelligence

Turing test

31

Page 32: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

3 Major Trends of Data Science (#3)

Q: 如何提高利潤?

#3. Deep Analytics

提升產品品質? 加強包裝?

加強行銷? 降低生產成本?

提升研發效率? 提升行政效率?

提升回頭率? 技術水準?

Deep Analytics

Page 33: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

33

資料分析如何幫我們更瞭解捐款人?

Page 34: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

34

x 3,518

in 10.5 years (since May 2003)

Page 35: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

35

Page 36: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

37

20 50 80

捐款金額分布 (每戶個案家庭)

Page 37: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

38

Page 39: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

40

Page 40: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

41

Title & picture rating

http://mmnet.iis.sinica.edu.tw/~cslin/rating/welcome.php

Page 41: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

42

人工編碼成果

431編碼者

6532人次

255小時

8436家庭成員

1590個案

Page 42: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

44

Variables we got (290+)

Page 43: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

45

Page 44: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

46

捐款意願與時間點高度相關

Page 45: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

47

星期幾很重要

日 一 二 三 四 五

Page 46: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

48

哪個月份也重要

一 二 三 四 五 六 七 八 九 十 十一 十二

Page 47: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

49

受訪者的胖瘦會影響捐款決策

Page 48: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

50

Page 49: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

52

誰收到較多捐款?

Page 50: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

54

捐款人對各式疾病及身心障礙有差別待遇

Page 51: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

55

Page 52: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

57

Page 53: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

59

不可抗力因素較讓人同情

Page 54: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

60

意外失業 離婚入獄 人為

意外輟學

Page 55: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

62

Page 56: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

64

捐款與固定支出成反比

個案家庭固定支出

捐款金額

Page 57: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

65

捐款者期待能看見「希望」

Page 58: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

資訊充足,才能聰明地捐款。

陳昇瑋台灣資料科學協會理事長

中央研究院資訊科學研究所研究員

Page 59: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

希望能解決資訊破碎及不透明的問題

67

http://www.smartdonor.tw/

Page 60: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

台灣有超過兩千個社會公益團體,你認識幾個呢?

68

Page 61: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台 69

Page 62: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

搜尋及過濾條件

70

Page 63: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

地圖檢視

71

Page 64: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

分析功能

72

Page 65: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

NPO 資訊總覽 (1/4)

73

Page 66: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

NPO 資訊總覽 (2/4)

74

Page 67: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

NPO 資訊總覽 (3/4)

75

Page 68: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

NPO 資訊總覽 (4/4)

76

Page 69: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

群眾參與 (1/2)

維基百科模式:只要以 Facebook or Google 帳號登入後,任何人都可以編輯任何 NPO 的任何資訊。

77

Page 70: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

但不用擔心,所有編輯記錄都會被留下,因此若有人搗亂或惡意填寫不實資訊,都可以檢舉。再由管理者回覆到正確的版本。

群眾參與 (2/2)

78

Page 71: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

NPO 資訊編輯 (1/2)

79

Page 72: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

NPO 資訊編輯 (2/2)

80

Page 73: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

資訊透明度的量化

81

Page 74: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

資訊透明度權重與計算方式說明

資訊透明度的計算的重點在於估計每項資訊的權重,我們採用常見的 IDF (Inverse Document Frequency) 的原則,也就是說,越常見的資訊,權重越低;反之,越少見的資訊,權重越高。

越多NPO 填寫的欄位,表示越容易取得/提供,因此權重低;反之,越少NPO 提供的欄位,表示取得成本較高,通常也表示更有價值,因此權重高。

舉例來說成立日期有 100% NPO 提供,權重為 1.0

登記財產總額有 64% NPO 提供,權重為 4.19

公開徵信查詢只有 5% NPO 提供,權重為 14.91

82

http://www.smartdonor.tw/transparency.php

Page 75: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

假設共有N 家NPO,某個欄位 f 有 n(f) 家NPO 填寫,那麼欄位 f 的基本權重就是 sqrt(N/n(f)),基本權重再經過正規化讓所有欄位的權重加起來為 100,就是最後的權重值。舉例來說,目前本平台共有 2404 家NPO,共有 121 家NPO 提供「公開徵信查詢」連結,那麼「公開徵信查詢」欄位的基本權重為sqrt( 2404 / 121),經過正規化後,此欄位的權重為 14.91。

sqrt (平方根) 的作用是讓欄位之間的權重差異小一點,不要被少數的重要欄位決定分數。

權重不是固定的值,隨著NPO 在平台上填寫更多資料,權重會隨時調整。假設有一天所有的NPO 都提供公開徵信查詢,那「公開徵信查詢」的欄位權重就會變成 1.0。

83

Page 76: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

84

Page 77: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台 85

http://smartdonor.tw/npo.php?npo=1034

Page 78: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

我們的願景

從捐款人的角度所有的NPO 資訊一目瞭然可以搜尋、排序、比較、分析不用到每個NPO 網站慢慢翻找資料,所有資料一頁呈現成為聰明的捐款人

從公益團體的角度讓潛在捐款人看到自己的努力讓大型NPO 可以量化方式呈現成果讓小型NPO 更有機會被看見。對小型NPO 來說,即使人力有限,可讓社會善心人士幫忙維護NPO 公開資訊。

86

Page 79: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

最後的提醒

87

Page 80: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 以資料科學進行資料治理

美國財政部稅務催繳信

88

Page 81: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 以資料科學進行資料治理

稅務催繳信改善

89

Page 82: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 以資料科學進行資料治理 90

Page 83: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋 / 以資料科學進行資料治理

美國聯邦政府案例

住宅與都市發展部 + 衛生及公共服務部

連結低收入老人租房補貼或承租公營住宅資料及醫療資料,評估社福政策及社工到府照護服務是否有所幫助?

依分析進行決策:部分住房補貼轉移至照護政府支出沒有增加,但死亡率降低 25%

85 歲以上有複合性慢性疾病者,死亡率降低 49%

91

Page 84: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

聰明公益資訊平台

致謝

92

Page 85: 20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

陳昇瑋[email protected]

台灣資料科學協會中央研究院資訊科學研究所

以資料科學及人工智慧做為後盾