self improvement in the big data era

104
如何在大數據時代提升資料力 謝宗震 ([email protected]) DSP 智庫驅動 首席資料科學家 D4SG 計畫共同發起人 2016/10/29 @北護資管 version 4.0

Upload: johnson-hsieh

Post on 12-Apr-2017

358 views

Category:

Data & Analytics


1 download

TRANSCRIPT

如何在大數據時代提升資料力

謝宗震 ([email protected])DSP 智庫驅動 首席資料科學家

D4SG 計畫共同發起人

2016/10/29 @北護資管

version 4.0

• 學歷:清華數學、統計碩、統計博• 2007年開始寫R

• DSP 智庫驅動資料科學家

• D4SG 資料英雄計畫主持人• 「資料力,做公益」的交流與媒合平台• 農業政策、家庭暴力、社會安全、NPO營運優化

謝宗震 博士[email protected]

什麼是資料科學?

什麼是資料科學?

我認為科學方法可以分成四個步驟

1. 觀察現狀,提出問題假設

2. 將真實問題轉換成科學模型

3. 進行實驗、分析、計算

4. 將結果導回真實問題

在有限的時間下,你怎麼分配資源來教學/學習這四個步驟?

什麼是資料科學?人類活動與自然現象的紀錄

所有的資料

真實世界

巨量資料

開放資料

開放政府資料

個人資料

一張圖讀懂資料治理

1 + 1 = 2 ?

+ = ?

資料的極限

1 + 1 = 2 ?數據化的記錄總會喪失部分訊息

一個問題是否能透過資料解決

和資料蒐集與記錄的方式有關

資料的極限

12

資料的品質

資料品質的控管成敗與否,將影響之後

的資料分析、報表、決策指標。

13

資料的品質

資料品質的控管,

可用探索性資料分析規劃品管規則。

http://wush.ghost.io/data-team-hello-world/

什麼是資料科學?使用科學方法分析資料,解決真實世界的問題

15

Big Data Bra

https://trueandco.com/

歐巴馬競選網站主視覺實驗價值6000萬美元的AB測試

Original trial VS. Family trialhttps://goo.gl/77ZwXz

歐巴馬競選網站主視覺實驗

Summary Original trait Family traitVisitors 51,794 51,696Sign-up 4,425 4,996Conv. Rate 8.54% 9.66%

https://goo.gl/seNBAw

https://goo.gl/seNBAw

市場的68種性格

http://goo.gl/mwtzsE

Trendsetters

Top Tiers

Soccer Moms

Great Outdoors

American Dreamers

Downtown Melting Pot

火災預防和宣導

資料科學怎麼做

紐奧良市的火災風險地圖

火災預防和宣導火災警報器之發放消防檢查頻度與力度消防與救災資源配置優化

http://goo.gl/PUwoQB

紐奧良市的火災風險地圖

所得指標

建物指標

租屋指標

統計模型

煙霧警報器未安裝率

紐奧良市的火災風險地圖

http://goo.gl/PUwoQB

火災風險 = (火災致死率 + 煙霧警報器未安裝率) / 2

紐奧良市的火災風險地圖

紐奧良市的火災風險地圖

幫助市府發放 8,000 個煙霧警報器

全美 178 個城市的火災風險地圖

擴大辦理

各城市的火災風險地圖

http://labs.enigma.io/smoke-signals/

https://github.com/enigma-io/smoke-signals-model

資料集跟原始碼開放給大眾使用

台灣怎麼做?

結合公益與實務,採用長期專案方式,將實驗性的概念測試,

鍛鍊為完整的資料公益解決方案,甚至能夠被複製使用

D4SG.org資料英雄計畫Data for Social Good Fellowship

GOV/NGO提案組織

資料英雄執行團隊

火災風險地圖高雄市消防局

顧客旅程地圖

資料盤點

火災風險地圖高雄市消防局

資料分析規劃

預期成果

警報器發放指標

村里火災風險比較

( = 警報器申請數 – 火災發生風險)

● 媒合公共服務性組織與民間熱血的資料英雄

● 選擇高社會影響力與可再利用的資料科學專案

● 當局主管積極支持、專員參與合作

● 利用三個月的工作時間共同完成

http://d4sg.org

執行方式

http://d4sg.org

積極參與

政府、非營利或是其他公益性組織成為資料英雄計畫的提案者!

[申請提案] (http://bit.ly/c4proposal)

具備資料工程與分析能力的企業人士或學生透過團隊合作發揮專業技能做公益,學會一些實用的新技能。

[申請資料英雄] (http://bit.ly/c4fellowship)

欲提升提升品牌曝光度、強化正面形象的企業強化企業品牌,提昇社群團體、非營利組織與政府單位的肯定。

[贊助D4SG] (http://bit.ly/c4sponsorship)

【成果】火災風險地圖提案單位:高雄市政府消防局

關鍵詞:危險因子、火災預防、配置優化

【成果】家暴案件預警及風險管理系統提案單位:臺北市家庭暴力暨性侵害防治中心

關鍵詞:通報熱點、決策預警、督導管理

【成果】農地種電空間變遷提案單位:國家太空中心、天下雜誌

關鍵詞:衛星影像、農地變遷、綠能政策

http://d4sg.org

瞭解更多

http://d4sg.org• 09/07 (三) 開放資料公益提案• 10/26 (三) D4SG成果發表會• 11/08 (二) 提案徵求說明會 (網路星期二)• 11/20 (日) 提案申請截止• 12/07 (三) 資料英雄申請截止• 12/14 (三) 公告錄取 (提案主題、資料英雄)• 01/04 (三) 實體媒合會• 01/07 (六) 正式開始• 02/25 (六) 期中聚會• 04/15 (六) 成果發表

重要時程

怎麼開始?資管背景的你

45

• 如何判斷講者的演講是否成功?

• 怎麼判斷一首歌好不好聽?

• 怎麼判斷一部電影好不好看?

• 怎麼測量戰爭?

• 怎麼測量貧窮?

想像力不設限

46

從資料的角度來解決問題

怎麼度量、怎麼收集、怎麼呈現• 在Uber之前,大家都認為沒辦法測量計程車載客數據

• 在GA之前,沒人知道怎麼收集Growth Hacking的資料

想像力不設限

47

How to Measure Anything: Finding the Value of Intangibles in Business 3rd Editionby Douglas W. Hubbard

Customer Journey

48

為賦新詞強說愁觀察現狀-問對問題-取得資料

從 Design Thinking 看 Data

Customer journey map

49 Reference:http://www.servicedesigntools.org/

The customer journey map is an oriented graph that describes the journey of a USER by representing the different touchpoints that characterize his interaction with the service.

“The goal of the customer journey map is really to get a holistic view of what the customer is going through from their point of view and really what it’s like for them on a personal level, that human level.” (Kerry Bodine, 2014)

50

51

Healthcare

醫療保健

http://cft.kktix.cc/events/cfh-2014-summerCode for Healthcare 工作坊, Aug. 2014, 高雄醫學大學

高雄氣爆 (2014.07.31)

高雄氣爆 (2014.07.31)

如何合理分配大量傷患

54

發生氣爆或地震時

Code for Healthcare: Lex55

人員

流程

對應數據、資料

Code for Healthcare: Lex et al.

Code for Healthcare: Lex et al.

消防弟兄的規劃與許願清單

局部放大

https://goo.gl/sKXh4k

秀一個酷炫的玩意,給一隻陽春版的釣竿

如何激發學習動機?

立委現形記

• 資料來源:立法院公報 parser (零時政府)• http://dev.g0v.tw/Project-TWLY.html

• 關聯性算法:Jaccard 相似度指標 (Jaccar 1901)• https://en.wikipedia.org/wiki/Jaccard_index

• 視覺化呈現:Gephi• https://gephi.org/

魏揚:「請大家冷靜自制,我們不是要製造暴力,革命不用製造暴力,革命是要推翻體制,但不一定要流血!」

http://anti-tigerblue.net/report/80

拿文字報導做關鍵字分詞觀察媒體間的用字關聯性

• 資料來源:電子媒體網站 (爬蟲備份)• https://github.com/johnsonhsieh/ecfa

• 關聯性算法:Morisita相似度指標 (Morisita 1959)• https://en.wikipedia.org/wiki/Morisita%27s_overlap_index

• 視覺化呈現:Gephi• https://gephi.org/

https://timdream.org/wordcloud/

同場加映文字雲產生器

電腦賦詩Mark Chang

• Computational Poetry 電腦賦詩• 藏頭詩產生器

• 參考資料:Computational Poetry 電腦賦詩 (Mark Chang)• http://www.slideshare.net/ckmarkohchang/computational-poetry

• 主要演算法:Recurrent Neural Network• https://en.wikipedia.org/wiki/Recurrent_neural_network

• 原始論文與程式碼:

Chinese Poetry Generation with Recurrent Neural Networks• http://aclweb.org/anthology/D/D14/D14-1074.pdf

• https://github.com/XingxingZhang/rnnpg

Demo藏頭詩產生器

https://app.kxg.io/poem/

• 參考資料:NeuralArt 電腦作畫 (Mark Chang)• http://www.slideshare.net/ckmarkohchang/a-neural-algorithm-of-artistic-style

• 主要演算法:Convolutional Neural Network• https://en.wikipedia.org/wiki/Convolutional_neural_network

• 原始論文與程式碼: A Neural Algorithm of Artistic Style• http://arxiv.org/abs/1508.06576

• https://github.com/andersbll/neural_artistic_style

Try, Learn and Share

如何提升資料素養?

“If you can’t do, teach.”

91

資料科學夏令營https://dsp.im/camp-nccu-summer-2015/

92

93

94

95

社群參與:Data Mixer 資料人聚會http://goo.gl/h5s2mg

96

社群參與:Taiwan R User Grouphttps://www.facebook.com/Tw.R.User/

97

黑客松:公益加值資料工作坊http://hack.dsp.im/d4sg-hackathon

[ 挑戰 1 ] 採購問答機器人 (Chatbot Challenge)[ 挑戰 2 ] 海闊天空,開放創新 (Open Challenge)

DSP智庫驅動馬上報名 (11/02 公佈錄取隊伍)

https://goo.gl/XjvhYv

http://d4sg.org• 09/07 (三) 開放資料公益提案• 10/26 (三) D4SG成果發表會• 11/08 (二) 提案徵求說明會 (網路星期二)• 11/20 (日) 提案申請截止• 12/07 (三) 資料英雄申請截止• 12/14 (三) 公告錄取 (提案主題、資料英雄)• 01/04 (三) 實體媒合會• 01/07 (六) 正式開始• 02/25 (六) 期中聚會• 04/15 (六) 成果發表

重要時程

100

推薦書籍 (科普書)自學良伴

• 聰明學統計的13又½堂課(http://www.books.com.tw/products/0010617019)

• 統計學,最強的商業武器(http://www.books.com.tw/products/0010710939?loc=P_asb_004)

• 統計學,最強的商業武器:實踐篇(http://www.books.com.tw/products/0010687439?loc=P_asb_001)

101

推薦書籍自學良伴

• 60本免費的資料科學書籍(http://dataology.blogspot.tw/2015/09/60.html)

• An Introduction to Statistical Learning with Applications in R (2013)

102

線上課程自學良伴

• 慕課 (http://course.cool3c.com)

• R語言翻轉教室 (http://datascienceandr.org)• kaggle Tutorial (https://www.kaggle.com/wiki/Tutorials)• Launch Your Career in Data Science

(https://www.coursera.org/specializations/jhu-data-science)

• 對周遭事物保持熱情,不盲從能批判

• 數學很重要,是你發揮創意的基石

• 程式很重要,讓你有具體實作能力

最後,我想說…

thank [email protected]