self improvement in the big data era
TRANSCRIPT
• 學歷:清華數學、統計碩、統計博• 2007年開始寫R
• DSP 智庫驅動資料科學家
• D4SG 資料英雄計畫主持人• 「資料力,做公益」的交流與媒合平台• 農業政策、家庭暴力、社會安全、NPO營運優化
謝宗震 博士[email protected]
我認為科學方法可以分成四個步驟
1. 觀察現狀,提出問題假設
2. 將真實問題轉換成科學模型
3. 進行實驗、分析、計算
4. 將結果導回真實問題
在有限的時間下,你怎麼分配資源來教學/學習這四個步驟?
歐巴馬競選網站主視覺實驗
Summary Original trait Family traitVisitors 51,794 51,696Sign-up 4,425 4,996Conv. Rate 8.54% 9.66%
✔
● 媒合公共服務性組織與民間熱血的資料英雄
● 選擇高社會影響力與可再利用的資料科學專案
● 當局主管積極支持、專員參與合作
● 利用三個月的工作時間共同完成
http://d4sg.org
執行方式
http://d4sg.org
積極參與
政府、非營利或是其他公益性組織成為資料英雄計畫的提案者!
[申請提案] (http://bit.ly/c4proposal)
具備資料工程與分析能力的企業人士或學生透過團隊合作發揮專業技能做公益,學會一些實用的新技能。
[申請資料英雄] (http://bit.ly/c4fellowship)
欲提升提升品牌曝光度、強化正面形象的企業強化企業品牌,提昇社群團體、非營利組織與政府單位的肯定。
[贊助D4SG] (http://bit.ly/c4sponsorship)
【成果】火災風險地圖提案單位:高雄市政府消防局
關鍵詞:危險因子、火災預防、配置優化
【成果】家暴案件預警及風險管理系統提案單位:臺北市家庭暴力暨性侵害防治中心
關鍵詞:通報熱點、決策預警、督導管理
【成果】農地種電空間變遷提案單位:國家太空中心、天下雜誌
關鍵詞:衛星影像、農地變遷、綠能政策
http://d4sg.org
瞭解更多
http://d4sg.org• 09/07 (三) 開放資料公益提案• 10/26 (三) D4SG成果發表會• 11/08 (二) 提案徵求說明會 (網路星期二)• 11/20 (日) 提案申請截止• 12/07 (三) 資料英雄申請截止• 12/14 (三) 公告錄取 (提案主題、資料英雄)• 01/04 (三) 實體媒合會• 01/07 (六) 正式開始• 02/25 (六) 期中聚會• 04/15 (六) 成果發表
重要時程
47
How to Measure Anything: Finding the Value of Intangibles in Business 3rd Editionby Douglas W. Hubbard
Customer journey map
49 Reference:http://www.servicedesigntools.org/
The customer journey map is an oriented graph that describes the journey of a USER by representing the different touchpoints that characterize his interaction with the service.
“The goal of the customer journey map is really to get a holistic view of what the customer is going through from their point of view and really what it’s like for them on a personal level, that human level.” (Kerry Bodine, 2014)
51
Healthcare
醫療保健
http://cft.kktix.cc/events/cfh-2014-summerCode for Healthcare 工作坊, Aug. 2014, 高雄醫學大學
• 資料來源:立法院公報 parser (零時政府)• http://dev.g0v.tw/Project-TWLY.html
• 關聯性算法:Jaccard 相似度指標 (Jaccar 1901)• https://en.wikipedia.org/wiki/Jaccard_index
• 視覺化呈現:Gephi• https://gephi.org/
• 資料來源:電子媒體網站 (爬蟲備份)• https://github.com/johnsonhsieh/ecfa
• 關聯性算法:Morisita相似度指標 (Morisita 1959)• https://en.wikipedia.org/wiki/Morisita%27s_overlap_index
• 視覺化呈現:Gephi• https://gephi.org/
• 參考資料:Computational Poetry 電腦賦詩 (Mark Chang)• http://www.slideshare.net/ckmarkohchang/computational-poetry
• 主要演算法:Recurrent Neural Network• https://en.wikipedia.org/wiki/Recurrent_neural_network
• 原始論文與程式碼:
Chinese Poetry Generation with Recurrent Neural Networks• http://aclweb.org/anthology/D/D14/D14-1074.pdf
• https://github.com/XingxingZhang/rnnpg
• 參考資料:NeuralArt 電腦作畫 (Mark Chang)• http://www.slideshare.net/ckmarkohchang/a-neural-algorithm-of-artistic-style
• 主要演算法:Convolutional Neural Network• https://en.wikipedia.org/wiki/Convolutional_neural_network
• 原始論文與程式碼: A Neural Algorithm of Artistic Style• http://arxiv.org/abs/1508.06576
• https://github.com/andersbll/neural_artistic_style
[ 挑戰 1 ] 採購問答機器人 (Chatbot Challenge)[ 挑戰 2 ] 海闊天空,開放創新 (Open Challenge)
DSP智庫驅動馬上報名 (11/02 公佈錄取隊伍)
https://goo.gl/XjvhYv
http://d4sg.org• 09/07 (三) 開放資料公益提案• 10/26 (三) D4SG成果發表會• 11/08 (二) 提案徵求說明會 (網路星期二)• 11/20 (日) 提案申請截止• 12/07 (三) 資料英雄申請截止• 12/14 (三) 公告錄取 (提案主題、資料英雄)• 01/04 (三) 實體媒合會• 01/07 (六) 正式開始• 02/25 (六) 期中聚會• 04/15 (六) 成果發表
重要時程
100
推薦書籍 (科普書)自學良伴
• 聰明學統計的13又½堂課(http://www.books.com.tw/products/0010617019)
• 統計學,最強的商業武器(http://www.books.com.tw/products/0010710939?loc=P_asb_004)
• 統計學,最強的商業武器:實踐篇(http://www.books.com.tw/products/0010687439?loc=P_asb_001)
101
推薦書籍自學良伴
• 60本免費的資料科學書籍(http://dataology.blogspot.tw/2015/09/60.html)
• An Introduction to Statistical Learning with Applications in R (2013)
102
線上課程自學良伴
• 慕課 (http://course.cool3c.com)
• R語言翻轉教室 (http://datascienceandr.org)• kaggle Tutorial (https://www.kaggle.com/wiki/Tutorials)• Launch Your Career in Data Science
(https://www.coursera.org/specializations/jhu-data-science)
thank [email protected]