大數據

11

Click here to load reader

Upload: chang-chiao-hui

Post on 28-May-2015

1.945 views

Category:

Data & Analytics


2 download

DESCRIPTION

大數據一書個人閱讀筆記

TRANSCRIPT

Page 1: 大數據

大數據「數位革命」之後「資料革命」登場:巨量資料掀起生活、工

作和思考方式的全面革新

麥爾荀伯格、庫基耶 著

201405 閱讀筆記

Page 2: 大數據

大數據時代改變分析資訊方式

• 第一大改變– 能夠取得、分析的資料量大為增加

• 第二大改變– 面對極大量的資料,不再堅持一切都要做到精準

• 第三大改變– 放下長久以來對於因果關係的堅持

量變引發質變,更多、更亂但更有用!

Page 3: 大數據

傳統統計思維 vs. 大數據思維

• 過去難以收集全部資料,統計學應運而生,透過抽樣,希望用最少量的資料,以推估整體

• 隨機抽樣是現代大規模測量的基礎,但隨機抽樣之後,尺度難以調整,一旦我們想要更深入、仔細研究某個有趣的資料子群,抽樣調查就無用武之地,因為蒐集的資料只是樣本,而不是一切,也就難以繼續擴展延伸。

Page 4: 大數據

擁抱不精確,宏觀新世界

• 放寬允許的誤差值,手中就能有更多的資料,犧牲一點精確度,好看出整體大趨勢

• Google 翻譯證明了「簡單的模型,加上大量的資料,就會打敗很複雜但資料較少的模型」

• 圖片、影片、音樂等非文字資料加上標籤後,讓這些龐大的數位資料得以被搜索,雖然標籤必然有不精確的地方,但也反映真實世界固有的雜亂

Page 5: 大數據

因果關係 vs. 相關性

• 亞馬遜商品推薦系統的概念:比較客戶之間的異同在技術上過於繁瑣,只要比較商品本身的關聯性就好

• 抓住相關性就抓住機會,相關性不只是本身就很重要,甚至也能用來協助找出因果關係。

• 相關性的運用:我們想要預測 A 現象,但它本身十分難以測量或觀察,這時我們發現 A常與 B 同時發生,此時只要把 B當成指標,就能用來預測 A 是否將要發生

Page 6: 大數據

利用相關性分析的成功案例

• 美國零售商 Target懷孕預測指標– Target發現懷孕婦女在三個月的時候會買很多無香味乳液,再過幾個月,又會買些營養補充品,該公司分析部門找出 20 多種做為懷孕指標的商品,針對懷孕不同階段,寄出恰到好處的優惠券。

• Walmart從 2004年開始分析其龐大的歷史交易紀錄,包含顧客買了什麼東西?總消費額?幾點消費?甚至包含當時的天氣資訊?– Walmart發現在颶風來臨之前,銷量大增的不只是手電筒,還有一種美國的小甜點 Pop-Tarts ,透過相關性分析,Walmart成功提高了營業額

Page 7: 大數據

當位置成為資料

蒐集打卡、感測器

標準化

GPS 全球定位系統,標準化的坐標

量化

經度、緯度、比例尺

空間資料化的前提• IoT (Internet of Things)

• Asthmapolis將氣喘吸入器裝上感應器,用 GPS追蹤定位,藉以找出氣喘發作的環境因素

• LBS (Location-Based Service)• 蒐集消費者的地理位置,放出最切合情境的廣告或優惠方案

Page 8: 大數據

資料價值鏈三大環節

資料持有人

資料專家

有巨量資料思維者

Page 9: 大數據

巨量資料的黑暗面

巨量資料只是工具,勿忘謙卑與人性

Dictatorship of data

Dystopia

Profiling

反匿名

個資洩漏

資料獨裁

去人性化

Page 10: 大數據

ReCaptcha• 輸入兩個在 Google 圖書掃描計畫中,電腦

的光學文字辨識軟體無法辨認的字詞。其中一個字是用來確認其他用戶已經輸入的結果,好確認另外輸入的那一位也是人。而另一個字則是真的還沒有辨識出來的新字。為確保正確性,系統平均會將同一個模糊的字發給五個人,必須五個人的輸入都相同,才會確認該字已經正確辨識。

ReCaptcha 的故事證明重複使用資料的重要性

Page 11: 大數據

資料廢氣

• 資料廢氣 (data exhaust):使用者各種活動的副產品形成的資料。在網路上,這個詞講的就是用戶的線上互動情形,像是:使用者點擊了哪裡、在同一個頁面停留多久、滑鼠游標滑過哪裡、打了什麼字等等。