大數據
DESCRIPTION
大數據一書個人閱讀筆記TRANSCRIPT
大數據「數位革命」之後「資料革命」登場:巨量資料掀起生活、工
作和思考方式的全面革新
麥爾荀伯格、庫基耶 著
201405 閱讀筆記
大數據時代改變分析資訊方式
• 第一大改變– 能夠取得、分析的資料量大為增加
• 第二大改變– 面對極大量的資料,不再堅持一切都要做到精準
• 第三大改變– 放下長久以來對於因果關係的堅持
量變引發質變,更多、更亂但更有用!
傳統統計思維 vs. 大數據思維
• 過去難以收集全部資料,統計學應運而生,透過抽樣,希望用最少量的資料,以推估整體
• 隨機抽樣是現代大規模測量的基礎,但隨機抽樣之後,尺度難以調整,一旦我們想要更深入、仔細研究某個有趣的資料子群,抽樣調查就無用武之地,因為蒐集的資料只是樣本,而不是一切,也就難以繼續擴展延伸。
擁抱不精確,宏觀新世界
• 放寬允許的誤差值,手中就能有更多的資料,犧牲一點精確度,好看出整體大趨勢
• Google 翻譯證明了「簡單的模型,加上大量的資料,就會打敗很複雜但資料較少的模型」
• 圖片、影片、音樂等非文字資料加上標籤後,讓這些龐大的數位資料得以被搜索,雖然標籤必然有不精確的地方,但也反映真實世界固有的雜亂
因果關係 vs. 相關性
• 亞馬遜商品推薦系統的概念:比較客戶之間的異同在技術上過於繁瑣,只要比較商品本身的關聯性就好
• 抓住相關性就抓住機會,相關性不只是本身就很重要,甚至也能用來協助找出因果關係。
• 相關性的運用:我們想要預測 A 現象,但它本身十分難以測量或觀察,這時我們發現 A常與 B 同時發生,此時只要把 B當成指標,就能用來預測 A 是否將要發生
利用相關性分析的成功案例
• 美國零售商 Target懷孕預測指標– Target發現懷孕婦女在三個月的時候會買很多無香味乳液,再過幾個月,又會買些營養補充品,該公司分析部門找出 20 多種做為懷孕指標的商品,針對懷孕不同階段,寄出恰到好處的優惠券。
• Walmart從 2004年開始分析其龐大的歷史交易紀錄,包含顧客買了什麼東西?總消費額?幾點消費?甚至包含當時的天氣資訊?– Walmart發現在颶風來臨之前,銷量大增的不只是手電筒,還有一種美國的小甜點 Pop-Tarts ,透過相關性分析,Walmart成功提高了營業額
當位置成為資料
蒐集打卡、感測器
標準化
GPS 全球定位系統,標準化的坐標
量化
經度、緯度、比例尺
空間資料化的前提• IoT (Internet of Things)
• Asthmapolis將氣喘吸入器裝上感應器,用 GPS追蹤定位,藉以找出氣喘發作的環境因素
• LBS (Location-Based Service)• 蒐集消費者的地理位置,放出最切合情境的廣告或優惠方案
資料價值鏈三大環節
資料持有人
資料專家
有巨量資料思維者
巨量資料的黑暗面
巨量資料只是工具,勿忘謙卑與人性
Dictatorship of data
Dystopia
Profiling
反匿名
個資洩漏
資料獨裁
去人性化
ReCaptcha• 輸入兩個在 Google 圖書掃描計畫中,電腦
的光學文字辨識軟體無法辨認的字詞。其中一個字是用來確認其他用戶已經輸入的結果,好確認另外輸入的那一位也是人。而另一個字則是真的還沒有辨識出來的新字。為確保正確性,系統平均會將同一個模糊的字發給五個人,必須五個人的輸入都相同,才會確認該字已經正確辨識。
ReCaptcha 的故事證明重複使用資料的重要性
資料廢氣
• 資料廢氣 (data exhaust):使用者各種活動的副產品形成的資料。在網路上,這個詞講的就是用戶的線上互動情形,像是:使用者點擊了哪裡、在同一個頁面停留多久、滑鼠游標滑過哪裡、打了什麼字等等。