big data 成功與失敗的真相

Post on 14-Nov-2014

397 Views

Category:

Internet

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

Big Data失敗與成功的真相Gene Hong/2014-04-22

aka

食夢黑貘

洪進吉

考/唸過的系所

理: 數學(, 應數), 化學, 天文, 海洋, 資科, 物理

工: 資工, 電機, 電子

商: 商數

管: 管科, 資管

文: 圖書館, 翻譯, 教育評鑑

法: 社會, 宗教

資料探勘相關工作經驗

魅力站

博客來

聯絡家

網祿

EZPrice

領域

Performance Tuning (效能調校)Behavior Prediction (行為預測)Intelligent Agent (智慧代理者)Database Management (資料庫管理)Webmaster (網站管理者)Semantic Web (語意網路)Search Engine Optimization (搜尋引擎最佳化)Information Retrievals (資訊獲取)

最近作品

網點: 用 Data Mining 來看 SEO網智: 用 語意網路 來做跨站導讀 網誌: 用 Google Analytics 來輔助分析網站

訪來客: 用 Facebook API 來看使用者分群

林克傳說: 用社群網站的連結分享來看訊息傳遞

正在進行中

工作建議: 從交友與閱讀資訊探勘

即時約會: 預測會與自己最接近的朋友

景點人潮: 預測某景點可能的遊客數

商品導讀: 從個人文字趨向來做消費建議

林克傳說應用 之 服貿系列

服貿跑馬燈

服貿東西軍

服貿媒體光譜分佈圖

甚麼是 Big Data

為甚麼 Big Data 被認為失敗

Big Data 有很多人都宣稱在做

不了解的人已被既定印像限制住了

宣稱用 Big Data 的服務都沒甚麼效用

用 Big Data 來募資已經募不到錢

真的在用 Big Data 嗎?

數量級

時間區間

即時性

應用範圍

實用性

演算法

企業組織鍊失去的環節

Business DeveloperProduct ManagerSystem AnalyzerProgrammerUser/Operator

智慧與資料

推論與歸納

Condition Base vs Rule Base量級

Relation (Distance)因子分析

系統分析的謬誤

從上到下的系統分析

目標與須求的鍊結

規格書

Big Data 的 Variety 與 Veracity可行性分析

Big Data 的流程

1. 確立資料源

2. 尋找聚合點

3. 模式與模型識別

4. 資料規劃 (儲存, 計算)5. 使用者須求

6. 開發

Big Data 階段

搜集資料

儲存資料

除錯資料

計算資料

呈現資料

解讀資料

次級資料

1. 我們有時只能從已抓的資料下手, 而不是最實際的資料

2. 這種指數的計算是簡化其複雜度, 一定會失去一些意義

3. 我們可以視其須要及適用度, 去調整演算法或資料搜集

4. 對於資料的可能性與適用性, 我們還須要一段路來學習

Data Pool

Google Search ResultFacebook (SNS) APIWeb MiningOpen Data

訪來客經驗

資料能抓的跟你所想的不一樣

一定有方法可以接近目標

只是這方法可能代價很高

NP-Hard

林克傳說

1. 近朱者赤, 近貘者黑

2.民意透明化

3. 全民政治

成果

1. 最值得你唸的文章

2. 跟你最像的朋友

3. 議題熱度與趨勢

林克傳說經驗

資料延伸的 Scale 是相當可怕的

資料的多樣性真的很巨大

資料跟實用的落差

中間產品就很有用了

Big Data How Big?

資料抓取 10^11資料儲存 10^9資料整理 10^7資料計算 10^5資料呈現 10^3

Full Stack Maker

Hardware and OSDB, ProgrammerSA, UI/UXPM, ManagerMarketing, AdvertismentSocial, Content

Hackathon

Yahoo Open HackdayOpen Data Hackathong0v Hackathon內部 Hackathon

Q^A謝謝大家

top related