emc keynote 1130 1200
DESCRIPTION
TRANSCRIPT
雲端時代的巨量資料
宋家瑜 VMware 大中華區總裁
VMware為私有雲領導廠商
• IDC(國際數據資訊)台灣區CIO 調查針對台灣 8 大產業,140 家企
業中的資訊長、技術長、營運主管及 IT 高階主管等進行調查,取得
最接近在地市場的 IT 策略新方向,以及新興技術的採用趨勢。
• 調查結果顯示,「基礎架構現代化及舊有系統轉型」為大多數台灣企
業今年的 IT 投資焦點。
• 排名第一的私有雲領導廠商是VMware
• 虛擬化業者已在雲世代中成為主流
• IDC建議:企業的 IT 部門應該竭力爭取高階主管的堅定承諾與支援,
並以 IT as a Service 為使命,成為整個企業的戰略性合作夥伴,才能
更具遠見的提供各類的創新服務。
資料來源: IDC 2012年台灣區 CIO 調查報告
雲端運算
工作站
大型主機
PC/微處理器
網路/ 分散式運算
IT行業的轉型
資料飛速成長
Source: 2011 IDC Digital Universe Study
50倍成長
在未來10年
企業級的資料量將會
巨量資料的應用
結構化資料
混合雲
电信计费 零售POS 社交媒体 点击流 效率
半結構化資料 基因测序
非結構化資料 电影剪辑 地震研究
Web 内容 存储服务
销售预测
社交媒体 点击流 效率
產業趨勢
!
" # $ %&' (!)*+, 3401 Hillview Avenue Palo Alto CA 94304 USA Tel 877-486-9273 Fax 650-427-5001 www.vmware.com
Copyright © 2011 VMware, Inc. All rights reserved. This product is protected by U.S. and international copyright and intellectual property laws. VMware products are covered by one or more patents listed at
http://www.vmware.com/go/patents. VMware is a registered trademark or trademark of VMware, Inc. in the United States and/or other jurisdictions. All other marks and names mentioned herein may be trademarks of their
respective companies.
!
Virtualizing Apache Hadoop
Executive Summary
Key business and technology trends are disrupting the traditional data management and processing landscape. Big data
analytics is increasingly being viewed as a competitive advantage and businesses are embracing Big data technologies to gain significant insight into their business for continued success. Apache Hadoop is emerging as one of the leading application in the big data space and is being used by enterprises across verticals for Big data analytics to help make better business decisions based on large data sets.
This document introduces the benefits and use cases for virtualizing Hadoop and dispels some common myths. It also
describes some of the initiatives being taken by VMware in support of an optimal virtualized platform for Apache Hadoop.
Introduction
The amount of digital data being generated and stored has exploded in recent years. 7 exabytes of digital data was added in the enterprise in the US last year alone [1]. Data is increasing in complexity as enterprises look to exploit the value locked-up in a variety of data to get insight into its business for continued growth and success. Conventional BI systems, data warehouses, and database systems are simply not able to meet the ever increasing demands of this new situation for several reasons. The amount of data is far too large to store in relational database systems efficiently and maintain the desired level of performance. Further the data is often in unstructured format making it unsuitable for systems that only support structured schemas. Finally, the hardware required for traditional BI and Data Warehousing applications is too costly at large scale, making analytics effectively inaccessible to IT.
Apache Hadoop is an open source software project that enables the distributed processing of large data sets across clusters of commodity servers. It has grown to be one of the leading Big data applications to address several of the issues discussed above in a cost effective manner, making it a natural fit as an analytics, transformation (ETL) and integration platform. These capabilities of Hadoop along with unstructured data explosion are causing CIOs to reconsider Enterprise data strategy.
Figure 1: Industry Trends (Source: Forrester survey of 60 CIO’s, September 2011)
巨量資料的憂與喜
太多資料: 監測變成巨量資料的問題.
– 在EMC World 主題演講中提到有關更多更大的監測的問題,譬如大量的系統以及巨量的資料. 換個說法,監測變成一個巨量資料的問題。
巨量資料的問題困擾金融,電信,政府機關等
– 金融,電信等行業,如何在巨量資料中挖掘新的商業模式;
– 政府機歡收集了大量的資料,僅儲存這些資料就很困難,
更別提如何有效並準確的分析和預測。
巨量資料能讓你在從來不知道你有機會的地方找到機會;
巨量資料的快速分析能讓你在機會消失前把握住機會;
巨量資料的有效應用能夠產生前所未有的商業模式
雲端時代的巨量資料解決方案將是致勝關鍵
從資料庫到資料雲
8
TXN OPS DW
App App App App App App App App
資料庫時代
ACID 交易型資料
資料雲時代
1. 巨量資料:機器產生(日誌,網路,多媒體);人為產生(社交網路,行為紀錄)
Create Read Update Delete
Create Replicate Append Process
2. 混合雲:軟體即服務,全球分布,多樣資料
3. 下一代資料分析:即時,平民化,可視性
Cloud Data Fabric
4. 虛擬化: 管理自動化;降低營運成本
5. 開源軟體:降低新技術門檻;降低成熟技術成本
傳統資料庫hold不住了…
巨量資料
雲端模式
靈活資料
虛擬架構,自動部屬
提供自助式服務
規模數量等比成長
分析應用需求多樣化,平民化
多種結構
提高開發者效率
即時資料
低延遲
資料流處理
雲端模式 資料即服務
雲端中的資料: 巨量, 快速, 靈活
靈活
關聯性
Object
Key / Value
快速
交易型需求
分析需求
巨量
巨量資料處理
巨量資料分析
Serengeti GemFire
GemFire
vPostgres
Data Director
統一雲端架構 (如 vSphere)
即時處理 (如 GemFire)
帶您的巨量資料步入雲端
ETL
即時 資料流
巨量資料文件系統 (如 HDFS)
交互處理 (如Greenplum)
批次處理 (如 Hadoop)
資料分析
行動網路,一般網路,社交網路
資料展示
開發者,資料分析師,資料科學家,商業用戶
謝謝!