emc keynote 1130 1200

12
雲端時代的巨量資料 宋家瑜 VMware 大中華區總裁

Upload: chiou-nan-chen

Post on 22-Apr-2015

645 views

Category:

Technology


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Emc keynote 1130 1200

雲端時代的巨量資料

宋家瑜 VMware 大中華區總裁

Page 2: Emc keynote 1130 1200

VMware為私有雲領導廠商

• IDC(國際數據資訊)台灣區CIO 調查針對台灣 8 大產業,140 家企

業中的資訊長、技術長、營運主管及 IT 高階主管等進行調查,取得

最接近在地市場的 IT 策略新方向,以及新興技術的採用趨勢。

• 調查結果顯示,「基礎架構現代化及舊有系統轉型」為大多數台灣企

業今年的 IT 投資焦點。

• 排名第一的私有雲領導廠商是VMware

• 虛擬化業者已在雲世代中成為主流

• IDC建議:企業的 IT 部門應該竭力爭取高階主管的堅定承諾與支援,

並以 IT as a Service 為使命,成為整個企業的戰略性合作夥伴,才能

更具遠見的提供各類的創新服務。

資料來源: IDC 2012年台灣區 CIO 調查報告

Page 3: Emc keynote 1130 1200

雲端運算

工作站

大型主機

PC/微處理器

網路/ 分散式運算

IT行業的轉型

Page 4: Emc keynote 1130 1200

資料飛速成長

Source: 2011 IDC Digital Universe Study

50倍成長

在未來10年

企業級的資料量將會

Page 5: Emc keynote 1130 1200

巨量資料的應用

結構化資料

混合雲

电信计费 零售POS 社交媒体 点击流 效率

半結構化資料 基因测序

非結構化資料 电影剪辑 地震研究

Web 内容 存储服务

销售预测

社交媒体 点击流 效率

Page 6: Emc keynote 1130 1200

產業趨勢

!

" # $ %&' (!)*+, 3401 Hillview Avenue Palo Alto CA 94304 USA Tel 877-486-9273 Fax 650-427-5001 www.vmware.com

Copyright © 2011 VMware, Inc. All rights reserved. This product is protected by U.S. and international copyright and intellectual property laws. VMware products are covered by one or more patents listed at

http://www.vmware.com/go/patents. VMware is a registered trademark or trademark of VMware, Inc. in the United States and/or other jurisdictions. All other marks and names mentioned herein may be trademarks of their

respective companies.

!

Virtualizing Apache Hadoop

Executive Summary

Key business and technology trends are disrupting the traditional data management and processing landscape. Big data

analytics is increasingly being viewed as a competitive advantage and businesses are embracing Big data technologies to gain significant insight into their business for continued success. Apache Hadoop is emerging as one of the leading application in the big data space and is being used by enterprises across verticals for Big data analytics to help make better business decisions based on large data sets.

This document introduces the benefits and use cases for virtualizing Hadoop and dispels some common myths. It also

describes some of the initiatives being taken by VMware in support of an optimal virtualized platform for Apache Hadoop.

Introduction

The amount of digital data being generated and stored has exploded in recent years. 7 exabytes of digital data was added in the enterprise in the US last year alone [1]. Data is increasing in complexity as enterprises look to exploit the value locked-up in a variety of data to get insight into its business for continued growth and success. Conventional BI systems, data warehouses, and database systems are simply not able to meet the ever increasing demands of this new situation for several reasons. The amount of data is far too large to store in relational database systems efficiently and maintain the desired level of performance. Further the data is often in unstructured format making it unsuitable for systems that only support structured schemas. Finally, the hardware required for traditional BI and Data Warehousing applications is too costly at large scale, making analytics effectively inaccessible to IT.

Apache Hadoop is an open source software project that enables the distributed processing of large data sets across clusters of commodity servers. It has grown to be one of the leading Big data applications to address several of the issues discussed above in a cost effective manner, making it a natural fit as an analytics, transformation (ETL) and integration platform. These capabilities of Hadoop along with unstructured data explosion are causing CIOs to reconsider Enterprise data strategy.

Figure 1: Industry Trends (Source: Forrester survey of 60 CIO’s, September 2011)

Page 7: Emc keynote 1130 1200

巨量資料的憂與喜

太多資料: 監測變成巨量資料的問題.

– 在EMC World 主題演講中提到有關更多更大的監測的問題,譬如大量的系統以及巨量的資料. 換個說法,監測變成一個巨量資料的問題。

巨量資料的問題困擾金融,電信,政府機關等

– 金融,電信等行業,如何在巨量資料中挖掘新的商業模式;

– 政府機歡收集了大量的資料,僅儲存這些資料就很困難,

更別提如何有效並準確的分析和預測。

巨量資料能讓你在從來不知道你有機會的地方找到機會;

巨量資料的快速分析能讓你在機會消失前把握住機會;

巨量資料的有效應用能夠產生前所未有的商業模式

雲端時代的巨量資料解決方案將是致勝關鍵

Page 8: Emc keynote 1130 1200

從資料庫到資料雲

8

TXN OPS DW

App App App App App App App App

資料庫時代

ACID 交易型資料

資料雲時代

1. 巨量資料:機器產生(日誌,網路,多媒體);人為產生(社交網路,行為紀錄)

Create Read Update Delete

Create Replicate Append Process

2. 混合雲:軟體即服務,全球分布,多樣資料

3. 下一代資料分析:即時,平民化,可視性

Cloud Data Fabric

4. 虛擬化: 管理自動化;降低營運成本

5. 開源軟體:降低新技術門檻;降低成熟技術成本

Page 9: Emc keynote 1130 1200

傳統資料庫hold不住了…

巨量資料

雲端模式

靈活資料

虛擬架構,自動部屬

提供自助式服務

規模數量等比成長

分析應用需求多樣化,平民化

多種結構

提高開發者效率

即時資料

低延遲

資料流處理

Page 10: Emc keynote 1130 1200

雲端模式 資料即服務

雲端中的資料: 巨量, 快速, 靈活

靈活

關聯性

Object

Key / Value

快速

交易型需求

分析需求

巨量

巨量資料處理

巨量資料分析

Serengeti GemFire

GemFire

vPostgres

Data Director

Page 11: Emc keynote 1130 1200

統一雲端架構 (如 vSphere)

即時處理 (如 GemFire)

帶您的巨量資料步入雲端

ETL

即時 資料流

巨量資料文件系統 (如 HDFS)

交互處理 (如Greenplum)

批次處理 (如 Hadoop)

資料分析

行動網路,一般網路,社交網路

資料展示

開發者,資料分析師,資料科學家,商業用戶

Page 12: Emc keynote 1130 1200

謝謝!