新华三(hpe) 大数据平台 技术解决方案 · rackspace limelight jive softwar e s...

41
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 1 新华三(HPE) 大数据平台 技术解决方案

Upload: others

Post on 21-May-2020

18 views

Category:

Documents


0 download

TRANSCRIPT

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.1

新华三(HPE) 大数据平台技术解决方案

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.2

大数据概述

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.3

快速创新和价值实现

695,000 status updates

98,000+ tweets

698,445 Google searches

1,820TB of data created

11million instant messages

168 million+ emails sent

YouTube

Viber

Qzone

Amazon Web Services

GoGrid

Rackspace

LimeLight

Jive Software

salesforce.com

Xactly

Paint.NET

Business

EducationEntertainment

Games

Lifestyle

Music

Navigation

News

Photo & Video

Productivity

Reference

Social Networking

Sport

Travel

Utilities

Workbrain

SuccessFactors

Taleo

Workday

Finance

box.net

Facebook

LinkedIn

TripIt

Pinterest

Zynga

Zynga

Baidu

Twitter

Twitter

Yammer

Atlassian

Atlassian

MobilieIronSmugMug

SmugMug

Atlassian

Amazon

AmazoniHandy

PingMe

PingMe

Associatedcontent

Flickr

Snapfish

Answers.com

Tumblr.

Urban

Scribd.Pandora

MobileFrame.com

Mixi

CYworld

Renren

Xing

Yandex

Yandex

Heroku

RightScale

New Relic

AppFog

BromiumSplunk

CloudSigma

cloudability

kaggle

nebula

Parse

ScaleXtreme

SolidFire

Zillabyte

dotCloud

BeyondCore

Mozy

Fring Toggl

MailChimp

Hootsuite

Foursquare

buzzd

Dragon Diction

SuperCam

UPS Mobile

Fed Ex Mobile

Scanner Pro

DocuSign

HPE ePrint

iSchedule

Khan Academy

BrainPOP

myHomework

Cookie Doodle

Ah! Fasion Girl

PaperHost

SLI Systems

NetSuite

OpSource

Joyent

Hosting.com

Tata Communications

Datapipe

PPM

Alterian

Hyland

NetDocuments

NetReach

OpenText

Xerox

Google

Microsoft

IntraLinks

Qvidian

Sage

SugarCRM

Volusion

Zoho

Adobe

Avid

Corel

Microsoft

Serif

Yahoo

CyberShift

Saba

Softscape

Sonar6

Ariba

Yahoo!

Quadrem

Elemica

Kinaxis

CCC

DCC

SCMADP VirtualEdge

Cornerstone onDemand

CyberShift

KenexaSaba

Softscape

Sonar6

Workscape

Exact Online

FinancialForce.com

IntacctNetSuite

Plex Systems

Quickbooks

eBay

MRM

Claim Processing

Payroll

Sales tracking & Marketing

CommissionsDatabase

ERP

CRM

SCM

HCM

HCM

PLM

HPE

EMC

Cost Management

Order Entry

Product Configurator

Bills of MaterialEngineering

Inventory

Manufacturing Projects

Quality Control

SAP

Cash Management

Accounts ReceivableFixed AssetsCosting

Billing

Time and Expense

Activity ManagementTraining

Time & AttendanceRostering

Service

Data Warehousing

The InternetGigabytes

Client/ServerMegabytes

Every 60 seconds

IBM

Unisys

Burroughs

Hitachi

NECBull

Fijitsu

Mainframe Kilobytes

Mobile, Social, Big Data & The CloudZettabytes

217 new mobile web users 

Yottabytes

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.4

未来5年爆发增长的数据

机器数据是数据增长的主要贡献者 – 其预期到2020年会有15倍的增长(占整个数据量的40%)

202040ZB

IDC修正其预计2020年数据量会到40ZB而之前其预计为20ZB

2005 2010 2012 2015

8.5ZB2.8ZB1.2ZB0.1ZB

到2020年中国产生的数据比例会占到全世界的22%

U.S.32%

Western Europe

19%

China13%

India4%

rest of the world32%

22% by 2020

40%by 2020

当前数据分布

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Leverage your Data, Make it Matter

创新型公司正在改变游戏规则

• 开发颠覆性商业模式

• 开发更好的产品和服务

• 提升客户体验

• 驱动可持续竞争优势

All driven by the power of Big Data

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.6

大数据带来的挑战 现有的陈旧技术无法满足要求

过时的技术 专业人才的缺乏

86%的企业 无法 及时的提供正确的数据信息来支持企业业务决策Source: Coleman Parkes Survey Nov 2012

IT架构的挑战 缺少深入分析

0.5%只有0.5%的数据被标记成大数据进行分析

Source: IDC The Digital Universe in 2020, December 2012

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.7

重要特点:数据量大、增长迅速、变化多样性、复杂

大数据分析的能力需求

匹配分析模型

Velocit

y

Complexity

多目标导向与互动

上下文关系

BIG DATA

社交媒体

视频

音频

电子邮件

文本

移动电话

交易数据

设备数据

文档

收索引擎

图片

Volume

Variet

y

• 快速收集

• 海量存储

• 深度挖掘

• 实时分析

大数据给传统分析平台带来巨大挑战

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.8

New style of IT, HW and SW re-factor

交易处理

海量查询

文档对象

实时分析

Web中间件

数据库

操作系统

存储

编程语言

Web引擎

对象存储

文件存储

块存储

小型机+x86+以太网+SAN存储 x86+以太网传统架构 多元开放

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9

大数据需要新形态的IT基于分析结果的解决方案,对全部数据均具有如下核心

• 获取

• 存放

• 管理

• 分析

• 优化

半结构化数据

结构化数据

非结构化数据

100% of DataEnable us to:

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.10

新华三大数据Solution

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.11

强有力的数据管理与分析,集成的解决方案

新华三(H3C)大数据处理流程

处理非结构化和“人类”信息数据Autonomy

IDOL

极速高扩展性的实时分析

Vertica

管理超大规模的分布式数据Hadoop/

HDFS

收集整合机器数据 ArcSight

Logger

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.12

新华三(HPE)大数据平台组成部分

Social media IT/OT ImagesAudioVideoTransactional

dataMobile Search engineEmail Texts

处理大数据量、分布部署的数据

Hadoop/HDFS

处理并索引所有类型信息

AutonomyIDOL

实时分析极大规模结构化数据

Vertica

收集统一化机器数据

Enterprise Security

HPE Software 助力构建大数据应用

nApps

Documents

HPE.com/haven

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.13

大数据平台– Hadoop Centric View

Hadoop EcosystemOpen Source

HPE ProLiant / Converged InfrastructureDL380, SL4540, Moonshot 1500, Network

Analytics Data Intelligence Machine Data OLTP/ODSHPE Vertica HPE Autonomy HPE ArcSight HPE Trafodion

Open Source

Cluster/D

ata Managem

entB

SM

/HP

ED

SM

/CM

U

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.14

HPE 推荐采用的Hadoop版本-

Intel Hadoop

Cloudera Hadoop

开源版本Hadoop的主要挑战u 整体可用性较差 u集成度差:Hadoop是一个非常复杂的软件组合,需要诸多软件相互配合,其版本和配置协同性要求非常高。u 管控能力低下u 对外集成能力差u 软件服务能力差

=>商用Hadoop+服务是一个企业大数据成功的保障

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.15

Seamlessly access virtually any enterprise content repository, including file systems, email, or knowledge bases

400+ connectors

All data types, all content repositories – unmatched understanding

Intelligent Data Operating Layer (IDOL) Server platform

High-performance human information processing

HPE Autonomy IDOL

Leverage the power of functions like sentiment, categorization, and clustering to deliver intelligence and insight

Over 500 functions

Process virtually any file type such as text (email, tweet, document), audio, video, and even people profiles & behavior

1,000+ file types

Achieve big data scalability and high performance with distributable query architectureDistributable architecture

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.16

Gain insight into your data in near-real time by running queries 50x-1,000x faster than legacy products

Blazing fast analytics

Speed, scalability, and openness at lower TCO

HPE Vertica Analytics platform

High-performance data analytics platform purpose-built for big data

HPE Vertica

Infinitely scale your solution by adding an unlimited number of industry-standard servers

Massive scalability

Protect and embrace your investment in hardware and software with built-in support for Hadoop, R, and a range of ETL and BI tools

Open architecture

Store 10x-30x more data per server than row databases with patented columnar compression

Optimized data storage

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.17

大数据分析平台

解决方案 合作伙伴 渠道

分析软件

集成商与再售商

硬件

=成功!

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.18

大数据是数据和业务驱动的,广泛存在于各个行业

大数据在各行各业的应用场景

政府 电信 制造 医疗

• 情感分析

• 社交CRM / 网络分析

• 流失率缓解

• 品牌监控

• 跨界与销售提升

• 忠诚度与促销分析

• Web应用优化

• 市场活动优化

• 品牌管理

• 社交媒体分析

• 价格优化

• 内部风险评估

• 客户行为分析

• 营业额担保

• 物流优化

• 点击流分析

• 影响力分析

• IT架构分析

• 法律发现

• 设备监控

• 企业搜索

• 药物开发

• 科学研究

• 临床研究

• 健康结果分析

• 供应链优化

• 次品跟踪

• RFID关联分析

• 授权管理

• 网络监控与分析

• 流失率分析

• 业务优化

• 法规实施

• 反恐

• 交通流量优化

跨行业应用场景

金融

• 欺诈探测

• 反洗钱

• 风险管理

能源

• 天气预报

• 自然资源探测

大数据不再只是流行的概念

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.19

Hadoop平台介绍

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.20

合作伙伴

HPE 解决方案

参考体系结构“一体机”系统

参考体系结构 参考体系结构参考体系结构“一体机”系统

参考体系结构硬件

主控节点:DL360p工作节点:DL380p

主控节点:DL380e工作节点:DL380e

主控节点:DL360p工作节点:DL380e

主控节点:DL360p, SL4540, BL460c工作节点:DL380e, SL4540, BL420c

参考体系结构关注点

提供最佳的计算性能,兼容CDH4

提供最合理的、经全面测试的资源设计

有效地平衡性能、存储和成本

提供高效能、最优成本的企业级高可靠平台

市场地位 市场领先 2011年发布 2012年发布 2013年发布

业务模型开放的核心,闭源(收费的)管理 闭源文件系统和管理

开源软件,提供支持、培训

闭源管理,提供咨询、支持、培训

其它合作伙伴 Dell, Oracle, SGI EMC, Cisco Informatica, Teradata Dell

公司定位最全面的、经过测试的、稳定的产品,广泛部署在商业和非商业环境中

最先进的可靠性、速度、可管理性、易用性

作为思想领袖、设计师、建设者和领先的贡献者,致力于Apache Hadoop社区

最可靠、高效、稳定的解决方案,主要针对企业级商业市场

各有所长

Hadoop发行版解决方案对比New!

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.21

Intel Hadoop发行版的核心技术优势

1. 经过客户验证的企业级 Hadoop 版本, 稳定可靠

2. 图形化安装、管理、监控工具,自动进 行集群配置优化

3. 改进的 HDFS 文件 I/O 算法,提高系统扩 展性,适合不同配置服务器组成的集群

4. 根据 HDFS 数据的热点程度动态调整数 据复制策略,提高 HDFS 系统吞吐量

5. 解决了NameNode单点故障, HDFS 和 Map/Reduce 的高可靠性增强

6. 跨区域数据中心的 HBase 超级大表,位 置透明的数据访问和全局汇总

7. HBase 大表跨数据中心远程双向复制, 适合异地灾备

8. HBase 高级 Region 负载均衡算法,适合多应用、多用户

9. 基于 HBase 的更高性能的分布式聚 合和统计统计

10.HBase 的不同表或不同列族的复制份 数精细控制

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.22

Intel Hadoop集群硬件系统架构

管理服务 最大节点数量

Intel Hadoop Manager 1

JobTracker 1

NameNode 1

Secondary NameNode(可选) 1

HBase Master & ZooKeeper(可选) ≥3 (奇数)

Hive(可选) 3~5工作服务 最大节点数量

DataNode 多台

TaskTracker 多台

HBase RegionServer

可选多台

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.23

目标:提供高效能、最优成本的企业级高可靠平台

Intel Hadoop集群系统—服务器硬件要求

管理节点 主控节点 工作节点

服务器类型 推荐采用双路Intel Xeon处理器

CPU• Intel Hadoop Manager、JobTracker和NameNode均为

CPU密集型和多线程应用• CPU配置应能满足不断增长的集群容量的处理需求

• 要求每节点提供更多的Map/Reduce Slot的并行处理能力

内存

• 要求最低16GB内存,同时考虑如何最有效利用全部内存带宽;Intel建议内存配置为48GB 到 64GB。

• 不同服务器角色和服务类型有着各自的内存要求,例如:Intel Hadoop Manager-8GB,JobTracker-2GB,Task Tracker-2GB,NameNode-16GB,DataNode-2GB……

内置存储

• 推荐配置>6块SAS内置硬盘,单盘容量可选1TB或2TB• 通过配置SSD可大幅提升系统性能• 推荐在工作节点的内置存储中不使用RAID或使用单盘RAID 0模式(无法移除RAID的情况下)• 推荐在管理节点、主控节点的内置存储中使用RAID 1或RAID 5

网络 最低要求千兆以太网连接,推荐配置2块或以上以太网卡并实现冗余网络连接

推荐配置2颗Intel 6核或以上的E5系列Xeon处理器

推荐配置≥64GB最低16GB, Intel Hadoop Manager>8GB……

推荐配置≥ 64GB最低16GB, JobTracker>2GB, NameNode>16GB, Hbase Master+ZooKeeper>6GB……

推荐配置≥ 48GB最低16GB, DataNode/TaskTracker>2GB, 每Map/Reduce Slot>512MB, HBase Region Server>16GB……

推荐配置6/8块900GB SAS硬盘2/4块硬盘(RAID1+0)用于OS4块硬盘(RAID1+0)用于Data Staging

推荐配置≥ 12块1TB/2TB SATA硬盘(数据裸容量≥12TB)2块硬盘(RAID1+0)用于OS和Runtime≥ 12块硬盘(每块RAID 0)用于数据存储

推荐配置4块900GB SAS硬盘4块硬盘(RAID1+0)用于OS

推荐配置4个千兆以太网口或2个万兆以太网口

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.24

目标:提供高效能、最优成本的企业级高可靠平台

Intel Hadoop集群系统—服务器软件要求

管理节点 主控节点 工作节点

操作系统

Intel Hadoop支持多种操作系统:• RedHat Enterprise Linux 5/6• Oracle Enterprise Linux 6• CentOS 5/6• SUSE LinuxEnterprise Server 11• Debian GNU/Linux version 5.0• Ubuntu* Lucid

运行软件环境• Intel Distribution for Apache Hadoop 2.2• Apache Hadoop 1.0.3• Oracle Java 1.7.0_05

推荐采用RedHat Enterprise Linux 6.3操作系统

• Intel Hadoop Manager 2.2

• HPE Insight CMU 7.0• Oracle Java 1.7.0_05• NFS Server• Pig and/or Hive • ZooKeeper (可选)

JobTracker• JobTracker• Oracle Java

1.7.0_05• Hbase Master (可选)• ZooKeeper (可选)• Secondary

NameNode

• TaskTracker• Oracle Java

1.7.0_05• DataNode• HBase Region Server

(可选)

NameNode• NameNode• Oracle Java

1.7.0_05• NFS Client• ZooKeeper (可选)

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.25

目标:提供高效能、最优成本的企业级高可靠平台

Intel Hadoop集群系统—网络要求

架顶交换机(ToR) 汇聚交换机

用途用于接入机柜中的服务器节点,同时可上连汇聚交换机以实现集群扩展互联

用于汇聚互连各架顶交换机,实现跨机柜的集群扩展

部署要求每机柜配置2台,实现服务器连接和上连汇聚交换机链路的冗余

跨机柜集群时需配置2台以实现冗余

端口速率服务器连接带宽:1Gb或10Gb上连汇聚交换机带宽:10Gb架顶交换机互连带宽:10Gb

架顶交换机连接带宽:10Gb汇聚交换机互连带宽:10Gb

端口密度服务器连接端口≥计算节点数x2个上连汇聚交换机端口≥2个架顶交换机互连端口≥2个

汇聚交换机互连端口≥2个下连架顶交换机端口≥架顶交换机数x2个

技术要求

机架式、数据中心级千兆/万兆L2/L3全功能盒式交换机,具备全端口线速无阻塞交换的高性能和较大的缓存能力,支持大二层协议及主流虚拟化技术,支持热冗余插拔电源、风扇配置

机架式、数据中心级万兆L2/L3全功能盒式/模块化交换机,具备全端口无阻塞交换的高性能和较大的缓存能力,支持大二层协议及主流虚拟化技术,支持热冗余插拔电源、风扇配置

推荐配置:1Gb ToR交换机:HPE 5830AF-

48G10Gb ToR交换机:HPE 5900AF-

48XGT

推荐配置:盒式交换机:HPE 5920AF-24XG

模块化交换机:HPE 12500

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.26

专注于性能优化和效率提升

性能、成本均衡之选

超高计算密度,超强扩展能力

HPE 给客户以最佳的Intel Hadoop解决方案选择没有任何一个单一系统能够“满足不同客户的不同应用需求”

通用解决方案 (Universal IDH Solution)

• 管理、主控节点:DL360p gen9 (3)

• 工作节点:DL380e gen9 (18)• ToR交换机:HPE 5830AF-48G (2)

• 汇聚交换机:HPE 5920AF-24XG

高可扩展解决方案 (High Scalable IDH Sloution)

• 管理、主控节点: BL460c gen9 (3)

• 工作节点:BL420c gen9 (29)• ToR交换机:HPE 5920AF-24XG (2)

• 汇聚交换机:HPE 12508 (2)

• 计算节点:SL4540 gen9 Tray 3x (27)

• ToR交换机:HPE 5900AF-48XGT (2)

• 汇聚交换机:HPE 12508 (2)

效能优化解决方案 (Performance-Optimized

IDH Solution)• 管理、主控节点: BL460c gen9 (3)

• 工作节点:BL460c gen9 (29)• ToR交换机:HPE 5920AF-24XG (2)

• 汇聚交换机:HPE 12508 (2)

• 计算节点:SL4540 gen9 Tray 2x (18)

• ToR交换机:HPE 5900AF-48XGT (2)

• 汇聚交换机:HPE 12508 (2)

针对不同的应用场景与客户实际需求,提供经HPE和Intel联合验证的推荐配置组合

强强联合,久经考验Intel Distribution for Apache Hadoop 2.2 + HPE Insight CMU 7.0 + RedHat Linux 6.3

SL系列:专为大数据优化,更加高效节能

BL系列:专为集群计算优化,更加易于扩展

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.27

单机柜参考配置

通用解决方案(UIDH)参考体系结构

SoftwareRed Hat Linux 6.3 (x86_64)Intel Distribution for Apache Hadoop 2.2 HPE Insight Cluster Management Utility v7.0HPE Insight Control v7.0 for Linux

1 Management Node1 x HPE ProLiant DL360p gen9

(12 cores)2 x E5-2667 CPU, 64 GB memory7.2TB - 8 x HPE 900GB 6GB SAS

10K HDD1 x HPE Smart Array P420i

controller1 x HPE Ethernet 4P - 1GbE card

1 Name Node & 1 JobTracker Node2 x HPE ProLiant DL360p gen9 (12 cores/node)2 x E5-2667 CPU, 64 GB memory3.6 TB - 4 x HPE 900GB 6G SAS 10K HDD1 x HPE Smart Array P420i controller1 x HPE Ethernet 4P - 1GbE card

18 Worker Nodes18 x HPE ProLiant DL380e gen9

(12 cores/node)2 x E5-2440 CPU, 48 GB memory

2 x HPE 500GB SATA 7.2k LFF MDL

24TB - 12 x HPE 2TB 6G SATA 7.2k LFF MDL

1 x HPE Smart Array P420 Controller

1 x HPE Ethernet 4P - 1GbE

2 ToR switches2 x HPE 5830AF-48G switch

Optional: KVM switch

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.28

HPE Vertica介绍

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.29

通过实时和特定的分析发挥Hadoop解决方案的业务洞察力

HPE Vertica分析系统

• 为“即时”商业智能提供大数据分析

• 无限扩展——通过添加节点即可实现容量和性能同步扩展

• 极端压缩——可节省高达90%的存储空间

• 简单的程序装入立即执行机制,大规模并行处理架构,无单点故障

• 双向Hadoop数据连接器

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.30

常见数据库的定位

数据量 高低

OLTP系统

作业类型单行数据

实时性

批量

混合型场景

传统数据仓库大数据分析

DPF

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.31

高速、可扩展、开放与低成本

Vertica – 专为大数据架构的实时分析平台

新一代自动优化和管理工具

真正的列式数据库

原生支持高可用并能更好地优化性能

无共享MPP架构

列式存储和计算主动压缩

并行装载和查询弹性集群高可用

实时分析融合存储

SQL标准高级分析

用户自定义分析扩展

半结构化数据快速探索

HADOOP无缝集成

X86工业化标准服务器

> 快速

50x – 1000x性能提升

> 高可扩展(Scalability)TBs~10PBs间在线扩展

> 简单(Simplicity)

> 高压缩率

压缩率一般为10:1,节约90%的存储空间

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.32

Vertica处理海量数据的杰出性能

与其他DW数据库对比与传统OLTP数据库对比

600GB (6亿条)话单benchmark 1.2 TB (15亿条)话单benchmark

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.33

Vertica+Hadoop典型案例

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

四川电信网优硬件架构共25个节点,Vertica集群采用物理服务器,其他服务器采用云平台虚拟机。数据库集群本地磁盘采用Raid5方式提供存储。

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

四川电信网优系统运行情况

大数据系统:话单采集4个节点,话单汇总6个节点原网优平台:话单采集7个节点,话单汇总3个节点

项目 子项目 大数据系统 性能提升

话单文件采集解析速度(Hadoop操作) 4万条/秒 基本一致入库速度(Vertica) 2万条/秒 4倍

话单数据汇总 汇总速度 10万条/秒 10倍数据存储 1天原始话单占用存储空间 0.4T 压缩比5倍数据查询 按栅格统计1天 1秒 原系统无法完成

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.36

国内金融、电信行业案例

中国领先的第三方支付企业 理财基金交易和POS交易用户行为分析。替代Oracle。生成报表时间从2小时降到5分钟,批量处理过程从10小时降到40分钟,总体性能提升10x。

上海电信 3G网络流量分析。8:1压缩率,20分钟完成原系统16小时才能完成的数据加载任务,30分钟完成原系统12小时才能完成的汇总任务。

中国电信集团 互联网增值业务,>50TB

山西移动 信令实时分析,>100TB山东移动 网络综分,>10TB

其它典型案例 -1

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.37

p 两路x86服务器p NameNode节点:3台p DataNode(数据存储节点):~

200台p Zookeeper节点:7台p 集群监控节点:1台p 入库服务节点:24台p Web查询应用服务节点:20台

p 网络交换设备p 机框间通过万兆交换机连接,以完成

快速的数据交换p 英特尔Hadoop发行版

p 满足高性能的数据导入和快速查询。p 稳定、易于部署和管理的企业级方案。

37

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.38

Vertica 全球超過2500 客户,并且不断增长

金融行业 消费市场 在线网站和游戏 医疗 零售通信行业

很多数据量超过 1PB 的案例

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.39

新华三(HPE)大数据平台——总结

Social media IT/OT ImagesAudioVideoTransactional

dataMobile Search engineEmail Texts

硬件计算能力

标准的X86服务器

处理大数据量、分布部署的数据

Hadoop/HDFS

实时分析极大规模结构化数据

Vertica

数据安全,规范

Enterprise Security

构建大数据应用

客户应用

Documents

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.40

新华三致力成为帮助客户业务创新、产业升级最可信赖的合作伙伴

新华三的使命

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.41

谢谢!