新华三(hpe) 大数据平台 技术解决方案 · rackspace limelight jive softwar e s...
TRANSCRIPT
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.1
新华三(HPE) 大数据平台技术解决方案
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.2
大数据概述
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.3
快速创新和价值实现
695,000 status updates
98,000+ tweets
698,445 Google searches
1,820TB of data created
11million instant messages
168 million+ emails sent
YouTube
Viber
Qzone
Amazon Web Services
GoGrid
Rackspace
LimeLight
Jive Software
salesforce.com
Xactly
Paint.NET
Business
EducationEntertainment
Games
Lifestyle
Music
Navigation
News
Photo & Video
Productivity
Reference
Social Networking
Sport
Travel
Utilities
Workbrain
SuccessFactors
Taleo
Workday
Finance
box.net
TripIt
Zynga
Zynga
Baidu
Yammer
Atlassian
Atlassian
MobilieIronSmugMug
SmugMug
Atlassian
Amazon
AmazoniHandy
PingMe
PingMe
Associatedcontent
Flickr
Snapfish
Answers.com
Tumblr.
Urban
Scribd.Pandora
MobileFrame.com
Mixi
CYworld
Renren
Yandex
Yandex
Heroku
RightScale
New Relic
AppFog
BromiumSplunk
CloudSigma
cloudability
kaggle
nebula
Parse
ScaleXtreme
SolidFire
Zillabyte
dotCloud
BeyondCore
Mozy
Fring Toggl
MailChimp
Hootsuite
Foursquare
buzzd
Dragon Diction
SuperCam
UPS Mobile
Fed Ex Mobile
Scanner Pro
DocuSign
HPE ePrint
iSchedule
Khan Academy
BrainPOP
myHomework
Cookie Doodle
Ah! Fasion Girl
PaperHost
SLI Systems
NetSuite
OpSource
Joyent
Hosting.com
Tata Communications
Datapipe
PPM
Alterian
Hyland
NetDocuments
NetReach
OpenText
Xerox
Microsoft
IntraLinks
Qvidian
Sage
SugarCRM
Volusion
Zoho
Adobe
Avid
Corel
Microsoft
Serif
Yahoo
CyberShift
Saba
Softscape
Sonar6
Ariba
Yahoo!
Quadrem
Elemica
Kinaxis
CCC
DCC
SCMADP VirtualEdge
Cornerstone onDemand
CyberShift
KenexaSaba
Softscape
Sonar6
Workscape
Exact Online
FinancialForce.com
IntacctNetSuite
Plex Systems
Quickbooks
eBay
MRM
Claim Processing
Payroll
Sales tracking & Marketing
CommissionsDatabase
ERP
CRM
SCM
HCM
HCM
PLM
HPE
EMC
Cost Management
Order Entry
Product Configurator
Bills of MaterialEngineering
Inventory
Manufacturing Projects
Quality Control
SAP
Cash Management
Accounts ReceivableFixed AssetsCosting
Billing
Time and Expense
Activity ManagementTraining
Time & AttendanceRostering
Service
Data Warehousing
The InternetGigabytes
Client/ServerMegabytes
Every 60 seconds
IBM
Unisys
Burroughs
Hitachi
NECBull
Fijitsu
Mainframe Kilobytes
Mobile, Social, Big Data & The CloudZettabytes
217 new mobile web users
Yottabytes
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.4
未来5年爆发增长的数据
机器数据是数据增长的主要贡献者 – 其预期到2020年会有15倍的增长(占整个数据量的40%)
202040ZB
IDC修正其预计2020年数据量会到40ZB而之前其预计为20ZB
2005 2010 2012 2015
8.5ZB2.8ZB1.2ZB0.1ZB
到2020年中国产生的数据比例会占到全世界的22%
U.S.32%
Western Europe
19%
China13%
India4%
rest of the world32%
22% by 2020
40%by 2020
当前数据分布
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Leverage your Data, Make it Matter
创新型公司正在改变游戏规则
• 开发颠覆性商业模式
• 开发更好的产品和服务
• 提升客户体验
• 驱动可持续竞争优势
All driven by the power of Big Data
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.6
大数据带来的挑战 现有的陈旧技术无法满足要求
过时的技术 专业人才的缺乏
86%的企业 无法 及时的提供正确的数据信息来支持企业业务决策Source: Coleman Parkes Survey Nov 2012
IT架构的挑战 缺少深入分析
0.5%只有0.5%的数据被标记成大数据进行分析
Source: IDC The Digital Universe in 2020, December 2012
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.7
重要特点:数据量大、增长迅速、变化多样性、复杂
大数据分析的能力需求
匹配分析模型
Velocit
y
Complexity
多目标导向与互动
上下文关系
BIG DATA
社交媒体
视频
音频
电子邮件
文本
移动电话
交易数据
设备数据
文档
收索引擎
图片
Volume
Variet
y
• 快速收集
• 海量存储
• 深度挖掘
• 实时分析
大数据给传统分析平台带来巨大挑战
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.8
New style of IT, HW and SW re-factor
交易处理
海量查询
文档对象
实时分析
Web中间件
数据库
操作系统
存储
编程语言
Web引擎
对象存储
文件存储
块存储
小型机+x86+以太网+SAN存储 x86+以太网传统架构 多元开放
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9
大数据需要新形态的IT基于分析结果的解决方案,对全部数据均具有如下核心
• 获取
• 存放
• 管理
• 分析
• 优化
半结构化数据
结构化数据
非结构化数据
100% of DataEnable us to:
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.10
新华三大数据Solution
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.11
强有力的数据管理与分析,集成的解决方案
新华三(H3C)大数据处理流程
处理非结构化和“人类”信息数据Autonomy
IDOL
极速高扩展性的实时分析
Vertica
管理超大规模的分布式数据Hadoop/
HDFS
收集整合机器数据 ArcSight
Logger
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.12
新华三(HPE)大数据平台组成部分
Social media IT/OT ImagesAudioVideoTransactional
dataMobile Search engineEmail Texts
处理大数据量、分布部署的数据
Hadoop/HDFS
处理并索引所有类型信息
AutonomyIDOL
实时分析极大规模结构化数据
Vertica
收集统一化机器数据
Enterprise Security
HPE Software 助力构建大数据应用
nApps
Documents
HPE.com/haven
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.13
大数据平台– Hadoop Centric View
Hadoop EcosystemOpen Source
HPE ProLiant / Converged InfrastructureDL380, SL4540, Moonshot 1500, Network
Analytics Data Intelligence Machine Data OLTP/ODSHPE Vertica HPE Autonomy HPE ArcSight HPE Trafodion
Open Source
Cluster/D
ata Managem
entB
SM
/HP
ED
SM
/CM
U
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.14
HPE 推荐采用的Hadoop版本-
Intel Hadoop
Cloudera Hadoop
开源版本Hadoop的主要挑战u 整体可用性较差 u集成度差:Hadoop是一个非常复杂的软件组合,需要诸多软件相互配合,其版本和配置协同性要求非常高。u 管控能力低下u 对外集成能力差u 软件服务能力差
=>商用Hadoop+服务是一个企业大数据成功的保障
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.15
Seamlessly access virtually any enterprise content repository, including file systems, email, or knowledge bases
400+ connectors
All data types, all content repositories – unmatched understanding
Intelligent Data Operating Layer (IDOL) Server platform
High-performance human information processing
HPE Autonomy IDOL
Leverage the power of functions like sentiment, categorization, and clustering to deliver intelligence and insight
Over 500 functions
Process virtually any file type such as text (email, tweet, document), audio, video, and even people profiles & behavior
1,000+ file types
Achieve big data scalability and high performance with distributable query architectureDistributable architecture
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.16
Gain insight into your data in near-real time by running queries 50x-1,000x faster than legacy products
Blazing fast analytics
Speed, scalability, and openness at lower TCO
HPE Vertica Analytics platform
High-performance data analytics platform purpose-built for big data
HPE Vertica
Infinitely scale your solution by adding an unlimited number of industry-standard servers
Massive scalability
Protect and embrace your investment in hardware and software with built-in support for Hadoop, R, and a range of ETL and BI tools
Open architecture
Store 10x-30x more data per server than row databases with patented columnar compression
Optimized data storage
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.17
大数据分析平台
解决方案 合作伙伴 渠道
分析软件
集成商与再售商
硬件
=成功!
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.18
大数据是数据和业务驱动的,广泛存在于各个行业
大数据在各行各业的应用场景
政府 电信 制造 医疗
• 情感分析
• 社交CRM / 网络分析
• 流失率缓解
• 品牌监控
• 跨界与销售提升
• 忠诚度与促销分析
• Web应用优化
• 市场活动优化
• 品牌管理
• 社交媒体分析
• 价格优化
• 内部风险评估
• 客户行为分析
• 营业额担保
• 物流优化
• 点击流分析
• 影响力分析
• IT架构分析
• 法律发现
• 设备监控
• 企业搜索
• 药物开发
• 科学研究
• 临床研究
• 健康结果分析
• 供应链优化
• 次品跟踪
• RFID关联分析
• 授权管理
• 网络监控与分析
• 流失率分析
• 业务优化
• 法规实施
• 反恐
• 交通流量优化
跨行业应用场景
金融
• 欺诈探测
• 反洗钱
• 风险管理
能源
• 天气预报
• 自然资源探测
大数据不再只是流行的概念
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.19
Hadoop平台介绍
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.20
合作伙伴
HPE 解决方案
参考体系结构“一体机”系统
参考体系结构 参考体系结构参考体系结构“一体机”系统
参考体系结构硬件
主控节点:DL360p工作节点:DL380p
主控节点:DL380e工作节点:DL380e
主控节点:DL360p工作节点:DL380e
主控节点:DL360p, SL4540, BL460c工作节点:DL380e, SL4540, BL420c
参考体系结构关注点
提供最佳的计算性能,兼容CDH4
提供最合理的、经全面测试的资源设计
有效地平衡性能、存储和成本
提供高效能、最优成本的企业级高可靠平台
市场地位 市场领先 2011年发布 2012年发布 2013年发布
业务模型开放的核心,闭源(收费的)管理 闭源文件系统和管理
开源软件,提供支持、培训
闭源管理,提供咨询、支持、培训
其它合作伙伴 Dell, Oracle, SGI EMC, Cisco Informatica, Teradata Dell
公司定位最全面的、经过测试的、稳定的产品,广泛部署在商业和非商业环境中
最先进的可靠性、速度、可管理性、易用性
作为思想领袖、设计师、建设者和领先的贡献者,致力于Apache Hadoop社区
最可靠、高效、稳定的解决方案,主要针对企业级商业市场
各有所长
Hadoop发行版解决方案对比New!
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.21
Intel Hadoop发行版的核心技术优势
1. 经过客户验证的企业级 Hadoop 版本, 稳定可靠
2. 图形化安装、管理、监控工具,自动进 行集群配置优化
3. 改进的 HDFS 文件 I/O 算法,提高系统扩 展性,适合不同配置服务器组成的集群
4. 根据 HDFS 数据的热点程度动态调整数 据复制策略,提高 HDFS 系统吞吐量
5. 解决了NameNode单点故障, HDFS 和 Map/Reduce 的高可靠性增强
6. 跨区域数据中心的 HBase 超级大表,位 置透明的数据访问和全局汇总
7. HBase 大表跨数据中心远程双向复制, 适合异地灾备
8. HBase 高级 Region 负载均衡算法,适合多应用、多用户
9. 基于 HBase 的更高性能的分布式聚 合和统计统计
10.HBase 的不同表或不同列族的复制份 数精细控制
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.22
Intel Hadoop集群硬件系统架构
管理服务 最大节点数量
Intel Hadoop Manager 1
JobTracker 1
NameNode 1
Secondary NameNode(可选) 1
HBase Master & ZooKeeper(可选) ≥3 (奇数)
Hive(可选) 3~5工作服务 最大节点数量
DataNode 多台
TaskTracker 多台
HBase RegionServer
可选多台
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.23
目标:提供高效能、最优成本的企业级高可靠平台
Intel Hadoop集群系统—服务器硬件要求
管理节点 主控节点 工作节点
服务器类型 推荐采用双路Intel Xeon处理器
CPU• Intel Hadoop Manager、JobTracker和NameNode均为
CPU密集型和多线程应用• CPU配置应能满足不断增长的集群容量的处理需求
• 要求每节点提供更多的Map/Reduce Slot的并行处理能力
内存
• 要求最低16GB内存,同时考虑如何最有效利用全部内存带宽;Intel建议内存配置为48GB 到 64GB。
• 不同服务器角色和服务类型有着各自的内存要求,例如:Intel Hadoop Manager-8GB,JobTracker-2GB,Task Tracker-2GB,NameNode-16GB,DataNode-2GB……
内置存储
• 推荐配置>6块SAS内置硬盘,单盘容量可选1TB或2TB• 通过配置SSD可大幅提升系统性能• 推荐在工作节点的内置存储中不使用RAID或使用单盘RAID 0模式(无法移除RAID的情况下)• 推荐在管理节点、主控节点的内置存储中使用RAID 1或RAID 5
网络 最低要求千兆以太网连接,推荐配置2块或以上以太网卡并实现冗余网络连接
推荐配置2颗Intel 6核或以上的E5系列Xeon处理器
推荐配置≥64GB最低16GB, Intel Hadoop Manager>8GB……
推荐配置≥ 64GB最低16GB, JobTracker>2GB, NameNode>16GB, Hbase Master+ZooKeeper>6GB……
推荐配置≥ 48GB最低16GB, DataNode/TaskTracker>2GB, 每Map/Reduce Slot>512MB, HBase Region Server>16GB……
推荐配置6/8块900GB SAS硬盘2/4块硬盘(RAID1+0)用于OS4块硬盘(RAID1+0)用于Data Staging
推荐配置≥ 12块1TB/2TB SATA硬盘(数据裸容量≥12TB)2块硬盘(RAID1+0)用于OS和Runtime≥ 12块硬盘(每块RAID 0)用于数据存储
推荐配置4块900GB SAS硬盘4块硬盘(RAID1+0)用于OS
推荐配置4个千兆以太网口或2个万兆以太网口
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.24
目标:提供高效能、最优成本的企业级高可靠平台
Intel Hadoop集群系统—服务器软件要求
管理节点 主控节点 工作节点
操作系统
Intel Hadoop支持多种操作系统:• RedHat Enterprise Linux 5/6• Oracle Enterprise Linux 6• CentOS 5/6• SUSE LinuxEnterprise Server 11• Debian GNU/Linux version 5.0• Ubuntu* Lucid
运行软件环境• Intel Distribution for Apache Hadoop 2.2• Apache Hadoop 1.0.3• Oracle Java 1.7.0_05
推荐采用RedHat Enterprise Linux 6.3操作系统
• Intel Hadoop Manager 2.2
• HPE Insight CMU 7.0• Oracle Java 1.7.0_05• NFS Server• Pig and/or Hive • ZooKeeper (可选)
JobTracker• JobTracker• Oracle Java
1.7.0_05• Hbase Master (可选)• ZooKeeper (可选)• Secondary
NameNode
• TaskTracker• Oracle Java
1.7.0_05• DataNode• HBase Region Server
(可选)
NameNode• NameNode• Oracle Java
1.7.0_05• NFS Client• ZooKeeper (可选)
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.25
目标:提供高效能、最优成本的企业级高可靠平台
Intel Hadoop集群系统—网络要求
架顶交换机(ToR) 汇聚交换机
用途用于接入机柜中的服务器节点,同时可上连汇聚交换机以实现集群扩展互联
用于汇聚互连各架顶交换机,实现跨机柜的集群扩展
部署要求每机柜配置2台,实现服务器连接和上连汇聚交换机链路的冗余
跨机柜集群时需配置2台以实现冗余
端口速率服务器连接带宽:1Gb或10Gb上连汇聚交换机带宽:10Gb架顶交换机互连带宽:10Gb
架顶交换机连接带宽:10Gb汇聚交换机互连带宽:10Gb
端口密度服务器连接端口≥计算节点数x2个上连汇聚交换机端口≥2个架顶交换机互连端口≥2个
汇聚交换机互连端口≥2个下连架顶交换机端口≥架顶交换机数x2个
技术要求
机架式、数据中心级千兆/万兆L2/L3全功能盒式交换机,具备全端口线速无阻塞交换的高性能和较大的缓存能力,支持大二层协议及主流虚拟化技术,支持热冗余插拔电源、风扇配置
机架式、数据中心级万兆L2/L3全功能盒式/模块化交换机,具备全端口无阻塞交换的高性能和较大的缓存能力,支持大二层协议及主流虚拟化技术,支持热冗余插拔电源、风扇配置
推荐配置:1Gb ToR交换机:HPE 5830AF-
48G10Gb ToR交换机:HPE 5900AF-
48XGT
推荐配置:盒式交换机:HPE 5920AF-24XG
模块化交换机:HPE 12500
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.26
专注于性能优化和效率提升
性能、成本均衡之选
超高计算密度,超强扩展能力
HPE 给客户以最佳的Intel Hadoop解决方案选择没有任何一个单一系统能够“满足不同客户的不同应用需求”
通用解决方案 (Universal IDH Solution)
• 管理、主控节点:DL360p gen9 (3)
• 工作节点:DL380e gen9 (18)• ToR交换机:HPE 5830AF-48G (2)
• 汇聚交换机:HPE 5920AF-24XG
高可扩展解决方案 (High Scalable IDH Sloution)
• 管理、主控节点: BL460c gen9 (3)
• 工作节点:BL420c gen9 (29)• ToR交换机:HPE 5920AF-24XG (2)
• 汇聚交换机:HPE 12508 (2)
• 计算节点:SL4540 gen9 Tray 3x (27)
• ToR交换机:HPE 5900AF-48XGT (2)
• 汇聚交换机:HPE 12508 (2)
效能优化解决方案 (Performance-Optimized
IDH Solution)• 管理、主控节点: BL460c gen9 (3)
• 工作节点:BL460c gen9 (29)• ToR交换机:HPE 5920AF-24XG (2)
• 汇聚交换机:HPE 12508 (2)
• 计算节点:SL4540 gen9 Tray 2x (18)
• ToR交换机:HPE 5900AF-48XGT (2)
• 汇聚交换机:HPE 12508 (2)
针对不同的应用场景与客户实际需求,提供经HPE和Intel联合验证的推荐配置组合
强强联合,久经考验Intel Distribution for Apache Hadoop 2.2 + HPE Insight CMU 7.0 + RedHat Linux 6.3
SL系列:专为大数据优化,更加高效节能
BL系列:专为集群计算优化,更加易于扩展
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.27
单机柜参考配置
通用解决方案(UIDH)参考体系结构
SoftwareRed Hat Linux 6.3 (x86_64)Intel Distribution for Apache Hadoop 2.2 HPE Insight Cluster Management Utility v7.0HPE Insight Control v7.0 for Linux
1 Management Node1 x HPE ProLiant DL360p gen9
(12 cores)2 x E5-2667 CPU, 64 GB memory7.2TB - 8 x HPE 900GB 6GB SAS
10K HDD1 x HPE Smart Array P420i
controller1 x HPE Ethernet 4P - 1GbE card
1 Name Node & 1 JobTracker Node2 x HPE ProLiant DL360p gen9 (12 cores/node)2 x E5-2667 CPU, 64 GB memory3.6 TB - 4 x HPE 900GB 6G SAS 10K HDD1 x HPE Smart Array P420i controller1 x HPE Ethernet 4P - 1GbE card
18 Worker Nodes18 x HPE ProLiant DL380e gen9
(12 cores/node)2 x E5-2440 CPU, 48 GB memory
2 x HPE 500GB SATA 7.2k LFF MDL
24TB - 12 x HPE 2TB 6G SATA 7.2k LFF MDL
1 x HPE Smart Array P420 Controller
1 x HPE Ethernet 4P - 1GbE
2 ToR switches2 x HPE 5830AF-48G switch
Optional: KVM switch
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.28
HPE Vertica介绍
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.29
通过实时和特定的分析发挥Hadoop解决方案的业务洞察力
HPE Vertica分析系统
• 为“即时”商业智能提供大数据分析
• 无限扩展——通过添加节点即可实现容量和性能同步扩展
• 极端压缩——可节省高达90%的存储空间
• 简单的程序装入立即执行机制,大规模并行处理架构,无单点故障
• 双向Hadoop数据连接器
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.30
常见数据库的定位
数据量 高低
OLTP系统
作业类型单行数据
实时性
高
低
批量
混合型场景
传统数据仓库大数据分析
DPF
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.31
高速、可扩展、开放与低成本
Vertica – 专为大数据架构的实时分析平台
新一代自动优化和管理工具
真正的列式数据库
原生支持高可用并能更好地优化性能
无共享MPP架构
列式存储和计算主动压缩
并行装载和查询弹性集群高可用
实时分析融合存储
SQL标准高级分析
用户自定义分析扩展
半结构化数据快速探索
HADOOP无缝集成
X86工业化标准服务器
> 快速
50x – 1000x性能提升
> 高可扩展(Scalability)TBs~10PBs间在线扩展
> 简单(Simplicity)
> 高压缩率
压缩率一般为10:1,节约90%的存储空间
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.32
Vertica处理海量数据的杰出性能
与其他DW数据库对比与传统OLTP数据库对比
600GB (6亿条)话单benchmark 1.2 TB (15亿条)话单benchmark
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.33
Vertica+Hadoop典型案例
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
四川电信网优硬件架构共25个节点,Vertica集群采用物理服务器,其他服务器采用云平台虚拟机。数据库集群本地磁盘采用Raid5方式提供存储。
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
四川电信网优系统运行情况
大数据系统:话单采集4个节点,话单汇总6个节点原网优平台:话单采集7个节点,话单汇总3个节点
项目 子项目 大数据系统 性能提升
话单文件采集解析速度(Hadoop操作) 4万条/秒 基本一致入库速度(Vertica) 2万条/秒 4倍
话单数据汇总 汇总速度 10万条/秒 10倍数据存储 1天原始话单占用存储空间 0.4T 压缩比5倍数据查询 按栅格统计1天 1秒 原系统无法完成
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.36
国内金融、电信行业案例
中国领先的第三方支付企业 理财基金交易和POS交易用户行为分析。替代Oracle。生成报表时间从2小时降到5分钟,批量处理过程从10小时降到40分钟,总体性能提升10x。
上海电信 3G网络流量分析。8:1压缩率,20分钟完成原系统16小时才能完成的数据加载任务,30分钟完成原系统12小时才能完成的汇总任务。
中国电信集团 互联网增值业务,>50TB
山西移动 信令实时分析,>100TB山东移动 网络综分,>10TB
其它典型案例 -1
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.37
p 两路x86服务器p NameNode节点:3台p DataNode(数据存储节点):~
200台p Zookeeper节点:7台p 集群监控节点:1台p 入库服务节点:24台p Web查询应用服务节点:20台
p 网络交换设备p 机框间通过万兆交换机连接,以完成
快速的数据交换p 英特尔Hadoop发行版
p 满足高性能的数据导入和快速查询。p 稳定、易于部署和管理的企业级方案。
37
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.38
Vertica 全球超過2500 客户,并且不断增长
金融行业 消费市场 在线网站和游戏 医疗 零售通信行业
很多数据量超过 1PB 的案例
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.39
新华三(HPE)大数据平台——总结
Social media IT/OT ImagesAudioVideoTransactional
dataMobile Search engineEmail Texts
硬件计算能力
标准的X86服务器
处理大数据量、分布部署的数据
Hadoop/HDFS
实时分析极大规模结构化数据
Vertica
数据安全,规范
Enterprise Security
构建大数据应用
客户应用
Documents
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.40
新华三致力成为帮助客户业务创新、产业升级最可信赖的合作伙伴
新华三的使命