dell twitter redesign - eolfree.eol.cn/edu_net/edudown/20140512/zhangjin.pdf · hadoop 是由apache...
TRANSCRIPT
戴尔高校Hadoop解决方案
张晋
戴尔高级系统顾问
• Dell - Internal Use - Confidential 2
人们正在以飞快的速度创建和使用数据…
6000亿美元每年因数据错误或数据质量低下而浪费6000亿美元。
70%的数据由消费者创建。但其中80%的数据都由企业负责存储和管理。
1.8ZB 2012年使用的业务数据达到1.8ZB,比2011年增长了30%。
2320亿美元到2016年,投入在大数据上的资金将达到2320亿美元
440万全球将创造440万个IT工作机会来支持大数据。只有1/3能够聘用到员工。
37.5%37.5%的大型组织表示,分析大数据是其最大的挑战。
2470亿每天发送的电子邮件数量达到2470亿封。其中80%是垃圾邮件。
48小时每分钟就有长达48小时的视频上传到YouTube,这样每天的内容需要8年才能播放完毕。
2亿每日上传到Facebook的照片数量达到2亿张。这样算下来,每月将上传60亿张照片。
• Dell - Internal Use - Confidential
3
出现以下情况时,应考虑采用大数据…
存在来自多个数据源并采用各种不同格式的相关数据
数据流源源不断地产生,但在捕获、存储和处理方面存在难题
高昂的扩展成本令人望而却步
大量有用的存档数据存在于磁带上(经过特定的时间后便不可恢复)
需要分析的数据占大多数,而不是仅占一小部分
采用现有的技术堆栈执行数据分析不可行/不切实际
• Dell - Internal Use - Confidential
什么是大数据(Big Data)?
总量
可用存储
创建的信息
超载
全球创建的信息和可用的存储(单位:Exabyte)
预测
教育研究
行业
科学研究
系统数据处理
来源:IDC
遗留资产
Hadoop环境
机器学习社会网络分析商业智能
金融保险航空
医疗影像天气数据卫星传送
销售数据会计数据客户数据
日志文件网络信息Web分析
“大数据”作为一个较新的概念,还没有特别明确的定义。比较通用的表述是指所涉及的资料量规模巨大到无法通过目前主流软件工具在合理时间内撷取、管理、处理并整理成有助于实现企业经营决策更积极目的的资讯。
• Dell - Internal Use - Confidential
大数据分析不同于传统BI分析
• 结构化数据
• 数据规模一般为TB规模
• 集中式,为了分析进行大量数据移动,数据向计算靠近
• 批处理为主
• 结构化/非结构化混合分析的能力
• 数据规模从数十TB到PB级别
• 分布式,计算向数据靠近
• 支持流式分析
事务
关系型数据库
批处理
数据仓库
分析
集群化非结构化
流式
多种数据源
分析
(MapReduce)
组织
传统BI分析 大数据分析
Examples:
Telco Govt Finance Web
• Dell - Internal Use - Confidential
Hadoop 与“大数据”
• Hadoop是致力于“大数据”处理的最重要平台之一–能够轻松扩展到PB级别的数据存储,处理规模
–带有容错功能的并行处理架构
–基于普通的X86平台硬件架构,硬件成本低廉
–用内置格式存储/处理数据
–基于开源项目,拥有当量的代码来源,并且传统厂商也日益重视对其的支持,它已经成为重要的并行处理架构标准之一
• Dell - Internal Use - Confidential
什么是Hadoop?
Hadoop分布式文件系统(HadoopDistributed File
System,HDFS)
跨物理服务器的文件共享和数据保护
MapReduce
跨物理服务器的分布式计算
整合一切
存储和挖掘任何类型数据的单一存储库
不受单一模式束缚
擅长复杂的分析
水平扩展的架构跨多个节点分配工作负载
灵活的文件系统消除ETL(提取、转换、加载)瓶颈
经济地扩展
能够在商用硬件上部署
开源平台避免供应商锁定
Hadoop是数据存储和处理的平台,它是……
可扩展的 容错的 开源的
核心HADOOP组件
• Dell - Internal Use - Confidential
Map Reduce – Hadoop 数据分析流程
Map Reduce的整个单词统计过程
输入 拆分 映射 混排 精简 最终结果
• Dell - Internal Use - Confidential
常见的Hadoop客户使用案例
• 亚马逊——亚马逊使用Hadoop寻找客户采购行为的模式,让他们基于过去的采购记录对客户可能希望的采购项目提供建议。
• LinkedIn —— LinkedIn使用Hadoop根据它们用户个人档案,为工作职位创建潜在候选者的模型。基于这些模型,LinkedIn将会为用户推荐工作机会,让用户只会看到与他们的LinkedIn个人档案和经验相匹配的工作机会。
• Facebook —— Facebook使用Hadoop的方式之一是:管理大量的数据和根据用户的现有好友名单提供关于新朋友的建议。
• 电力公司——由于电网中的传感器数量不断增长,许多电力公司正在使用Hadoop存储和处理来自这些传感器的信息。由于随着时间情况不断变化,电力公司可以使用这些信息规划整个电网的供电能力。
• Dell - Internal Use - Confidential
分析对业务有什么意义?
“分析意味着发现数据中的关系”
发生了什么?何时发生的?
它是怎么发生的,为什么会
发生?
将会发生什么?怎么能够更好地完成?
事实(数据) 解释过去
未来
1. 分析示例:每季度的销售报告
2. 模拟/预测示例:• 运行不同的销售情景,确定下季度最
佳的产品组合
• 进行模拟,确定向具体新地区派遣的销售专业人员总数
3. 战略示例:• “预测”对比“结果分析”;可预测的模式;决策
业务需求:
大多数的Hadoop实施在这里!
• Dell - Internal Use - Confidential
高校大数据分析
11
• Dell - Internal Use - Confidential
12
高校大数据特征
第一,它不是随机样本而是全体数据。这是与样本调查模式的数据分析的显著区别。随机样本是希望通过尽可能少的样本获得尽可能多的信息。但其受限于样本选择的算法,往往会有遗漏。大数据不是样本,而是全部数据。第二,全数据模式。在这一点中强调大数据的大不是指绝对数值上的大,而是所有数据(如果高校学生招生20 年,那么拥有20 年学生数据的所有就可以称之为大数据)。第三,强调了不是因果关系而是相关关系,这种关系导致大数据的最终关键点是分析和预测。
• Dell - Internal Use - Confidential
13
高校大数据需要部署MapRe-duce和Hadoop
目前,参与高校智能服务的大数据在绝对数量值和计算量都不是很高,为了应对将来可能产生的海量数据和高负荷计算,需要部署实施MapRe-duce和Hadoop。
MapReduce将传统的查询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点,对海量数据进行分割、任务分解与结果汇总后完成海量数据的并行处理。Hadoop 是由Apache 基金会开发的一个分布式系统基础架构,利用集群的高速运算和存储。Hadoop 采用分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS具有高容错性特点,特别适合部署在低廉的硬件上,比较适合高校中轻量级的高速运算。
• Dell - Internal Use - Confidential
14
• 不同系统数据抽取、转换和加载• 数据分析• 业务预测
大数据在高校中的应用研究http://www.edu.cn/xy_6541/20140210/t20140210_1071422_1.shtml
大数据的处理流程
• Dell - Internal Use - Confidential
•就业情况分析
大数据在高校中的应用研究http://www.edu.cn/xy_6541/20140210/t20140210_1071422_1.shtml
大数据在高校中的典型应用
15
• Dell - Internal Use - Confidential
16
•学习行为分析应用大数据分析技术使得监控学生的每一个学习行为,用这些学生学习的行为档案创造适应性的学习系统能够提高学生的学习效果
•学科规划借助大数据分析技术,充分收集各学科的教学状态数据、科研项目数据、前沿发展动态等信息,从而分析学科建设存在的不足,确定学科未来发展的方向,发掘出潜在的具有国际视野的学科带头人
大数据在高校中的典型应用
• Dell - Internal Use - Confidential
17
• 大数据的概念很新,所描绘的场景前所未有,很多学校业务部门和校领导对数据的真正价值认识不够,还未意识到对大数据的分析和挖掘能发现有价值的信息
• 数据分析和挖掘对专业背景的要求很高,在高校跨业务的数据集中模式下,目前对数据的有效利用需要不同领域的业务人员共同参与,协调和管理成本较高,难以推进
• 高校业务复杂、特点鲜明,特别是近几年一直处于改革与发展阶段,业务和管理模式还未形成稳定形式,数据产生和数据积累随意性较大、系统性不够;从技术层面而言,相关的行业研究刚起步,分析模型还未成熟固定,目前许多分析案例均为零星尝试,大规模应用还未形成
• 目前校园信息化数据积累数量和涵盖范围还不够,信息化校园数据中心基本只保存了结构化数据,大量的非结构化数据还未被纳入视野;另外数据质量不佳、更新不及时,削弱了数据利用的效果。
大数据在高校中的应用研究http://www.gyvtc.cn:86/wlzx/news/139287519397780764.html
高校大数据应用难点
• Dell - Internal Use - Confidential
戴尔:针对Hadoop/大数据推出的端到端企业解决方案
18
• Dell - Internal Use - Confidential
19
戴尔大数据解决方案的方法论……
• 与合作伙伴协作
• 结合软硬件和服务
• 参考架构和规模确定
• 更加深入的售前咨询
• 整合的售后技术支持
简化客户体验缩短投入生产所需的时间
优化解决方案性能
提供最佳的投资回报
我们如何实现?
• Dell - Internal Use - Confidential
戴尔大数据解决方案包括
Hadoop 发行版
• 英特尔 Hadoop 发行版
• Cloudera Hadoop 发行版
戴尔Crowbar工具
• Chef、Ganglia、Nagios、IPMI
戴尔PE-C6220、PE-C8000及PE-R720服务器
戴尔PC-6248、Force10 S60千兆以太网交换机
解决方案通过以下方式提供:
• 参考架构
• 部署向导
• 戴尔部署服务
• Dell - Internal Use - Confidential
戴尔基于Hadoop的大数据解决方案
价值、性能和灵活性
Intel Hadoop Cloudera Hadoop
或
• Dell - Internal Use - Confidential
戴尔基于Hadoop的大数据解决方案
• 验证并合格的参考架构,强大的计算和存储、灵活的网络连接• Crowbar工具快速安装、部署、监控、运维• 最大限度的优化 - 能源、性能、密度、总体拥有成本(TCO)
价值、性能和灵活性
• 基于Hadoop底层的大量优化算法,使应用
效率更高、计算存储分布更均衡
• 企业级发行版保证长期稳定运行
• Intel Hadoop Manager提供独有的基于浏
览器的集群安装和管理界面
• 提供跨数据中心的HBase数据库虚拟大表
功能
• 在商用和非商用环境中,Apache Hadoop
排名第一的发行版本。
• Cloudera的管理工具让管理简单和直接。
• Cloudera雇用了90%以上的CDH的项目创始
者和提交者
• 对稳定性和互操作性进行了测试
或
Intel Hadoop Cloudera Hadoop
• Dell - Internal Use - Confidential
23
戴尔 Crowbar - Hadoop集群部署的自动化
从包装的节点开始
拆开包装和上架
上架好的节点
用线缆连接交换机和电源
准备好的节点
为节点供电(网络启动)
发现节点
重新启动/网络启动
硬件安装
BIOS/RAID/BM
C
重新启动/网络启动
基本操作系统安装
重新启动/网络启动
为角色做好准备
硬件更新
在UI中对更新进行标记
重新启动/网络启动
Chef客户端完成
Crowbar UI分配新角
色
应用角色
从“裸机”开始
• 系统BIOS更新和配置
• RAID/SAS配置
• 操作系统部署
• 部署Hadoop软件
• Hadoop软件配置
• 监控和报警的集成
• Hadoop持续运维
• Dell - Internal Use - Confidential
典型的Hadoop用户痛点 - 戴尔解决方案的价值
缺少集成的配置管理
•戴尔的Crowbar软件,让您Hadoop环境中的配置变化被快速地部署和保持一致性。
默认的Hadoop安装,较差的资源分配
•戴尔的参考架构提供配置参数,确保在部署中最大限度地利用戴尔硬件。
缺少网络架构经验
•戴尔的参考架构包括一个推荐的、经过测试、经过验证的网络配置。
缺少监测、报警和诊断
•戴尔Crowbar部署Nagios、Ganglia,结合Cloudera Hadoop企业版或Intel Hadoop管理工具,从而提供完整的解决方案,对您的Hadoop集群进行监测、报警、诊断和故障排除。
单点故障
•戴尔推荐的参考架构包括一些配置要求,可以解决常见的与Hadoop Name Node(名称节点)相关的单点故障。
• Dell - Internal Use - Confidential
戴尔针对大数据优化PowerEdge服务器配置
25
• Dell - Internal Use - Confidential
26
戴尔 Hadoop 部署参考架构
• Dell - Internal Use - Confidential
戴尔 Hadoop 部署参考架构
• Dell - Internal Use - Confidential
戴尔 Hadoop 部署参考架构 - 扩展
• Dell - Internal Use - Confidential
为何服务器非常重要
更快的数据分析
更轻松地扩展您的数据
提高灵活性
降低运行支出
对资本支出的巨大影响
• Dell - Internal Use - Confidential
为Hadoop优化的服务器平台– PEC8000通过PowerEdge C平台,从数据存储、报告和分析系统中获得价值,提供规模、速度、丰富性和易用性
• PowerEdge C8000 – 12代产品• 高密度计算配置:• C8000(4U机箱)+ 8 台服务器节点C8220 + 2个双冗余电源节点。
• 2颗 Intel E5-26XX v2 CPU,16根内存槽位,2块2.5’’硬盘。
• 特点:与一般2U单节点双路机架服务器相比,计算密度为4倍,节点功耗更低。
• 高密度存储配置:• C8000(4U机箱)+ 1 台服务器节点C8220 + 1个内置电源节点 + 4 个存储节点C8000XD。
• 每个双宽槽位存储节点含12块3.5’’硬盘或24块2.5’’
硬盘,4个存储节点则共有48块3.5’’硬盘或96块2.5’’硬盘。
• 特点:与一般2U12块3.5’’硬盘或24块2.5’’硬盘存储服务器相比,存储密度为2倍,每TB功耗更低。
C8000高性能计算和存储服务器
• Dell - Internal Use - Confidential
数据节点,高性价比存储型配置一
最优化的每TB成本,每数据节点48块3.5”盘
HDFS存储容量要求非常大,计算要求适中的场景
C8000 4U1Node48HDD:
– 1 x C8000 Chassis with 1 x PSU (1400W * 2)
– 1 x C8220 : E5-2620 v2* 2 / 64G / 500G SATA 2.5’’ * 2 / LSI9202
– 4 x C8000XD : 3T 3.5'' SATA * 12 (All 48 HDD connect to C8220 node)
• Dell - Internal Use - Confidential
运营成本对比(不含服务器成本)
• 以5 PB Hadoop,
1667 个3TB硬盘测算
• 35 * 4U48HDD 或
139 * 2U12HDD
• 3年总节省成本为:
¥1,332,015.00
• 节省的成本可用于另
购买2U12HDD服务
器: 25台
• 节省比例高达:
43.85%
• Dell - Internal Use - Confidential
数据节点,高性价比均衡配置二
存储容量与计算密度的均衡搭配,每数据节点16块3.5”盘
HDFS存储容量要求比较大,计算要求适中的场景
C8000 4U2Node32HDD:
– 1 x C8000 Chassis with 1 x PSU (1400W * 2)
– 2 x C8220X : E5-2620 v2 * 2 / 64G / 500G SATA 2.5’’ * 2 / 3T 3.5” SATA *4
– 2 x C8000XD : 3T 3.5” SATA * 12 (12 HDD connect to each C8220X)
• Dell - Internal Use - Confidential
数据节点,高性价比计算型配置
较高计算密度和计算能力的配置,每数据节点4块3.5”盘
HDFS存储容量要求适中,计算复杂的场景
C8000 4U4Node :
– 1 x C8000 Chassis with 2 x PSU (1400W * 2)
– 4 x C8220X : E5-2650 v2 * 2 / 128G (16 * 8G) / 500G SATA 2.5’’ * 2 / 3T
3.5'' NL SAS * 4
• Dell - Internal Use - Confidential
为Hadoop优化的服务器平台– PEC6220通过PowerEdge C平台,从数据存储、报告和分析系统中获得价值,提供规模、速度、丰富性和易用性
• PowerEdge C6220 – 12代产品
• C6000(2U机箱)+ 4 台服务器节点C6220 + 2
个冗余电源。
• 2颗 Intel E5-26XX CPU,16根内存槽位,12块
3.5”硬盘或 24块2.5”硬盘
• 服务器密度为传统1U服务器的两倍,同时保留热
插拔硬盘灵活性
• 所有节点都可进行独立维护,管理员可随时对
任何一个节点进行停机维护,不影响其他节点
的正常运行
• 区别于传统2U4节点云服务器,更提供前置硬盘
灵活分配技术,支持多种类型业务搭配部署
C6220高性能和多节点服务器
• Dell - Internal Use - Confidential
HDFS存储容量要求较小,计算复杂的场景
C6000 2U4Node (平均分配硬盘):
– 1 x C6000 Chassis with 2 x PSU (1400W * 2)
– 4 x C6220 : E5-2650 * 2 / 128G (16 * 8G) / 1T SATA 2.5” * 6
C6000 2U4Node (灵活分配硬盘):
– 1 x C6000 Chassis with 2 x PSU (1400W * 2)
– 2 x C6220 : E5-2650 * 2 / 128G (16 * 8G) / 1T SATA 2.5” * 2,
用于边缘节点
– 2 x C6220 : E5-2650 * 2 / 128G (16 * 8G) / 1T SATA 2.5” *
10,用于数据节点
数据节点、边缘节点,高性价比计算型配置
• Dell - Internal Use - Confidential
较高计算能力及内存容量的配置,单台服务器可达768GB内存
HDFS名称节点,高可用、大内存需求的场景
R720 * 2 (Master Name Node + Standby Name node):
– E5-2650 v2 * 2 / 128G (16 * 8G) / 600G SAS 3.5’’ * 6
名称节点,标准2U机架式配置
• PowerEdge R720 – 12代产品
• 强调性能与扩展性的主流2路/2U机架式服务器
• 2颗 Intel E5-26XX CPU,24根内存槽位,8个
3.5”硬盘(R720), 12个3.5”硬盘(R720XD)
• Dell - Internal Use - Confidential
Hadoop部署参考
• Dell - Internal Use - Confidential
39
您的完整 Hadoop/大数据解决方案提供商
一流的Hadoop合作伙伴
• Dell Kitenga• Datameer• Pentaho
适用于大数据的分析软件解决方案
戴尔针对大数据的专业服务
Dell PowerEdge 第12代服务器
戴尔网络解决方案
安装和配置服务全面的端到端实施
发现 规划 实施调查
• Dell - Internal Use - Confidential