华为大数据解决方案 - eolfree.eol.cn/edu_net/edudown/20140512/xuxinghai.pdf ·...

24
建设统一的数据平面,助力高校科研信息化 - 华为大数据解决方案

Upload: others

Post on 21-May-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

建设统一的数据平面,助力高校科研信息化

-华为大数据解决方案

1

Content

大数据最新趋势(价值,技术,业务)

华为FusionInsight解决方案及实践

1

2

2

实时分析海量计算

海量数据

多种结构

定义:大数据的不同声音

价值是大数据的根本!

3

数据:从交易到分析

经营分析 电信信令 金融细账 金融票据 电力调度 智能电网

经营类

结构化+非结构化

绩效 报表 文件 社保分析 纳税分析 决策支持和预测

管理类

结构化+

半结构化

公安网监 国安技侦 舆情监控 银监会稽查 食品溯源 环保监测

监管类

结构化+

半结构化

基因 粒子对撞 音视频 地震勘探 气象云图 卫星遥感 雷达数据

专业类

非结构化

10%结构化 30%半

结构化 60%非

结构化

互联网

非结构化为主,价值密度低

电信、金融 金融 政府 科研

公共事业

“在大数据领域,不能充分形成大数据使用能力的竞争者将被淘汰”-McKinsey Global Institute

4

看看未来几年将发生什么:垃圾数据越来越多

做出决策的数据

不可信

海量的RAW信息

对你没用

的数据几乎

没有价值!2017

数据来源: IDC 2013年报告

沃尔玛每个小时处理的客户交易量超过百万次,这些交易量数据容量高达2.5PB(2560TB)

——相当于美国国会图书馆2010年藏书量的数据的167倍 机会与挑战从来都是如影相随!!

5

价值:核心是提升服务

提供商业决策

提高商业价值

提升服务水平

•2011年曼城队利用大数据发现内旋角球发球方式,成功率提

升30%

•VISA利用大数据快速发现信用卡可疑交易,1个月分析时间缩

短成13分钟

•大数据让企业能更准确地进行商业决策

•美国投资经理人利用大数据对SNS网民情绪分析决定股票的

买入和卖出

•Target从2002年开始对客户消费数据挖掘分析,帮助企业

收入增长近1倍达698.6亿$

•看似无关的杂乱数据,关联全量分析大大提高了商业价值

美国零售商发现,天气变冷肉桂的蛋挞销量增加500%

•Verizon发布Precision Market Insights,为媒体、广告商、

零售等提供消费者的流动、消费习惯等信息

•全球每秒2.9百万邮件,一个平安城市200P,每天产生2.5亿

张照片,急需低成本的大数据平台提供在线服务

•企业通过大数据能提供更好的服务Dynamic Insight为合作伙伴提供消费者的流动信息

LinkedIn通过大数据在290万潜在企业中找到目标客户

1300+销售290万潜在企业

6

大数据重心向实时、洞察转移

烟囱式的数据处理系统有些已成为,或即将成为“过去式”….

当前全球大客户在大数据方面最优先的动作是什么? Real Time

7

技术从来都是满足业务的需要:分布式,海量,实时,多样化

需求 技术 描述

Data Warehouse 并行处理引擎

ETL, Data Quality 信息整合、元数据

Text Analytics Engine

Visual Data Modeling文本内容分词与分析

Hadoop

Map Reduce分布式文件系统

流计算引擎Streaming Data

海量非结构化、结构化数据处理

结构化数据处理

实时数据处理

非结构数据分析

各类信息整合

8

数据处理架构的演进:SMP -> SMPP vs MPP -> Hadoop

SMP Hadoop

典型厂商:Oracle Exadata

特点:Share Everything

结构化、关系型

Flash Cache+分布式块存储+IB

SMP+MPP混合 MPP

主流IT解决方案提供商

特点:Share Nothing

开源,开放

分布式,海量

高性能,低成本

典型厂商:

Teradata/Netezza/GreenPlum

特点:Share Nothing

结构化、关系型

标准的Share Nothing

通用的硬件

vs

典型厂商:IBM、HP

特点: Share Everything

性能存在瓶颈

扩展性差

小机可靠性高

9

数据处理成本的变化:不断追求性价比更高的软硬件

HadoopX86 MPP

DBX86一体机

小机+阵列

建设:3x-5x万RMB/TB

小机年维护费用高

建设:<2x万RMB/TB

维护费用降为1/5

Exadata/Teradata

建设:<1x万RMB/TB

通用硬件+GreenPlum/Vertica/Gbase

建设:<x万RMB/TB

服务器+Hadoop

xx移动要求用Hadoop做详单达到1000美元/TB

10

互联网正在加速重构各行各业,大数据迎来契机

交易在变化 以人为中心的刻画

商业模式 业务驱动 技术生态

互联网 BAT(百度、阿里、腾讯)全行业生存方式的变化

互联网技术企业化

Storm

11

商业模式和业务在快速变化,快鱼通吃慢鱼的时代来临

12

Content

大数据最新趋势(价值,技术,业务)

华为FusionInsight解决方案及实践

1

2

13

华为观点:大数据的核心是对数据的掌控和应用能力

数据融合催生一种新的价值

海量数据的长期保存

大数据的检索和分析

数据服务

信息服务 知识服务

核心处理

数据获取、分析处理和消费是大数据的核心能力

专业维护,容灾能力

14

华为大数据:提供大数据存储、处理、分析和消费平台

海量数据存储,批处理,实时流处理

Manager统一管理

通用X86服务器OceanStor 9000存储

数据洞察平台

基础数据平台

大数据基础设施

FusionInsight

数据集成平台

收集清洗转换

Apache Streaming

特征/模型/挖掘/可视 数据消费平台服务框架/工作流/应用

容器

业务相关的应用套件(业务逻辑/决策/安全/数据开放/可视…)应用套件层

运营商详单查询、经分分析、精准营销

银行全生命周期分析、历史明细、精准营销、在线征信与风控等

行业应用

教育科研科学运算、数据共享

HISILICON SEMICONDUCTOR Page 15

35pt

: R153 G0 B0

:

FrutigerNext LT Medium

: Arial

32pt

: R153 G0 B0

黑体

22pt

) :18pt

黑色

:

FrutigerNext LT Regular

: Arial

20pt

):18pt

黑色

细黑体

HUAWEI TECHNOLOGIES CO., LTD. Commercial in Confidence

Hadoop社区贡献亚洲第一,全球第四,实现开源到企业级的蜕变

安全版本配合

配置

Hadoop HBase 日志

性能调优

基线选择

补丁选择

采纳社区精华,去除开源Bug:

• 谨慎选择稳定基线版本• 认真评估高版本补丁影响范围评估和回合策略• 采用数万个测试用例,确保企业版本稳定性

年份 提交 解决

2011 201 211

2012 399 302

华为团队社区问题/补丁贡献

2013年社区贡献最新统计,全球第四,亚洲第一

No.4 & No.1

Apache

HbaseContributors8HbaseCommitter

1HDFS Committer

1

HDFS PMC1

16

会使用Hadoop

会定位周边问题

会定位内核级问题(拔尖的个人)

定位内核级问题的团队(依赖团队而不是精英个人)

能够独立完成支撑关键业务特性的内核级开发

能够带领社区,引领社区完成面向未来的内核级特性开发

能够创建新的社区顶级项目,并且得到生态系统认可

企业版的关键在于工程团队的能力

某大银行CIO:“我们把大数据应用视作

是生命线,肯定是采用企业版,因为搞开

源软件不是我们的主业。在选合作伙伴的

时候,我们一定考虑门当户对,因为强有

力的合作伙伴才能保证3~5年的供应、合

作安全”

强大的掌握代码的团队,

才能造就

成功的企业级数据平台软件

17

数据分析和挖掘领域顶尖人才,多项创新研究成果

美国、香港、深圳、西安

Dr. Hang Li 李航•中央研究院Noah Ark Lab首席科学家•原微软亚洲研究院主任研究员•多个国际会议领域主席•已发表上百篇学术论文•个人拥有二十多项美国发明专利

Prof. Qiang Yang 杨强•中央研究院Noah Ark Lab主任•世界级数据挖掘和人工智能专家•香港科技大学教授•IEEE Fellow,IAPR Fellow

Baofeng Zhang 张宝峰•中央研究院Noah Ark Lab副主任•负责数据挖掘、机器学习和人工智能等领域中长期技术规划和研究工作

倾向预测人物刻画 主题提取 关系估计 特征管理分析 自动特征构建

18

FusionInsight:让数据“慧”说话

全组件HA1000+KM容灾

业内唯一

首家通过严格的金融等保

HBase二级索引HDFS、MR性能

提升5倍以上

1st

可靠

1st

安全

1st

性能

内核级团队社区持续贡献亚洲

第一

FusionInsight

已成为金融和大企业建设第二数据平面的首选平台

1st

服务

Apache

征信:2~5秒 或有资产 精准推荐金融脉络

Storm&CEP

19

华为大数据协助M银行向互联网金融转型

客户挑战

我们把大数据应用视作是生命线,肯定是采用企业版,因为搞开源

软件不是我们的主业。在选合作伙伴的时候,我们一定考虑门当户

对,因为强有力的合作伙伴才能保证3~5年的供应、合作安全”

——国内某大行的CIO

客户收益

• 统一的全量数据分析和挖掘平台

• 丰富的创新业务(在线明细,实时征信,精准营销,…)

• 小微贷获客预测,比传统方式提升40倍的转化率

• 信用卡征信由原来的15天提升到30分钟

解决方案

• 企业版Hadoop平台(可靠,安全,易开发)

• 海量数据分析和挖掘平台,无缝衔接企业应用

• 支持内核级开发的工程团队和服务能力

或有金融资产阶段性结果Top20000潜在小微贷客户

M银行

20

华为成为江苏移动大数据转型的最佳合作伙伴

项目目标

用Hadoop构建详单集中平台:

• 更优的服务质量:6~24个月历史话单查询

• 更低的成本: X86服务器+本地存储

• 更佳的可扩展性(scale out)华为CRMConnector

“万达”系统Connector

亿阳网管Connector

大数据平台

华为应用 开发者应用 新大陆应用

航空

互联网

金融

教育

大数据计算存储平台(RDBMS/MPP DB/Hadoop/内存数据库

/流处理)

软硬件一体机/X86服务器

大数据分析服务平台(CKM/指标库/数据地图/CEP引擎/策略中

心/融合模型/透明访问)大数据分析中心

大数据资产中心

大数据分发中心

大数据应用和创新中心

大数据处理平台

能源

旅游

未来演进方向:探索新型融合数据仓库架构,构建实时、智能、融合、开放的大数据平台

21

大数据存储助力天文测绘高性能文件存储

解决方案

客户需求

大规模天文星图模拟计算,需50万OPS以上读写速

海量星图照片分析研究,需GB级高速存储带宽支持

根据业务规划,五年内需扩展至22PB总容量

一期配置8节点,性能达60万OPS

通过高速互联技术,总带宽5GB/s,最大支持

200GB/s

分布式架构,最大可扩容至288节点,40PB总容量

22

华为大数据投入分布,期望与教育科研广泛合作

南京:BDI/SmartMiner/RTD/IA(电软研发中心)

深圳:Hadoop/AMStore(电软研发中心)印度研究所:

Streaming(电软研发中心)Hadoop(电软研发中心)Data Visualization(中央软件院)

美研所:Gauss DB(高斯实验室)Data Mining(诺亚实验室)MOLAP(电软研发中心)

欧研所:SmartSwitch(电软研发中心) 杭州:

SmartStream(香农实验室)

组件 地域分布 当前人力 3~5年人力 研发模式

Hadoop 印度研究所 50 100 基于开源

AMStore 深圳、以色列研究所 30 60 自研

Gauss MPP DB 美研所 30 80 基于开源

SmartStream 杭州 25 30 自研

BDI 南京 35 50 自研

SmartMiner 南京、美研所 20 30 自研或商

MOLAP 美研所 10 25 自研或商

RTD 南京 20 30 自研

CEP 欧研所、南京 10 50 自研

Data Visualization 印度研究所 80 100 基于开源

大数据是华为公司未来投入四大战略方向之一,未来将保持上千人规模重点投入

Copyright©2012 Huawei Technologies Co., Ltd. All Rights Reserved.

The information in this document may contain predictive statements including, without limitation, statements regarding the future financial and operating results, future product

portfolio, new technology, etc. There are a number of factors that could cause actual results and developments to differ materially from those expressed or implied in the predictive

statements. Therefore, such information is provided for reference purpose only and constitutes neither an offer nor an acceptance. Huawei may change the information at any time

without notice.

HUAWEI ENTERPRISE ICT SOLUTIONS A BETTER WAY