超融合云数据中心架构解析 - dimpt. · pdf file2017/06/dtpt...

3
邮电设计技术/2017/06 ————————— 收稿日期: 2017-03-22 0 引言 超融合架构是为下一代云数据中心设计的横向 扩展的软件定义架构,无固定中心节点,以横向扩展、 软件定义、计算和存储融合、服务器端闪存为核心。 横向扩展要求数据中心基础架构构建在通用硬件上, 无专用存储设备(如 NASSAN 等)。随着硬件数量增 加,除了计算能力,存储能力(包含容量和 IOPS )也要 能接近于线性的提升,这些需求传统架构(计算设备 和存储设备分离)无法满足,基于传统架构封装的伪 融合架构(整合成一体的机架)也不能满足。只有使 用通用硬件( x86 服务器),计算和存储融合(所有节点 既是计算节点也是存储节点)才能适应云计算中心按 需快速扩展、大规模扩展的要求。所以超融合架构中 的存储必须是软件定义的无固定中心节点的架构。 1 架构核心 存储是超融合架构中最核心的部分,融合存储和 Server SAN 技术给存储产业带来了变革。通过分层存 储、数据本地化等策略提升融合存储的 IO 性能已经是 市场上融合存储产品的普遍实现机制。融合存储和 Server SAN 架构中涉及的技术主要包含了以下几点。 超融合云数据中心架构解析 关键词: 超融合;软件定义存储;云数据中心; IO Fence doi10.12045/j.issn.1007-3043.2017.06.018 中图分类号: TN915.1 文献标识码: A 文章编号: 1007-3043(2017)06-0083-03 要: 超融合解决了存储、网络、计算虚拟化的问题,将虚拟化计算、网络、存储整合到 同一个系统平台。超融合架构大幅提升了计算能力,依托其底层分布式存储, 可提供数据容灾,不但解决计算的问题,同时底层的分布式存储又是一个天然 的数据容灾系统。数据的副本机制、切片算法使得当系统一个或多个节点在硬 件损毁、掉电等情况下,应用不会中断,数据也不会丢失。 AbstractHyper-converged infrastructure solves the problems of storage, networking and virtualization. It integrates virtualization com- putation, network and storage into the same system platform. Hyper- converged infrastructure highly improved computation ability, based on underlying distributed storage, it can provide data disaster recovery to solve computational issues, its underly- ing distributed storage is a natural disaster recovery system. The data duplicate mechanism and slicing algorithm helps nodes of IT system keep working and save data when hardware breaks down and loss power. KeywordsHyper-converged infrastructure; SDS; Cloud data center; IO fence 1 ,范文一 2 ,操明立 3 1. 中国联通河南分公司,河南郑州 4500452. 北京领航盛辉科技有限公司,北京 1000803. 中讯 邮电咨询设计院有限公司,河南郑州 450007 Bao Yu 1 Fan Wenyi 2 Cao Mingli 3 1. China Unicom Henan BranchZhengzhou 450045China2. Beijing Linghangshenghui Technology Co.Ltd.Beijing 100080China3. China Information Technology Designing & Consulting Institute Co.Ltd.Zhengzhou 450007China Analysis of Hyper-converged Cloud Data Center Infrastructure 引用格式: 包宇,范文一,操明立 . 超融合云数据中心架构解析[J] .邮电设计技术,2017(6):83-85. 数据通信 Data Commuincation 宇,范文一,操明立 超融合云数据中心架构解析 83

Upload: vukhue

Post on 04-Feb-2018

313 views

Category:

Documents


8 download

TRANSCRIPT

邮电设计技术/2017/06

——————————

收稿日期:2017-03-22

0 引言

超融合架构是为下一代云数据中心设计的横向

扩展的软件定义架构,无固定中心节点,以横向扩展、

软件定义、计算和存储融合、服务器端闪存为核心。

横向扩展要求数据中心基础架构构建在通用硬件上,

无专用存储设备(如NAS、SAN等)。随着硬件数量增

加,除了计算能力,存储能力(包含容量和 IOPS)也要

能接近于线性的提升,这些需求传统架构(计算设备

和存储设备分离)无法满足,基于传统架构封装的伪

融合架构(整合成一体的机架)也不能满足。只有使

用通用硬件(x86服务器),计算和存储融合(所有节点

既是计算节点也是存储节点)才能适应云计算中心按

需快速扩展、大规模扩展的要求。所以超融合架构中

的存储必须是软件定义的无固定中心节点的架构。

1 架构核心

存储是超融合架构中最核心的部分,融合存储和

Server SAN技术给存储产业带来了变革。通过分层存

储、数据本地化等策略提升融合存储的 IO性能已经是

市场上融合存储产品的普遍实现机制。融合存储和

Server SAN架构中涉及的技术主要包含了以下几点。

超融合云数据中心架构解析

关键词:超融合;软件定义存储;云数据中心;IO Fence

doi:10.12045/j.issn.1007-3043.2017.06.018中图分类号:TN915.1

文献标识码:A

文章编号:1007-3043(2017)06-0083-03

摘 要:超融合解决了存储、网络、计算虚拟化的问题,将虚拟化计算、网络、存储整合到

同一个系统平台。超融合架构大幅提升了计算能力,依托其底层分布式存储,

可提供数据容灾,不但解决计算的问题,同时底层的分布式存储又是一个天然

的数据容灾系统。数据的副本机制、切片算法使得当系统一个或多个节点在硬

件损毁、掉电等情况下,应用不会中断,数据也不会丢失。

Abstract:Hyper-converged infrastructure solves the problems of storage, networking and virtualization. It integrates virtualization com-

putation, network and storage into the same system platform. Hyper-converged infrastructure highly improved computation

ability, based on underlying distributed storage, it can provide data disaster recovery to solve computational issues, its underly-

ing distributed storage is a natural disaster recovery system. The data duplicate mechanism and slicing algorithm helps nodes

of IT system keep working and save data when hardware breaks down and loss power.

Keywords:Hyper-converged infrastructure; SDS; Cloud data center; IO fence

包 宇 1,范文一 2,操明立 3(1.中国联通河南分公司,河南 郑州 450045;2.北京领航盛辉科技有限公司,北京 100080;3.中讯

邮电咨询设计院有限公司,河南郑州 450007)Bao Yu1,Fan Wenyi2,Cao Mingli3(1. China Unicom Henan Branch,Zhengzhou 450045,China;2. Beijing Linghangshenghui TechnologyCo.,Ltd.,Beijing 100080,China;3. China Information Technology Designing & Consulting Institute Co.,Ltd.,Zhengzhou 450007,China)

Analysis of Hyper-converged Cloud Data Center Infrastructure

引用格式:包宇,范文一,操明立. 超融合云数据中心架构解析[J]. 邮电设计技术,2017(6):83-85.

数据通信Data Commuincation

包 宇,范文一,操明立超融合云数据中心架构解析

83

2017/06/DTPT

a)分层大存储池的实现。

b)IO数据副本在数据中心的放置策略。

c)分布式事务处理。

d)集群配置分布式信息管理。

e)分布式元数据的管理。

f)数据本地化策略。

g)数据快照和克隆。

h)在线压缩和去重。

i)跨云数据中心的应用级备份。

基于分布式超融合架构数据中心的横向扩展特

征,需要考虑如何做好其架构的高可扩展。所谓可扩

展不仅包括节点或者磁盘个数、规模的可扩展,也包

含性能的横向可扩展和运维的可扩展。性能的可扩

展是增加节点数量和磁盘时,整个系统的吞吐以及单

节点的 IOPS是否得到了横向线性提升。运维的可扩

展是当节点和磁盘故障成为系统常态时,尽量减少故

障对整个集群的性能影响,这就涉及到整个系统是否

能在组件故障后自愈,从而减少运维量,达到运维的

可扩展。超融合架构如何整合不同品牌性能的磁盘

和异构机器是用户最关心的问题,也是产品最终能否

被接受的核心问题。

2 技术和市场的商业化博弈

超融合架构最终能否被市场接受取决于其能否

在组件故障时进行自愈,这也是判断其能否作为商业

产品被推向市场的一个标准。典型的异常情况通常

包含以下3种。

a)磁盘故障:整个磁盘都已损坏或者磁盘可读但

无法写,磁盘能否热插拔。

b)网络故障:网络闪断或者长期故障。

c)节点故障:节点因为内核 Panic导致重启或者

由于硬件故障导致无法正常工作。

系统在处理异常故障的过程中,还可能遇到嵌套

故障或者其他故障,如何让故障恢复的过程逐步收敛

从而减少故障嵌套的概率,也是需要解决的问题。

3 问题分析

Server SAN的架构是通过数据日志把随机 IO变成

顺序 IO,从而减少整个随机 IO的响应时间,但在之后

端异步刷到对应的磁盘过程中需要解决机器断电、网

络故障或者磁盘故障带来的数据副本不一致的问题。

当节点出现故障,副本进行降级写,节点重启加

入集群的过程中涉及到数据多副本间同步一致的过

程,这个过程中该虚拟机的盘可能仍在被进行大量 IO甚至 resize操作,如何使多种类型 IO操作在最大程度

上规避元数据和数据修改的冲突,以减少节点故障和

恢复过程对集群正常业务 IO性能带来的影响,是需要

解决的问题。

IO协议是融合存储架构实现的核心。当节点和

磁盘特别多时,组件失效是一种常态,集群中可能一

直有数据盘失效导致的数据修复,节点失效导致的副

本数据的重分配和修复。正常业务应用下发的 IO、定

期磁盘数据或者副本一致性 Scrub的 IO等各种 IO的

优先级如何进行协调,在集群资源有限的情况下如何

合理分配和调度资源等问题的解决也是整个融合存

储系统实现的核心。

在分配副本数据中要考虑机器间的网络联通速

度和机架间的失效关系。我们要尽力降低机架失效

带来的数据丢失风险,并且在数据副本恢复或者重分

配的过程中,尽可能保证之前数据副本分配的策略。

整个融合存储集群中上层业务有各种不同的 IO特征,比如视频应用和大数据应用是顺序大块 IO,数

据库应用是随机小 IO。上层计算业务的并发如何能

够尽量利用不同节点本地磁盘的 IO性能,减少网络读

取数据量,如何能够在一个平台上支撑各种不同 IO类

型的应用,是需要具体去考虑和解决的。

超融合架构需要考虑到计算、存储和网络的融

合,并体现“超”融合的特点,存储如何更智能地给计

算提供服务涉及到 IO数据的异地或者同城灾备、压

缩、去重,减少存储在极端情况下的CPU占用率等典

型问题。

超融合架构的实现过程是非常庞大和复杂的,它

涉及到数据的安全性,集群的高可用性,故障处理和

数据恢复的高效性,数据在各种异常情况下的副本数

据一致性等众多问题。融合存储的最大优势是横向

可扩展性,扩展的规模涉及到数据如何在单节点内迅

速恢复,如何通过数据本地化和压缩去重等技术减少

网络恢复数据量,如何尽量减少节点失效的概率等。

同时融合存储架构中存储本身不能占用过多的计算

资源,如何减少极端情况下CPU资源的占用率是产品

实现中需要解决的问题。另外融合存储如何提升性

能,如何在各种组件交叉和嵌套情况下高效处理故障

并自愈,同时保持高性能也是其作为商业产品推广的

决定性因素之一。

数据通信Data Commuincation

包 宇,范文一,操明立超融合云数据中心架构解析

84

邮电设计技术/2017/06

4 方案建议

在分布式的架构中,同时获取高性能、高可靠性、

高扩展性是不太可能实现的,需要有所偏向。

ZETTAKIT的分布式融合存储系统——zSDS的设计初

衷就是在可靠性和扩展性方面达到极致,然后不断优

化并提升性能。分布式存储系统需要良好的设计框

架,避免后期系统规模增大时难以维护的问题。

存储系统最基础最重要的特性就是高可靠性。

在如今“大数据”的时代,数据带来的价值已经无法估

量。ZETTAKIT在副本机制、数据校验机制、容灾恢复

机制上进行了众多考虑。zSDS支持多副本、纠删码的

机制使数据具有冗余性,同时系统会周期性的在后台

校验存储数据。这里假设采用副本冗余,对于分布式

存储系统来说,存储系统需要多个副本全部写入后端

存储介质后才能向应用返回成功,同时需要保证多个

副本的一致性。分布式存储系统还需要处理多节点

并发处理同一份数据的情况,zSDS引入了分布式锁来

解决该问题,同时保证多节点的数据一致性。为了防

止分布式死锁,zSDS构建了各个 operation之间的有向

非循环图。为了避免数据不一致,zSDS 引入了 IOFence机制,以防止对故障节点的一致性恢复数据和

故障节点本身已经发到kernel IO stack里的 on-the-fly的数据出现交叉。集群节点的动态加入和退出协议

需要一整套完善的体系,还要解决类似原子广播、脑

裂等问题。最后就是系统在出现异常情况时,例如坏

盘时进行的恢复操作,通常存储系统需要根据可用的

副本和纠删码机制在非故障的硬盘中进行数据重建

操作,以完成数据的恢复。

对于分布式存储系统,高扩展性也是很重要的。

相比于集中式架构(如SAN存储系统),分布式存储系

统需要避免单一的故障点,同时还需要解决多节点多

角色的一致性问题。zSDS的架构是完全对等的分布

式架构,每个节点既具有控制节点的功能,还具有存

储节点和元数据节点的功能。为了保证高扩展性,完

全分布式的元数据架构是有必要的,在大规模的分布

式存储系统中,如果依然采用单一或主备模式的元数

据节点,必然会影响集群性能,进而影响扩展性,限制

集群的规模。而在线增减节点又给集群的控制逻辑

带来了很大考验,在这里可以应用分层的分布式控制

架构,选举出集群的 leader,控制其余控制节点,进而

管理整个集群。

在实现高可靠性和高扩展性后,还需要尽可能提

升性能。分布式存储系统在很多层面都有可能影响

性能,例如上述的恢复操作,需要在恢复时选择优先

考虑业务还是侧重于数据恢复。同时对于分布式锁,

需要降低粒度以提高并发程度,zSDS做到了字节级的

分布式锁,这样可以在保证数据一致性的前提下降低

性能损失。zSDS还在操作系统内核层面做了联合优

化,例如采用 shared memory打通user space到kernel的通路,直接从块设备层接管后端存储设备,避免多级

模块带来的性能损失。此外,提升分布式存储性能的

常用方法还有随机写序列化、SSD缓存,预读取算法

等。在设备硬件方面,建议至少采用双万兆网络,在

提升性能同时提高冗余程度。值得一提的是,

ZETTAKIT在 zSDS中支持了 Infiniband RDMA协议,该

协议可以有效降提升超融合分布式存储的性能。

5 结束语

随着互联网+的持续推进,工业4.0、大数据、物联

网、智慧城市等基于云数据中心的应用形态日渐深入

人心,传统架构的云平台的不足也日益凸显。通信运

营商对NFV/SDN的测试和布局已经提上日程,超融合

架构的云数据中心将成为解决通信运营商为政府、企

业提供基于云平台的 ICT一体化服务的必然选择。高

IO、易扩展、低成本、易管理等优势明显的特性决定超

融合架构的云数据中心在一段时间内将成为数据中

心发展的主要方向之一。

参考文献:

[1] 林伟伟,刘波 . 分布式计算、云计算与大数据[M]. 北京:机械工业

出版社,2015.[2] THOMAS N D,GRAY K. SDN:Software Defined Networks[M]. 北

京:人民邮电出版社,2014.[3] 唐雄燕,曹畅 . 云计算数据中心及其联网技术[J]. 电信网技术,

2012(6):26-31.[4] 李晨,段晓东,陈炜,等 . SDN和NFV的思考与实践[J]. 电信科学,

2014(8):23-27.[5] 赵慧玲,史凡 . SDN/NFV的发展与挑战[J]. 电信科学,2014(8):

13-18.

作者简介:

包宇,高级工程师,主要从事移动通信网络的规划与设计工作;范文一,北京领航盛辉科

技有限公司副总裁,主要从事虚拟化研发工作;操明立,技术专家,主要从事云数据中心

相关领域咨询、设计工作。

数据通信Data Commuincation

包 宇,范文一,操明立超融合云数据中心架构解析

85