hpc council 2010 - a community effort support center for ...€¦ · 引用自“a scalable...

30
数据中心网络的趋势与选择 国防科学技术大学 计算机学院网络与信息安全研究所 计算机学院网络与信息安全研究所 孙志刚 研究员 hi @ d d sunzhigang@nudt.edu.cn

Upload: danghuong

Post on 03-Jul-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

数据中心网络的趋势与选择

国防科学技术大学

计算机学院网络与信息安全研究所计算机学院网络与信息安全研究所

孙志刚 研究员

hi @ d [email protected]

主要内容

数据中心网络面临的挑战

数据中心网络研究进展

数据中心网络技术选择数据中心网络技术选择

我们的工作

数据中心网络面临的挑战

数据中心网络是数据中心基础设施重要的组成部分成部分

数据中心网络技术面临的挑战

高带宽高密度交换、服务质量、虚拟化、节能

以太网无法满足数据中心网络的发展需求以太网无法满足数据中心网络的发展需求

以太网基本原理(1)

分布式地址学习与帧转发

core core

转发表

基于MAC地址转发

地址自动学习和分布式转发控制

3 4

A 1B 2

C 3D 3

转发表容量16K-32KTOR

TOR 1 2

D 3

无环控制,生成树算法

A B C D

以太网基本原理(2)

地址解析过程core core

A要与C通信,必须首先根据C的IP地址 使用ARP广播查core core 的IP地址,使用ARP广播查询C的地址

C通过ARP响应消息告诉A自

TOR

3 4

1

C通过ARP响应消息告诉A自己的MAC地址

A需要维护一个ARP表,保存TOR TOR

1 2 A需要维护 个ARP表,保存不同IP与MAC地址的映射关系

A B C D

ARP请求报文流向 ARP响应报文流向

ARP表老化问题

请求报文流向 响应报文流向

传统数据中心网络模型

采用二层和三层相结合的交换方法

缩小广播域缩小广播域

提供多路径负载均衡

引用自“A Scalable Commodity Data Center Network Architecture”SIGCOMM’08引用自“A Scalable, Commodity Data Center Network Architecture”SIGCOMM 08

服务器虚拟化带来的新问题

core core

服务器虚拟化可以提高物理资源利用率,减小用户d 机时间 保护数据

TOR TOR

down机时间,保护数据安全和节能等

A B C D

虚拟机迁移要求数据中心中所有服务器(虚拟机)

A B C D

VM0 VM1 VMN VM0 VM1 VMN

中所有服务器 虚拟机位于相同二层网络

大型数据中心可能包含VM0 VM1 VMN VM0 VM1 VMN

大型数据中心可能包含10000以上服务器,更多的虚拟机

IP=10.10.33.8MAC=MAC-A

IP=10.10.33.8MAC=MAC-C

的虚拟机

大型二层网络面临的挑战

生成树问题

降低交换机之间链路带宽的利用率降低交换机之间链路带宽的利用率

地址解析的压力

ARP协议采用广播机制、超时机制

每个虚拟机每秒需要处理上万个ARP广播消息

交换机压力

MAC地址无法聚合MAC地址无法聚合

交换机MAC表项16K-32K可能成为瓶颈

数据中心网络研究进展

Monsoon数据中心网络

通过应用层agent获取地址解析信息

支持100000服务器的二层网络 集支持100000服务器的二层网络,集中计算交换机转发表,采用目录服务提供地址解析 交换机支持Mac-in-Mac源路由

PRESTO’08 Towards a Next Generation Data Center Architecture:Scalability and Commoditization

Portland数据中心网络

基于PMAC进行交换,最后一跳出口交换机实现PMAC到真实MAC口交换机实现PMAC到真实MAC的转换

采用集中的Fabric Manager实pod现地址解析

基于openflow技术实现帧的交换(无法使用传统的以太网交换机)

pod

(无法使用传统的以太网交换机)

PMAC格式:pod.position.port.vmid 由于PMAC是层次的编址,p p p

Pod编号 pod中位置 连接的端口号 VM编号

由于 是层次的编址因此可聚合,可以减小交换机转发表的表项

SIGCOMM’09 PortLand: A Scalable Fault-Tolerant Layer 2Data Center Network Fabric

虚拟二层(VL2)数据中心网络采用位置与身份分离的思想,网络基础设施使用位置相关的IP地址(LA),应用使用应用相关IP地址(AA)

发出的报文预先指定核心和出口TOR交换机

采用目录服务器实现AA到LA采用目录服务器实现AA到LA的映射

基于复制状态机(RSM)服务 实 分布的 录 务 之

所有应用(VM)的AA具有相同的前缀,因此认为位于相同的二层网络(虚拟二层网络)

务器实现分布的目录服务器之间映射的一致性

SIGCOMM’09 VL2: A Scalable and Flexible Data Center Network

位于相同的二层网络(虚拟二层网络)

服务器参与的交换结构

Dcell结构 Bcube结构 Camcube结构

服务器参与形成类似overlay的可扩展交换结构,避免使用大的交换机,隔离以太网广播域。同时支持交换策略的注入

SIGCOMM’08 DCell: A Scalable and Fault-Tolerant Network Structure for Data CentersSIGCOMM’09 BCube: A High Performance, Server-centric Network SIGCOMM 09 BCube: A High Performance, Server centric Network Architecture for Modular Data CentersSIGCOMM’10 Symbiotic Routing in Future Data Centers

相关标准

IETF

Trill working groupTrill working group基于Mac-Mac封装,实现二层网络中的多路径传输

2006.7成立

ARMD working group BOFAddress Resolution for Massive amount of hosts in cloud/internet Data centercloud/internet Data center

IEEE

802 1Qbg Edge Virtual Bridging802.1Qbg - Edge Virtual Bridging

802.1Qbh - Bridge Port Extension

数据中心网络技术选择

数据中心网络技术选择

数据中心网络的特点

集中的控制实现地址解析集中的控制实现地址解析

使用动态分配的地址进行转发

可控的交换机转发表配置方法可控的交换机转发表配置方法

基于信用量的流控机制

更高的带宽和交换密度更高的带宽和交换密度

多种网络技术的聚合

可行的技术:IP over Infiniband

Infiniband原理(1)

子网管理器负责:子网的拓扑发现、接口地址(GID和LID)分配和交换机转发表的配置交换机转发表的配置

子网管理代理负责:响应子网管理器各种响应子网管理器各种管理命令

Infiniabnd支持基于

子网管理器 子网管理代理

Infiniabnd支持基于信用量的流控、优先级调度等

Infiniband原理(2)

Infiniband支持一个接口具有多个连续的LID,方便实现多路径负载均衡

IPoIB技术(1)

把Infiniband作为链路层技术,主机IP协议栈不需改变不需改变

IETF IP over IB working group 2006年完成4个主要标准的制定4个主要标准的制定

RFC4390 Dynamic Host Configuration Protocol (DHCP) over InfiniBand

Proposed Standard( )

RFC4391 Transmission of IP over InfiniBand (IPoIB)

Proposed Standard

RFC4392 IP over InfiniBand (IPoIB) InformationalRFC4392 IP over InfiniBand (IPoIB) Architecture

Informational

RFC4755 IP over InfiniBand: Connected Mode

Proposed Standard

IPoIB技术(2)

源和目的GID等信息

目的QPN和Q-key等访问控制信息

源和目的LID等信息

GID等信息 等访问控制信息

源QPN等信息

GUID:64位,设备唯一,GID=GUID+子网前缀GUID:64位,设备唯 ,GID GUID+子网前缀

IPoIB的地址解析B

C

B

C

AD

SM

AD

SM

2 C发出ARP应答报文 包含自

B B

1.A通过广播发出ARP报文 2.C发出ARP应答报文,包含自己的GID和接收的QPN

A

C

A

C

AD

SM

AD

SM

3.A根据C的GID请求C的LID等信息 4.SM返回C的LID等信息

IB与以太网技术的比较

Infiniband 以太网

控制模型 集中控制 分布控制控制模型 集中控制 分布控制

地址特点 网络地址(LID)与设备地址(GUID)分离

网络地址就是设备地址

相关标准 基本就绪 支持数据中心的标准正相关标准 基本就绪 支持数据中心的标准正在制定

交换设备 硬件可有效支持数据中心的 目前设备难以支持虚拟虚拟化应用 化应用,需要升级

性能 40Gbps到服务器,1us级延时

千兆到服务器,10us/100us级延时延时 / 级延时

QoS 基于信用量的流控,多优先级调度

我们的工作

Infiniband交换设备

IBS-blade

IBS216Q

IBS36Q IBS-bridgeIBS36Q IBS-bridge

Infiniband网络管理软件

IBviewOFED

IBanalyzer

IB Infrastructure

y

Ib l 命令行的网络网络管理工具 定制的名字系统Ibanalyzer:命令行的网络网络管理工具,定制的名字系统Ibview:提供全方位的网络状态视图,实现自动配置、智能故障诊断等

IBS216Q交换机的应用不同结点规模下,216Q/4700的sendrecv通信延时性能比率

1.11.151.2

1.251.3

16

0.80.850.9

0.951

1.05

1 4 16 64 256

024

096

384

536

144

576

304

32

64

128

1 6 25 102

409

1638

6553

2621

410

4857

4194

30

不同节点规模下all-to-all带宽比率

IBS216Q与ISR4700之间不同结点组合规模下的sendrecv通信延时(us)IBS216Q与ISR4700之间不同结点组合规模下的sendrecv通信延时(us)

100

1000

10000

16-16

32-32

64-64

128-128

1

10

0 2 8 32

128 512

2048

8192

32768

131072

524288

209715

2

不同节点规模下通信延时

在CNCC 2010大会上的展示

大规模互联网行为仿真环境 60个虚拟机仿真60个网络交换设备之大规模互联网行为仿真环境,60个虚拟机仿真60个网络交换设备之间交互的行为环境:IBS36Q+双子型服务器+OpenViz虚拟化+Core开发平台

下一步工作(1)

IBS432Q和IBS108Q设计

应用模式驱动的拓扑设计应用模式驱动的拓扑设计

高性价比网络拓扑结构

nxnx

as’ as’as’as’es’ es’es’es’2x2x

ESESESESASASASAS4x4x

下一步工作(2)

优化IPoIB的地址解析流程

AB

C AB

C AB

C

无广播的地址解析过程,支持包含大量主机的子网

A C A C A C

SM SM SM

1.节点在获得LID后,向SM注册自己的IP地址

2.A要与C通信,使用C的IP地址到SM处查询

3.SM向A返回C的LID和GID向SM注册自己的IP地址 的IP地址到SM处查询 LID和GID

SM在分配LID后,根据节点的注册信息,可获得主机IP和LID及GID的关联为避免主机注册的拥塞 每个主机可随机等待 定时间后再去注册为避免主机注册的拥塞,每个主机可随机等待一定时间后再去注册

谢 谢!谢 谢!