数据中心网络技术 2 3 1 4 - free.eol.cnfree.eol.cn/edu_net/edudown/2017yyfw/sjs.pdf · 2...

9
1 数据中心网络技术 国防科技大学 苏金树 1 国防科技大学 2 1、数据中 心要素 2、面向应 用的结构设 3、软件定 义结构 SDN时代) 4、两个研 究案例 数据中心联网技术 国防科技大学 3 互联网Web服务 从经典Web Web Service – HTTP从核心协议,到传输协议 动态生成内容,http之上很多应用层协议,如Web services & SOA 从计算中心消亡到数据中心崛起 前端 Web 递交、请求路由、 聚合、负载均衡 后端 数据库、存储、计算 现代web服务的基本框架 国防科技大学 1、数据中心要素 网络:链路+互连设备+拓扑结构+路由 链路(网络):以太网、IBFC or PCIe 互连:二层交换机 vs 二层交换机+路由器 节点(服务器)网卡+协议软件 一般网络 vs 智能网卡 内核协议栈 vs RDMA软件等 4 国防科技大学 数据中心网络问题 数据中心网络体系结构 如何设计拓扑? 如何编址主机? 如何进行路由? 如何进行转发? 如何实现流控? 5 SIGCOMM2016 6/SIGCOMM2017 8国防科技大学 数据中心联网设计需求 数据中心的两类应用 外向服务 (如,提供WEB服务) 内部计算处理 (如,Web索引的MapReduce) 负载经常是不可预测的 很多个服务在同一个数据中心运行 计算性能隔离,网络隔离….(效率与可预测矛盾) 服务器失效是正常的 看看GoogleGFS, MapReduce, 必须考虑失效情况,数 据经常需要在服务器阵列间复制,… 服务器间的“流量矩阵”不断发生变化 6

Upload: others

Post on 20-Sep-2019

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 数据中心网络技术 2 3 1 4 - free.eol.cnfree.eol.cn/edu_net/edudown/2017yyfw/sjs.pdf · 2 国防科技大学 • 数据中心对2层的需求 – 需要服务器在同一vlan,

1

数据中心网络技术

国防科技大学 苏金树

1 国防科技大学 2

1、数据中心要素

2、面向应用的结构设

3、软件定义结构

(SDN时代)

4、两个研究案例

数据中心联网技术

国防科技大学 3

互联网Web服务• 从经典Web 到Web Service

– HTTP从核心协议,到传输协议– 动态生成内容,http之上很多应用层协议,如Web services & SOA

• 从计算中心消亡到数据中心崛起

前端

Web 递交、请求路由、聚合、负载均衡

后端

数据库、存储、计算

现代web服务的基本框架国防科技大学

1、数据中心要素

• 网络:链路+互连设备+拓扑结构+路由– 链路(网络):以太网、IB、FC or PCIe

– 互连:二层交换机 vs 二层交换机+路由器

• 节点(服务器):网卡+协议软件– 一般网络 vs 智能网卡– 内核协议栈 vs RDMA软件等

4

国防科技大学

数据中心网络问题• 数据中心网络体系结构• 如何设计拓扑?

• 如何编址主机?

• 如何进行路由?

• 如何进行转发?

• 如何实现流控?

5

SIGCOMM2016 6篇/SIGCOMM2017 8篇

国防科技大学

数据中心联网设计需求• 数据中心的两类应用

– 外向服务 (如,提供WEB服务)

– 内部计算处理 (如,Web索引的MapReduce)

• 负载经常是不可预测的– 很多个服务在同一个数据中心运行– 计算性能隔离,网络隔离….(效率与可预测矛盾)

• 服务器失效是正常的– 看看Google的GFS, MapReduce, 必须考虑失效情况,数

据经常需要在服务器阵列间复制,…

• 服务器间的“流量矩阵”不断发生变化

6

Page 2: 数据中心网络技术 2 3 1 4 - free.eol.cnfree.eol.cn/edu_net/edudown/2017yyfw/sjs.pdf · 2 国防科技大学 • 数据中心对2层的需求 – 需要服务器在同一vlan,

2

国防科技大学

• 数据中心对2层的需求– 需要服务器在同一VLAN, 虚拟机希望

在同一IP子网,– 在双归属服务器中,采用相同IP

– 服务器农场的不断增长• 克服传统3层问题

– 如果3层采用路径多样性,会导致乱序

数据中心联网设计需求

国防科技大学

数据中心联网设计目标1. 一致的吞吐率

– 服务器间的容量只受限于网卡– 增加服务器时,不要考虑拓扑

2. 方便的应用迁移– 最好平面编址,不要分为子网– 依赖于广播的既有应用依然能够工作

3. 应用的性能隔离– 一个服务不受其他服务影响

8

国防科技大学

链路:通用技术网络生命力不可小视!

IB技术

10GE

100GE/400GE

IB技术

以太网与其他网络技术

FDDI/ATM技术

10Mbps以太网

100M/GigaEth

100/622Mbps

国防科技大学

简单网络结构时代(三层结构)Internet

Servers

Layer-2 switchAccess

Layer-2/3 switchAggregation

Layer-3 routerCore

国防科技大学 11云计算,数据中心提出后

• 数据中心: 大型服务器农场+ 大型数据仓库– 不再是简单的web//web services

• 从主机托管到云计算– 每个web/内容提供商必须为峰值提供预留– 十分昂贵,又利用率不足– 通过虚拟化,实现服务器隔离

VMMGuest OS

App

Under client web service control

2、专用结构的数据中心

国防科技大学

2、专用结构的数据中心时代

• 以网络为中心– 胖树,Moonson,Seattle……

• 以服务器为中心– DCELL 结构,……

12

Page 3: 数据中心网络技术 2 3 1 4 - free.eol.cnfree.eol.cn/edu_net/edudown/2017yyfw/sjs.pdf · 2 国防科技大学 • 数据中心对2层的需求 – 需要服务器在同一vlan,

3

国防科技大学 13

可用链路带宽太少!!

国防科技大学 14

3-级 Clos 网络

n x k

m x m

k x n1

N

N = n x mk >= n

1

2

m

1

2

k

1

2

m

1

N

n n

国防科技大学 15

胖树

国防科技大学 16

国防科技大学

胖树的数据中心结构• 胖树是特殊的Clos网络,K为池子数目

– 每个池由 (k/2)2 服务器 , k/2 个2层k端口交换机– 每个边缘交换机连接k/2 服务器, k/2汇聚交换机– 每个汇聚交换机链接k/2 边缘,k/2 核心交换机– (k/2)2 核心交换机,连接每个池子

17

K/2=3胖树,服务器=54

K=96,服务器=221,184K=48: 1152台边缘,1152台汇聚,576台核心,服务器=27,648

K=24: 288台边缘,288台汇聚,576台核心,服务器=3,456

国防科技大学

FAT-Tree 编址与路由• 采用特殊的IP编址框架,• -x.Pod号.交换机号.主机号(Pod内的主机)

– 隶属于同一交换机的主机只能通过交换机路由• 采用两个层次查找,分布流量和维持报文保序

• 第一层是前缀查找

– 从上到下,核心路由到服务器

• 第二层是后缀查找

– 从下向上,服务器路由到核心

– 同一个服务器用同一端口,使报文保序

18

如何容错??

Page 4: 数据中心网络技术 2 3 1 4 - free.eol.cnfree.eol.cn/edu_net/edudown/2017yyfw/sjs.pdf · 2 国防科技大学 • 数据中心对2层的需求 – 需要服务器在同一vlan,

4

国防科技大学

FatTree问题:

• 内部不能支持VLan 流量• 数据中心规模只能相对固定• 需要在边界进行NAT

• 分类:按流分负载,而不是端口• 流控:长时间流(大象流)的分担

国防科技大学

Moonson方法• 两个层次

– 接入交换机 (Top of Rack)

– 负载均衡交换机

• 消除扩展树– 屏蔽路由– 允许网络利用路径多样性

• 防止 MAC地址学习– 4D 结构发布数据平面信息– TOR: 只学习过渡交换机的地址– Core: 学校TOR 交换机的地址

• 支持有效的主机分组 (替换VLAN)

国防科技大学

Moonson

国防科技大学

Monsoon路由原理

• 端主机检查流的MAC

• 没有找到,启动monsoon agent 求解– Agent返回服务器MAC和中间交换机MAC列

表• 向TOR发送流量,做三重封装• 流量发给中间交换机• 流量发给目的TOR交换机

国防科技大学

转发过程

查询

国防科技大学

• 服务器为中心

24

Page 5: 数据中心网络技术 2 3 1 4 - free.eol.cnfree.eol.cn/edu_net/edudown/2017yyfw/sjs.pdf · 2 国防科技大学 • 数据中心对2层的需求 – 需要服务器在同一vlan,

5

国防科技大学

3、TRILL大规模数据中心时代

25 国防科技大学 26

国防科技大学 27 国防科技大学 28

国防科技大学 29 国防科技大学

3、SDN与NFV

• Sigcoom 2013发布B4是杰作• Google的成功引爆了SDN技术• 带动新一轮数据中心网络研究热潮

• 未来更看好NFV

Page 6: 数据中心网络技术 2 3 1 4 - free.eol.cnfree.eol.cn/edu_net/edudown/2017yyfw/sjs.pdf · 2 国防科技大学 • 数据中心对2层的需求 – 需要服务器在同一vlan,

6

国防科技大学 31 国防科技大学

Google对经典广域网路由认识

国防科技大学

• NFV发展的潜力,三个因素

– 早期由于I/O带宽原因,一般不能采用通用CPU直接作为网络设备数据通路的处理器。

– 而传统网络设备,一直沿用基于专用体系结构,设计网络功能的思路,产量不大,导致成本高,升级比较缓慢。

– 由于通用CPU速度+I/O带宽提升,CPU网络处理能力大大上升。通用CPU or

CPU+FPGA有很大潜力。

研究案例1:智能(加速)网卡

国防科技大学

Motivation

• 对数据流精细分类和分析的要求越来越高;• 由于Memory Wall问题,X86架构为主的网络安

全产品在关键字与正则表达式匹配方面的性能缺陷逐渐显露出来,成为提升网络安全产品性能的最大阻碍

国防科技大学

应用方式• 把资源消耗大的功能卸载到智能网络加速卡上完成,

从而解放X86 CPU的计算能力,达到提高现有网络安全产品性能的目的。

Page 7: 数据中心网络技术 2 3 1 4 - free.eol.cnfree.eol.cn/edu_net/edudown/2017yyfw/sjs.pdf · 2 国防科技大学 • 数据中心对2层的需求 – 需要服务器在同一vlan,

7

国防科技大学

系统结构与处理流程

国防科技大学

应用需求• 报文分组标记:

– 支持掩码五元组、关键字、正则表达式等多种条件的灵活匹配,把匹配的结果以标签的形式打到报文头部输出。

– 关键字规则:支持固定位置和浮动位置,一条规则可以由M个固定和N个浮动的组成,规则最多包含6个关键字(M+N<=6)。

– 正则表达式:支持PCRE标准正则表达式语法。– 复杂规则:五元组规则、关键字规则、正则表达式规则

可以灵活组合,任一条件之间是&的关系,只有所有条件全都满足时才认为匹配复杂规则。

国防科技大学

应用需求• 超大规则容量:支持100万条掩码五元组规则,10

万条关键字,10万条正则表达式,10条复杂规则。• 流表管理:支持800万条并发连接数,超时时间可

灵活配• 组合规则支持单包和连接两类规则:

– 组合规则指一条包含了多个关键字的关键字规则,支持单包和连接两种匹配模式,单包模式指多个关键字出现在一个报文中表示命中规则,连接规则是指多个关键字只要出现在整条TCP会话连接中表示命中规则。

• 多队列负载均衡:最大支持64个收包队列,报文按策略负载均衡输出到各个通道。

国防科技大学

实测结果

以上测试规则均为五

研究案例 2:IB交换机

国防科技大学

高性能交换系统

目前实现高性能交换的主要技术途径包括 以太网技术 Infiniband(以下简称IB)技术 面向特定计算平台的专用互连交换技术

IB属于通用互连技术,速率最高的。 几十到几千 计算节点、IO节点和存储节点间的高速数据交换

Page 8: 数据中心网络技术 2 3 1 4 - free.eol.cnfree.eol.cn/edu_net/edudown/2017yyfw/sjs.pdf · 2 国防科技大学 • 数据中心对2层的需求 – 需要服务器在同一vlan,

8

国防科技大学

IB交换系统的组成计算节点

IO和存储节点网络管理软件

主机适配器

交换机

国防科技大学

主要指标 IB 以太网

带宽 40Gbps 10Gbps延时 1-2us 20-30us服务质量 至少8个优先级 无

流量控制 绝对信用量流控 无

IO虚拟化 支持 不支持

与万兆以太网相比,IB在性能上优势明显

IB技术在TOP500计算机中占据重要地位

IB是高性能交换的发展趋势

MLX4 HCA网卡原语适配层

EHCA HCA网卡原语适配层

MTHCA HCA网卡原语适配层

CXGB3 HCA网卡原语适配层

Infiniband虚拟操作原语层

Infiniband网络虚拟化管理层

IPoIBIP网络虚拟

EoIB以太网虚拟化

FCoIB光纤通道虚拟

SDP低延迟可靠传输协

SRP存储协议

硬件

内核

应用 HTTP FTP SANIB

SANORAC

LE

国防科技大学

研制成果(1)216口IB交换机

采用模块化结构,支持216个QDR( 40Gbps )接口,聚合交换能力达到每秒17万亿比特(17.28Tbps)

国防科技大学

研制成果

直观显示IB网络拓扑结构,实时报告网络故障,实时监测网络性能

国防科技大学

研制成果(4)国家863“基于IB的PB级存储网络系统”

利用IB高带宽、低延时、可靠传输等特性实现了支持PB级容量的对象存储系统

高性能计算节点大规模数据处理节点

HPSN

216*n *80Gbps

YHUFM

IBAnalyzer

MDS

80Gbps

80Gbps

OST 寻址与路由服务器

Page 9: 数据中心网络技术 2 3 1 4 - free.eol.cnfree.eol.cn/edu_net/edudown/2017yyfw/sjs.pdf · 2 国防科技大学 • 数据中心对2层的需求 – 需要服务器在同一vlan,

9

国防科技大学

天河系列高性能计算机应用

1个IBS216Q连接216个存储节点和计算节点,实现

2PB的分布式存储

研究案例 3:SDN网络控制的策略一致性

50

国防科技大学 51

博士生研究案例

国防科技大学 52

博士生研究案例

谢谢!

53