ocp switch overview
TRANSCRIPT
© PIOLINK, Inc. SDN No.1
목차
▪ OCP Overview ▪ OCP Networking Project ▪ OCP Switch HW&SW
– Wedge – FBOSS – 6-Pack
▪ Summary ▪ Appendix
– TiFLOW vs Wedge – OpenNSL&OF-DPA
▪ Reference
2
© PIOLINK, Inc. SDN No.1
OCP Overview
▪ OCP(Open Compute Project) – 데이터센터 설계 기술 공유를 위한 오픈 하드웨어 및 소프트웨어 프로젝트 – Facebook이 데이터센터 인프라를 경제적이고 효율적으로 관리하기 위해 시작
•미국 오리건주 프라인빌의 데이터센터 시설 및 서버 사양을 공개하며 프로젝트 시작 •기존 데이터센터는 서비스 사용자 증가에 따른 인프라 확장이 어렵고 비용이 많이 듦
– 데이터센터 기술 공유를 통한 데이터센터 혁신 가속화 및 기회 극대화 – 데이터센터 기술을 이해함으로써 경제적인 데이터센터 설계 및 관리 가능 – Sub-project
•Storage •Networking •Server •Open Rack •Data Center •Management •C&I
3
© PIOLINK, Inc. SDN No.1
OCP Overview
▪Why OCP – Scalable, Cost efficient, Energy efficient
•데이터센터의 변화를 고려한 설계 •과거 데이터센터 특징 중 필요 없는 부분을 제거함으로써 CAPEX/OPEX 줄임 •에너지 효율성 38% 증가 •PUE(Power Usage Effectiveness)가 산업 표준인 1.9보다 낮은 1.07로 측정됨 – 서버와 이더넷 스위치 전력 93.5%, 에어컨 및 기타 데이터센터 유지 전력 6.5%
*PUE = (데이터센터 전체 소비전력)/(IT 기기의 소비전력)
4
Industry Standard
Open Compute Project
© PIOLINK, Inc. SDN No.1
OCP Overview
▪ Facebook의 OCP 관련 기사 – HW 시장을 변화 시키고, 네트워크 시장의 거인 Cisco 마저 위협!
5
1천500억달러 HW 시장 수요자 중심 변화 출처: http://www.zdnet.co.kr/news/news_view.asp?artice_id=20130930084511&type=det&re= 2013.9.30 - 페이스북이 1천500억달러에 이르는 하드웨어 시장 지형을 바꿔놨다는 분석이 나왔다. 페이스북의 “우리가 쓸 하드웨어는 직접 만든다”는 전략으로 서버 등 하드웨어 공급업체는 오픈 기반의 하드웨어 시장에서 주도권을 상실했다.
페이스북, 이제 시스코까지 위협한다. 출처: http://www.zdnet.co.kr/news/news_view.asp?artice_id=20140619095335 2014.6.19 - 페이스북이 자체 서비스 인프라를 위해 직접 만든 톱오브랙(TOR) 스위치 '웨지(Wedge)'와 이 장비를 위한 운영체제(OS) 'FBOSS'를 공개했다. 시스코, 주니퍼같은 네트워크 장비업체의 시장을 위협할 수 있다는 관측이 가시화될 전망이다.
페이스북, ’식스팩’으로 하이브리드SDN 가속 출처: http://www.zdnet.co.kr/news/news_view.asp?artice_id=20150216165016 2015.2.16 - 페이스북이 최근 자체 서비스 인프라를 위한 모듈형 스위치 '식스팩(6-pack)'을 내놨다. 페이스북이 오픈소스 소프트웨어와 하드웨어를 결합한 소프트웨어정의네트워킹(SDN) 기술을 지속적으로 공개함에 따라 기존 상업용 네트워크 장비 업체들의 위상도 점점 흔들리는 양상이다.식스팩은 대규모 네트워크 구축용으로 제작됐다. 지난해 선보인 톱오브랙(TOR) 스위치 '웨지(Wedge)'와 이를 위한 리눅스 기반 네트워크 운영체제(OS) 'FBOSS'가 기본 구성요소로 채택됐다.
© PIOLINK, Inc. SDN No.1
OCP Overview
▪ OCP Solution Provider
6
© PIOLINK, Inc. SDN No.1
OCP Overview
▪ OCP Adoption
7
© PIOLINK, Inc. SDN No.1
OCP Networking Project
▪ OCP Networking Project – 하드웨어와 소프트웨어가 분리된 ToR 스위치 개발을 목표로 시작 – 개방형 네트워크 스위치를 위해 server와 storage 기술을 적용 – 기술을 공개함으로써 사용자가 원하는 네트워크 환경을 만들 수 있도록 도움 – Facebook’s products
•Wedge: ToR Switch •FBOSS: Linux 기반 OS에서 동작하는 Application set •6-Pack: Modular Switch
8
FBOSS Agent
Linux
SW
HW
Wedge(ToR Switch) 6-Pack(Modular Switch)
© PIOLINK, Inc. SDN No.1
Wedge
▪Wedge – Facebook이 개발한 1RU(Rack Unit) 크기의 ToR 스위치 – Micro-server를 이용해 control plane 역할 수행(Hybrid SDN) – 모듈화된 하드웨어로 용도에 맞게 변화 가능 – 구성
•Micro-server (Pluggable) •Main Switch Module – 16*QSFP (32개로 확장 가능)
•Power adapter module •Fan module – 4*Fan
•Rear Extension module – UART(Rack Mon) – GE
•Front Extension module – BMC console – USB port – GE
9
© PIOLINK, Inc. SDN No.1
Wedge▪ Hardware Architecture
– Traffic processing – Traffic control – Switch management
10
USB HUB(USB2513B-AEZG)
Micro-server(Intel Avoton
C2750, C2550, C2350)
BMC(AST1250)
Main Switch(BCM56850)
FPGA(XC3S50AFT256)
Front Panel Card Connector
USB to I2C(CP2112)
BP Connectors
8-Channel I2C Switch*2(PCA9548)
NIC I2C PANTHER I2C
USBUpstream
USBDownstream
USBDownstream
USB Downstream
GE
PCIE x2 LED CLK, LED Data
I2C
QUAD BP CHANNELS x16
QUAD QSFPCHANNELS x16
Voltage Monitor(MAX127)
I2C
Management Interface
QSFP*16
LEDs
…
I2C
Data plane
Control plane
© PIOLINK, Inc. SDN No.1
Wedge
▪Main Switch – Broadcom BCM56850 (Trident2) – PCIE x2 Gen3: Micro-server가 Trident2의 제어 및 모니터링을 위해 사용 – QUAD Channel: 40 Gbps 지원(QUAD Channel = 4* 10 Gbps Lane)
•BCM56850은 32개의 QUAD Channel 지원 가능 – LED 제어: 스위치 장비 상태 알림
11
Micro-server Main Switch(BCM56850) FPGA
BP Connectors
QSFP*16
PCIE x2LED CLK,LED Data
QUAD BP CHANNELS x16
QUAD QSFP CHANNELS x16
© PIOLINK, Inc. SDN No.1
Wedge
▪Micro-server(Panther+) – Intel Avoton 기반의 Micro-server
• Intel Avoton C2750, C2550, C2350 제품 사용 – Main switch와 PCIE로 연결하며, control plane을 담당 – NIC I2C: SerDes interface 설정을 위해 사용 – PANTHER I2C: IPMI 용으로 사용
12
USB HUB(USB2513B-AEZG)
Micro-server(Intel Avoton
C2750, C2550, C2350)
BMC(AST1250)
Main Switch(BCM56850)
BP Connectors
NIC I2C PANTHER I2C
USBUpstream
GE
PCIE x2
© PIOLINK, Inc. SDN No.1
Wedge
▪ BMC(Board Management Controller) – Aspeed Technologies의 AST1250 제품 사용 – Main switching board와 서브 시스템의 관리 역할 – Interface
• I2C – Hot Swap Controller – Micro-Server – Voltage Monitor – Temperature Sensor – USB HUB
•SPI – 1588 CLK – SPI Flash – FPGAFLASH
•UART – Debug Port – RACKMON(Rack Monitor)
13
BMC(AST1250)
FAN
SPIFlash
DDR32Gbit
FPGAFlash
Debug Port
RACKMON
Hot Swap
Micro -Server
Voltage Monitor
Temp Sensor
USB HUB
1588 CLK
I2C
I2C
I2C
I2C
I2C
SPI UART
UART
SPI
SPI
PWM
© PIOLINK, Inc. SDN No.1
Wedge
▪ USB Hub – USB Hub는 USB2513B-AEZG 제품 사용 – Upstream(host): Micro-server – Downstream: front port, USB to I2C, BMC
▪ USB to I2C Bridge – USB to I2C bridge는 CP2112 제품 사용 – QSFP connector 모니터링 – FPGA에 QSFP 포트에 대한 설정(10G 또는 40G)
14
USB HUB(USB2513B-AEZG)
Micro-server(Intel Avoton
C2750, C2550, C2350)
BMC(AST1250)
Front Port USB to I2C(CP2112) 8-Channel I2C Switch
USBUpstream
USBDownstream
I2C
8-Channel I2C Switch
FPGA
QSFPConnector
...QSFP
Connector
© PIOLINK, Inc. SDN No.1
Wedge
▪ Communication port – Debug 용도의 인터페이스
•UART4는 rack 모니터링을 위해 사용 •UART1,3,5는 debug 목적으로 사용 •LED Postcode와 GPIO는 Micro-server의 bootup 상태를 알림
15
BMCRACKMON
Micro-serverUSB Hub
USB to I2C
Front Port
MUX
External COM Port
UART4
UART1 UART3
UART5
LED POSTCODE
GPIO
HDR_USB
USB Bridge
MS USB
GE
BP
BMC USB
© PIOLINK, Inc. SDN No.1
Wedge
▪ Debug port – Push button을 누르면 DEBUG_PORT_UART_SEL_0 값 반전 – DEBUG_PORT_UART_SEL_0 값에 따른 Port 스위칭
•Low: Debug header port가 Micro-server에 연결됨 •High: Debug header port가 BMC에 연결되고 BMC를 통해 Micro-server와 연결됨
16
BMC
Micro -server
RJ45
HDR
Push button from front panel
UART5
UART3
UART1
DEBUG_PORT_UART_SEL_0
DEBUG_PORT_UART_SEL_N
= Low
= High
PANTHER COM
Analog Switch
© PIOLINK, Inc. SDN No.1
Wedge
▪ System level reset (Active low)
17
PUSH BUTTON RESETU309
(MAX708RCSA)
Micro-server
I2C
Clock module
Trident2
Power sequencer
BMC
Micro-server
SEQ_RESET
POR_RESET
BMC_T2_RST_NI2C_RESET
DPLL_RESET
SYS_RESETPCI_RESET_OUT_N
BMCPUSH BUTTON
RESETU5
Signal Trigger ResetPower sequencer or Push button(U309) Micro-server, I2C, Clock module, Trident2
BMC Trident2, I2C, Clock module
Micro-server Trident2
Push button(U5) BMC
© PIOLINK, Inc. SDN No.1
Wedge
▪ Local GE Switch – Out of band management traffic 라우팅 – Micro-server, BMC, front and back connector를 연결
▪ FPGA – Xilinx Spartan-3A family(XC3S50AFT256) – 기능
•10G/40G port 상태 알림을 위한 LED 제어 •QSFP 포트 제어 (10G or 40G) •Trident2로 부터 ROV voltage을 읽고 Voltage controller에 VID(Voltage Identification) 코드 전달
18
© PIOLINK, Inc. SDN No.1
Wedge
▪ Software Support – Micro-Server
•Linux 기반의 OS와 FBOSS application으로 구성 •OpenNSL(Open Network Switch Library) – Broadcom 스위치 칩 제어를 위해 개방된 API
– BMC •OpenBMC – BMC SoC를 지원하기 위해 Facebook이 개발한 Linux image
(u-boot, Linux kernel, open source packages, board-specific packages)
19
Management Apps(Configuration,Monitoring, &Debugging)
Control&Forwarding
Apps
FBOSS Agent
OpenNSL
Linux
OCPMicro Server
Trident IIASIC BMC
Open BMC
Wedge
© PIOLINK, Inc. SDN No.1
Wedge
▪ OpenBMC – BMC SoC를 지원하기 위해 Facebook이 개발한 Linux image – BMC 소프트웨어는 서버 고장을 감지하고 처리하는데 중요한 역할을 함
•과거 BMC 소프트웨어는 하드웨어 제조사에의해 개발 •추후 문제 발생으로 새로운 기능을 추가하기 위해서는 제조업체의 지원이 필요
– OpenBMC 기능 •Linux kernel, bootloader: BMC SoC를 제어를 위한 하드웨어 드라이버(I2C, USB, PWM, SPI...) •Open source package: Linux 기본 어플리케이션(BusyBox, I2C-tool, OpenSSH, Python…) •Board-specific package: 초기화 스크립트 및 board-specific tool(fan-controller daemon …)
20
Management Apps(Configuration,Monitoring, &Debugging)
Control&Forwarding
Apps
FBOSS Agent
OpenNSL
Linux
OCPMicro Server
Trident IIASIC BMC
Open BMC
Wedge
© PIOLINK, Inc. SDN No.1
FBOSS
▪ Facebook이 개발한 Linux 기반의 스위치 관리 및 제어 소프트웨어 – 현재 “FBOSS agent”만 배포됨 – FBOSS agent
•Broadcom ASIC의 table 프로그래밍 (L2, L3, VLAN table) •Lower-level의 제어 패킷 처리 (ARP, IPv6, NDP, DHCPv4/v6 relay, LLDP) • ICMP/UDP 패킷 처리
– 폭넓은 네트워크에서 지원할 수 있도록 개발 예정 •현재 배포판은 Facebook 데이터센터 네트워크에서의 요구에 맞춰 설계됨
21
Management Apps(Configuration,Monitoring, &Debugging)
Control&Forwarding
Apps
FBOSS Agent
OpenNSL
Linux
OCPMicro Server
Trident IIASIC BMC
Open BMC
Wedge
© PIOLINK, Inc. SDN No.1
6-Pack
▪ Open modular switch platform – Wedge와 FBOSS를 기반으로 설계된 modular 스위치 – Facebook 데이터센터 fabric의 Scalable을 위한 솔루션
•각 slot의 스위치가 서로 독립적으로 동작해 추가 및 제거할 경우에도 서로 영향받지 않음 – Wedge 구조를 기반으로 line card, fabric card 설계 – 8*Line card, 2*Fabric card, Power system으로 구성
22
Line Card
Fabric Card
Line Card
Power System
© PIOLINK, Inc. SDN No.1
6-Pack
▪ Line Card – Wedge + backside 640Gbps Ethernet
23
▪ Fabric Card – Ethernet port가 뒤로 이동한 line card 두 개의 결합
© PIOLINK, Inc. SDN No.1
6-Pack
▪스위치 내부의 data path topology – Dual backplane 구조로 Line Card와 Fabric Card는 Ethernet으로 연결 – Non-blocking Full mesh topology – 분산 처리, HA를 고려한 구조
24
LC=Line Card, BP=Backplane
LC0 LC1 LC4 LC5
LC2 LC3 LC6 LC7
Fabric0 Fabric1
LC0 LC1 LC4 LC5
LC2 LC3 LC6 LC7
Fabric0 Fabric1
분산 처리
HA
© PIOLINK, Inc. SDN No.1
6-Pack
▪ Traditional switch vs 6-Pack
25
Traditional switch 6-Pack
Hardware architecture Closed, silicon-specific Open, Ethernet-only
System topology Single stage with XBAR fabric Dual-stage spine leaf
Software integration Vendor-specific OS Open software OS
Feature velocity Vendor-driven Operator-driven
Manageability and visibility Supervisor cards, external Server array, inside and out
Building blocks Vendor-specific Off-the-shelf
Development cycle-growth 18-24 month cycle 8-12 month cycle
© PIOLINK, Inc. SDN No.1
Summary▪ OCP(Open Compute Project)
– 데이터센터를 효과적이고 경제적으로 설계하기 위한 오픈 하드웨어/소프트웨어 프로젝트 – Facebook이 오리건주 프라인빌의 데이터센터 기술을 공개하며 프로젝트 시작 – Why OCP
•Scalable •Cost Efficient •Energy Efficient
▪ OCP Networking Project – Facebook의 데이터센터에서 사용할 ToR 스위치 설계를 목표로 시작 – Wedge, FBOSS, 6-Pack 등의 제품 발표
▪ OCP Switch HW&SW – Wedge(ToR switch)
•모듈화된 하드웨어 구조로 용도에 맞게 변화 가능 •Main switch에 control plane을 담당하는 Micro-server를 연결해 Hybrid SDN 스위치로 사용 가능
– FBOSS •Linux 기반의 스위치 관리 및 제어를 위한 Application set
– 6-Pack(Modular switch) •Facebook 데이터센터 fabric의 scalable을 위한 솔루션 •Wedge와 FBOSS를 기반으로 설계 •각 slot의 스위치가 독립적으로 동작하는 유연한 구조
26
© PIOLINK, Inc. SDN No.1
TiFLOW vs Wedge
▪스위치 block 구조 – 스위치 management block 생략
27
Intel Avoton
BCM56850
40GE40GE 40GE…
16 ports
Intel Xeon E5-2470
BCM56842
WedgeTiFLOW
10GE …
16 ports
10GE 10GE 1GE … 1GE
8 ports
82599ES
PEX8648
82599ES 82599ES
Switching Fabric : Data plane
Application Engine : Control plane
Ethernet Port
© PIOLINK, Inc. SDN No.1
TiFLOW vs Wedge
▪스위치 block간 데이터 처리 속도 및 인터페이스
28
PCIe gen 2.0 x16 : 64Gpbs = 4Gbps*16
PCIe gen 3.0 x2 : 16Gpbs = 8Gbps*2
Ethernet Interface: 640GE= 40GE*16
Ethernet Interface: 168GE = 16*10GE + 8*1GE
PCIe gen 2.0 x8: 96Gbps = 32Gbps*3
SFI Ethernet: 60GE = 20GE*3
Intel Avoton
BCM56850
40GE40GE 40GE…
16 ports
Intel Xeon E5-2470
BCM56842
WedgeTiFLOW
10GE …
16 ports
10GE 10GE 1GE … 1GE
8 ports
82599ES
PEX8648
82599ES 82599ES
© PIOLINK, Inc. SDN No.1
TiFLOW vs Wedge▪ External Interface: Console, USB, etc…
29
USB LCD Console Management Port
USB to Serial
BCM53003
SFU(Switch Fabric Unit)
AEU(Application Engine Unit)
USB
USB ManagementPort
Micro-Server
GE
GE
BMC
USB Hub
BMC Console
Facebook-Specific
Port
Local GE Switch
Back Plane
WedgeTiFLOW
SwitchSelect
AnalogSwitch
GE
UART
UART UART
UART
UART
USB
UART
GE
© PIOLINK, Inc. SDN No.1
OpenNSL&OF-DPA
▪ Broadcom 칩을 제어하기 위한 오픈 소프트웨어 및 API – OpenNSL(Open Network Switch Library)
•Broadcom 스위치 칩 제어를 위해 개방된 API
– OF-DPA(OpenFlow Data Plane Abstraction) •Broadcom StrataXGS 칩에 OpenFlow1.3을 개발하기 위한 오픈 소프트웨어 및 API
30
출처: BigSwitch Networks
OpenNSL OF-DPA
© PIOLINK, Inc. SDN No.1
Reference
▪ http://www.opencompute.org ▪ http://www.opencompute.org/wiki/Networking/SpecsAndDesigns ▪ https://github.com/facebook/fboss ▪ http://www.bloter.net/archives/220389 ▪ https://code.facebook.com/posts/717010588413497/introducing-6-pack-the-first-open-
hardware-modular-switch/ ▪ https://code.facebook.com/posts/360346274145943/introducing-data-center-fabric-the-next-
generation-facebook-data-center-network/ ▪ https://www.sdxcentral.com/articles/news/facebook-moves-beyond-clusters-new-data-center-
fabric/2014/11/ ▪ https://code.facebook.com/posts/1601610310055392/introducing-openbmc-an-open-software-
framework-for-next-generation-system-management/ ▪ http://www.broadcom.com/collateral/wp/OF-DPA-WP102-R.pdf ▪ http://www.bigswitch.com/blog/2015/03/09/attention-world-the-network-is-now-open
31
감사합니다.㈜파이오링크
서울시 금천구 가산디지털2로 98 (가산동 550-1) IT캐슬 1동 401호
TEL: 02-2025-6900 FAX: 02-2025-6901 www.PIOLINK.com
32