Принципы построения катастрофоустойчивых ЦОД

Принципы построения катастрофоустойчивых ЦОД Скороходов Александр Системный инженер – консультант [email protected] +7(495)789-8615

Разнесение центров обработки данных Цели создания распределённых ЦОД

•  Непрерывность бизнеса: катастрофоустойчивость

•  Мобильность прикладных сервисов

•  Распределённые приложения

•  Консолидация и повышение использования глобальных ресурсов

§  Развитие кластеризации для защиты от сбоя сайта целиком

§  Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД

§  Некоторые приложения поддерживают кластеризацию через L3 сеть

Непрерывность бизнеса Географически распределённые отказоустойчивые кластеры

Heartbeat Private LAN

Public LAN VIP Cluster

Cluster A Node 2

Cluster A Node 1

§  Мобильность виртуальных сервисов между разнесёнными сайтами

§  Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN

§  Основа для управления облачной нагрузкой и её миграции между «облаками»

DC 1 DC 2

Core Network

ESX-A source ESX-B target

DCI LAN extension

Cisco-VMware With EMC & NetApp

Validated Design & Certification for

Virtualized Workload Mobility

Мобильность виртуальных сервисов Перемещение VM между ЦОД

Функция Решаемая задача Связь систем хранения

Обеспечить приложениям непрерывный доступ к ресурсам хранения локально и удалённо оптимальным образом

Расширение LAN

Доступ к одним и тем же VLAN из разных ЦОД для поддержки отказоустойчивости и мобильности

Оптимизация пути

Оптимальная симметричная маршрутизация между пользователями и ЦОД, где находится приложение

Маршрутизация Маршрутизируемая связь между ЦОД

Связь ЦОД Элементы решения MPLS

IP Core

Расширение инфраструктуры хранения

DC 1 DC 2

Core Network

Virtual Center


L2 extension for vMotion Network

Target

Volumes

Initiator

Ресурсы хранения при связи ЦОД Вариант 1 – разделяемая СХД

Core Network

DC 1 DC 2

Virtual Center



Improve Latency using Cisco Write Acceleration feature on MDS Fabric

Ресурсы хранения при связи ЦОД Разделяемая СХД – использование Cisco IO Acceleration

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html

Core Network

DC 1 DC 2

Virtual Center



Ресурсы хранения при связи ЦОД Вариант 2 - NetApp FlexCache (Active/Cache)

NAS

Temp Cache

1

?

4

Read

data 3 data

2 Read

2

§  FlexCache does NOT act as a write-back cache §  FlexCache responds to the Host only if/when the original subsystem ack’ed to it §  No imperative need to protect a Flexcache from a power Failure

data 1

Write 3

2 Write

4 ACK

ACK data

data

DC B DC A

Fibre Channel

Distributed Virtual Volume

§  Hosts at both sites instantly access Distributed Virtual Volume

§  Synchronization starts at Distributed Volume creation

§  WRITEs are protected on storage at both Site A and B

§  READs are serviced from VPLEX cache or local storage.

Synchronous Latency

Ресурсы хранения при связи ЦОД Вариант 3 - EMC VPLEX Metro (Active/Active)

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/ EMC/dciEmc.html

Core Network

Virtual Center



VPLEX Virtual Layer

DC 1 DC 2

Initiator

Initiator

Target VPLEX Engine

EMC VMAX

VPLEX Engine

EMC CLARiiON

Target

F

From

the

Hos

t

F

From the S

torage

LUNv LUNv

Synchronous Latency requiments ~100 kms max

Ресурсы хранения при связи ЦОД Вариант 3 - EMC VPLEX Metro (Active/Active)

Расширение подсетей

«Растягивание» VLAN между ЦОД

§  Ряд приложений требуют смежности на 2 уровне § Кластеры (Veritas, MSFT) § vMotion § «Доморощенные» приложения

§  Миграция серверов

§  Высокая доступность

§  Распределенные служебные и прикладные сервисы

Data Center

A

Data Center

B

Связь ЦОД Требования к расширению подсетей

§  Изоляция STP: предотвращение распространения проблем

§  Предотвращение «зацикливания» между ЦОДами

§  Отказоустойчивость и масштабирование производительности

§  Поддержка многих сайтов

Intra-DC Domain with STP Isolation

Intra-DC Domain with STP Isolation

Core

Aggr/ Distr

Access

L3

L2

WAN

Data-center

WAN

Core

Aggr/ Distr

Access

L3

L2

WAN

Data-center

SAN SAN

No Inter-DC Loop

Same Extended VLAN

q  Защита от «петель» q  Изоляция STP q  Отказоустойчивость. q  Балансировка нагрузки

на WAN q  Прозрачность для

ядра q  Прозрачность для

сетей ЦОД q  Оптимизация трафика q  Масштабирование q  Связь многих ЦОД

Необходимо

Ethernet

Ø VSS & vPC или FabricPath §  Multi-Chassis EtherChannel для связи пары ЦОД §  FabricPath для связи многих сайтов §  По тёмной оптике или xWDM §  Технологии LAN

IP

Ø  OTV §  Внедрение на CE §  Подходит для корпоративных внедрений §  Малая зависимость от транспорта – требуется только IP сеть §  Маршрутизация по MAC адресам

Растягивание VLAN Критерии выбора технологии Тип технологии Критерии применения

MPLS

Ø  EoMPLS & A-VPLS & H-VPLS §  Внедрение на PE §  Масштабирование и multi-tenancy §  Возможно поверх GRE §  Апробированный вариант, хорошо подходит SP

«Тёмная оптика»

•  Прямое соединение между ЦОД по оптическому кабелю •  Обычно – два альтернативных пути •  Проблемы:

–  Технологии изоляции ЦОД –  Масштабируемось числа ЦОД –  Механизмы отказустойчивости –  Борьба с «петлями»

•  xWDM – аналог для бОльших расстояний или при недостатке оптических волокон

Long Distance

DC 1 DC 2

CO

RE

AG

GR

AC

CES

S

Server Cluster

CO

RE

AG

GR

AC

CESS

Server Cluster

Основные рекомендации

§  Различающиеся номера vPC доменов §  BPDU Filter на пограничных устройствах для блокирования распространения BPDU §  STP Edge Mode для быстрого восстановления §  Отсутствие петель между ЦОД в обход vPC

vPC domain 10 vPC domain 20

vPC domain 21 vPC domain 11

E E

- -

- -

- -

E

E

E

E

F

F

F

F -

-

- -

-

- -

B B

N N N N

N

N N

N

R R

-

R R R R

R R

Многоуровневый vPC для агрегирования и DCI

Rootguard

B

F

N

E

BPDUguard

BPDUfilter

Network port

Edge or portfast port type

- Normal port type

R

Ani

mat

ed S

lide!

Проблема Решение с L2MP / FabricPath

Необходимость полной мобильности сервисов

Гибкость на 2 уровне для доведения VLAN в любую точку для снижения зависимости от расположения серверов

Неэффективное использование полосы на 2 уровне

До 16 активных L2 путей, каждый из которых может быть агрегировать до 16 соединений (Portchannel)

Сбои на 2 уровне Альтернатива недостатками Spanning Tree Опора на технологию маршрутизации ISIS

Масштабирование таблиц MAC адресов в больших L2 доменах

Иерархическая адресация + выучивание по диалогами для более эффективного использования таблицы MAC адресов

Cisco FabricPath Решаемые задачи

§  Достоинства: §  Диалоговое выучивание MAC адресов

§  Отказоустойчивость и изоляция STP

§  Динамичесая «подрезка» VLAN

§  Лёгкая интеграция с сущестующими ЦОД

§  Сопряжение с помощью vPC+

§  Ограничения: §  Требует использования FabricPath соединений на всём транспорте §  Использует Flooding неизвестных адресов §  Нет подавления броадкастов §  L2 Multipath только для путей одинаковой стоимости

FabricPath для связи ЦОД

Site C

vPC+

FabricPath для связи ЦОД Различные модели внедрения

Site A

Site B

vPC+

Classical Ethernet

Cloud

Site D

vPC+

STP VSS

CE

Core FabricPath Pre-TRILL


FabricPath для связи ЦОД Кольцевая топология

Site C

vPC+

Site A

Site B

vPC+

Classical Ethernet

Cloud

Site D

vPC+

STP VSS

CE


Site C

vPC+

Site A

Site B

vPC+

Classical Ethernet

Cloud

Site D

vPC+

STP VSS

CE

FabricPath для связи ЦОД Полносвязная топология

Overlay Transport Virtualization (OTV) Простое и надежное решение для связи ЦОД

•  Расширение L2 доменов по произвольной IP сети – Тёмная оптика, MPLS, IP VPN... – Поддержка нескольких ЦОД

•  Упрощение построения и эксплуатации – Простота интеграции в существующие сети – Настройка за несколько команд

•  Высокая надёжность – Изоляция доменов сбоев – Резервирование подключения сайтов без дополнительных усилий

Any Workload, Anytime, Anywhere

OTV

Overlay Transport Virtualization Принципы работы протокола

•  Ethernet трафик инкапсулируется в IP: “MAC in IP” •  Динамическая инкапсуляция с использованием таблицы маршрутизации MAC

•  Не строится Pseudo-Wire или туннель

Communication between MAC1 (site 1) and MAC2 (site 2)

Server 1 MAC 1

Server 2 MAC 2

OTV OTV MAC IF

MAC1 Eth1

MAC2 IP B

MAC3 IP B IP A IP B

Encap Decap MAC1 à MAC2 IP A à IP B MAC1 à MAC2 MAC1 à MAC2

•  Работа поверх любого транспорта (IP, MPLS)

•  Изоляция доменов сбоев •  Независимость сайтов •  Оптимальное использование полосы •  Встроенная отказоустойчивость •  Встроенная защита от «петель» •  Связь многих сайтов •  Масштабируемость

§  VLANs, сайты, MACs §  ARP, broadcasts/floods

•  Простота настройки •  Легкость добавления сайтов

Проблемы «растягивания» LAN Решаемые OTV

South Data

Center

North Data

Center

Fault Domain

Fault Domain

Only 6 CLI commands

LAN Extension

Fault Domain

Fault Domain

Расширение подсетей Поддержка технологий продуктами

ASR 1000 Cat 6500 Nexus 7000 ASR 9000 Ethernet

Cluster ✓ Планируется

vPC ✓

FabricPath ✓

MPLS EoMPLS ✓ ✓ 1HCY12 ✓

EoMPLSoGRE ✓ ✓

✈requires SIP card support)

VPLS ? ✓ 1HCY12 ✓

IP OTV Планируется ✓

Оптимизация потоков трафика

Оптимальный путь В чём именно проблема?

Layer 3 Core

Access

Agg

Access

Agg

10.1.1.0/24 advertised into L3 Backup should main site go down

10.1.1.0/25 & 10.1.1.128/25 advertised into L3 DC A is the primary entry point

Node A

ESX ESX

Virtual Machine Virtual Machine

VMware vCenter

Data Center 1 Data Center 2

Оптимальный путь Хотелось бы так...

Access

Agg

Access

Agg

Node A

ESX ESX Virtual Machine

VMware vCenter

Data Center 1 Data Center 2

•  Исходящий трафик – Изоляция FHRP

•  Входящий трафик – ACE/GSS

•  Выбор сайта с помощью DNS – Route Health Injection (RHI)

•  Анонс /32 маршрутов на активные сервисы – Locator/ID Separation Protocol – LISP-VM

•  Маршрутизация до сервиса

Оптимизация пути трафика

Оптимизация пути «на выход» Локализация FHRP с помощью OTV

•  Одна и та же HSRP группа на всех сайтах с теме виртуальным MAC адресом

•  Каждый сайт обеспечивает исходящую маршрутизацию •  OTV локализует исходящий трафик за счёт фильтрации HSRP hello сообщений между сайтами

•  ARP запросы перехватываются на OTV edge устройстве чтобть обеспечить ответы именно от локального шлюза

L2 L3

Active GWY Site 2

Active GWY Site 1

FHRP Hellos

FHRP Hellos ARP traffic is

kept local ARP traffic is kept local

West East

Layer 3 Core Intranet ISP A ISP B

Access

Agg

Access

VM= 10.1.1.100 Default GW = 10.1.1.1

DC A DC B

VLAN A

144.254.1.100 KAL-AP Change IP

144.254.200.100

144.254.200.100 144.254.1.100

GSS

SNAT SNAT

KAL-

AP o

n VI

P

L2 Links (GE or 10GE) L3 Links (GE or 10GE)

Оптимизация пути «на вход» С использованием ACE, GSS и KAL-AP

144.254.1.100

Layer 3 WAN

VM= 10.1.1.100 Default GW = 10.1.1.1

VLAN A

Public Network

MAC moved Change the IP@

144.254.200.100

Access

Agg

ISP A

Data Center A

144.254.1.0/24 is advertised into L3

144.254.1.100 144.254.200.100

Access

Agg

ISP B

Data Center B

SNAT SNAT

Оптимизация пути «на вход» С использованием ACE, GSS и vCenter скриптов


Access

Agg

Access

Agg

DC A DC B

VLAN A

Public Network

Probe to 10.1.1.100 Failed

IS 10.1.1.100 OK?


144.254.100.0/24 Backup for Data Center A

144.254.100.0/25 & 144.254.100.128/25 EEM or RHI can be used to get very granular

App VM = 10.1.1.100 Default GW = 10.1.1.1

Оптимизация пути «на вход» С использованием Route Health Injection на ACE


Access

Agg Agg

DC A DC B

VLAN A

Public Network

Probe to 10.1.1.100 is OK

IS 10.1.1.100 OK? RHI


10.1.1.1 HSRP Group 1

144.254.100.0/24 Backup for Data Center A

144.254.100.0/25 & 144.254.100.128/25 EEM or RHI can be used to get very granular

App VM= 10.1.1.100 Default GW = 10.1.1.1

144.254.100.100/32 is advertised into L3 using RHI

10.1.1.1 HSRP Group 1

Оптимизация пути «на вход» С использованием Route Health Injection на ACE

Оптимизация пути «на вход» Locator-ID Separation Protocol (LISP)

•  Отделяет идентификатор сервиса (IP адрес) от его местоположения

•  Маршрутизация исходя из местоположения, а не адреса хоста •  Соотношение адреса и его местоположение хранятся в директории

•  Поиск метоположения IP адреса по информации из директории •  Инкапсуляция трафика (IP in IP) и передача по месту нахождения хоста

•  Директория – распределенная база данных

ALT directory

Resolution & Registration Data Path

§  Информация о хостах не хранится в таблице маршрутизации

§  “Summarizable host routing”


VM= 10.10.10.1 Default GW = 10.10.10.100

Локализация входящего трафика с помощью LISP


Access

Agg

Access

Agg

DC A DC B

VLAN A

Public Network

Prefix Route Locator

10.10.10.1 A, B

10.10.10.2 A, B … …

10.10.10.5 C, D

10.10.10.6 C, D

Ingress Tunnel

IP_DA= A IP_DA = 10.10.10.1

C, D

A B Decap

3

D C

Encap 2

IP_DA = 10.10.10.1

IP_DA 10.10.10.1

1

IP_DA= D IP_DA = 10.10.10.1

Decap

3

IP_DA = 10.10.10.1

Оптимальный транспорт с помощью LISP и OTV

ESX Server A

Layer3 Core

ESX Server B

VLAN A – 10.1.1.0

FHRP: 10.1.1.1 FHRP: 10.1.1.1

- Virtual-Machine-A - IP Address = 10.1.1.100 - Mask: 255.255.255.0 - Default GW = 10.1.1.1

VLAN A – 10.1.1.0

A A’ B B’

MS MR PxTR

D

Client in LISP Site Client in non-LISP Site

C1 C2

E

- Virtual-Machine-A - IP Address = 10.1.1.100 - Mask: 255.255.255.0 - Default GW = 10.1.1.1

OTV Server-to-Server L2 traffic

LISP: L3 Client-to-Server •  Оптимизация маршрутизации с детальной информацией

о местоположении •  Оптимицация мобильности внутри или между подсетями •  Масштабирование прикладных сервисов

OTV: L2 Server-to-Server •  Оптимизация расширения LAN •  Распределение прикладных систем •  Надежная связь на втором уровне для мобильности

виртуальных сервисов и кластерных систем

Вопросы и Ответы

Спасибо! Просим Вас заполнить анкеты. Ваше мнение очень важно для нас!

Принципы построения катастрофоустойчивых ЦОД

Technology