Принципы построения катастрофоустойчивых ЦОД
TRANSCRIPT
Принципы построения катастрофоустойчивых ЦОД Скороходов Александр Системный инженер – консультант [email protected] +7(495)789-8615
Разнесение центров обработки данных Цели создания распределённых ЦОД
• Непрерывность бизнеса: катастрофоустойчивость
• Мобильность прикладных сервисов
• Распределённые приложения
• Консолидация и повышение использования глобальных ресурсов
§ Развитие кластеризации для защиты от сбоя сайта целиком
§ Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД
§ Некоторые приложения поддерживают кластеризацию через L3 сеть
Непрерывность бизнеса Географически распределённые отказоустойчивые кластеры
Heartbeat Private LAN
Public LAN VIP Cluster
Cluster A Node 2
Cluster A Node 1
§ Мобильность виртуальных сервисов между разнесёнными сайтами
§ Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN
§ Основа для управления облачной нагрузкой и её миграции между «облаками»
DC 1 DC 2
Core Network
ESX-A source ESX-B target
DCI LAN extension
Cisco-VMware With EMC & NetApp
Validated Design & Certification for
Virtualized Workload Mobility
Мобильность виртуальных сервисов Перемещение VM между ЦОД
Функция Решаемая задача Связь систем хранения
Обеспечить приложениям непрерывный доступ к ресурсам хранения локально и удалённо оптимальным образом
Расширение LAN
Доступ к одним и тем же VLAN из разных ЦОД для поддержки отказоустойчивости и мобильности
Оптимизация пути
Оптимальная симметричная маршрутизация между пользователями и ЦОД, где находится приложение
Маршрутизация Маршрутизируемая связь между ЦОД
Связь ЦОД Элементы решения MPLS
IP Core
DC 1 DC 2
Core Network
Virtual Center
ESX-A source ESX-B target
L2 extension for vMotion Network
Target
Volumes
Initiator
Ресурсы хранения при связи ЦОД Вариант 1 – разделяемая СХД
Core Network
DC 1 DC 2
Virtual Center
L2 extension for vMotion Network
ESX-A source ESX-B target
Improve Latency using Cisco Write Acceleration feature on MDS Fabric
Ресурсы хранения при связи ЦОД Разделяемая СХД – использование Cisco IO Acceleration
http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html
Core Network
DC 1 DC 2
Virtual Center
L2 extension for vMotion Network
ESX-A source ESX-B target
Ресурсы хранения при связи ЦОД Вариант 2 - NetApp FlexCache (Active/Cache)
NAS
Temp Cache
1
?
4
Read
data 3 data
2 Read
2
§ FlexCache does NOT act as a write-back cache § FlexCache responds to the Host only if/when the original subsystem ack’ed to it § No imperative need to protect a Flexcache from a power Failure
data 1
Write 3
2 Write
4 ACK
ACK data
data
DC B DC A
Fibre Channel
Distributed Virtual Volume
§ Hosts at both sites instantly access Distributed Virtual Volume
§ Synchronization starts at Distributed Volume creation
§ WRITEs are protected on storage at both Site A and B
§ READs are serviced from VPLEX cache or local storage.
Synchronous Latency
Ресурсы хранения при связи ЦОД Вариант 3 - EMC VPLEX Metro (Active/Active)
http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/ EMC/dciEmc.html
Core Network
Virtual Center
L2 extension for vMotion Network
ESX-A source ESX-B target
VPLEX Virtual Layer
DC 1 DC 2
Initiator
Initiator
Target VPLEX Engine
EMC VMAX
VPLEX Engine
EMC CLARiiON
Target
F
From
the
Hos
t
F
From the S
torage
LUNv LUNv
Synchronous Latency requiments ~100 kms max
Ресурсы хранения при связи ЦОД Вариант 3 - EMC VPLEX Metro (Active/Active)
«Растягивание» VLAN между ЦОД
§ Ряд приложений требуют смежности на 2 уровне § Кластеры (Veritas, MSFT) § vMotion § «Доморощенные» приложения
§ Миграция серверов
§ Высокая доступность
§ Распределенные служебные и прикладные сервисы
Data Center
A
Data Center
B
Связь ЦОД Требования к расширению подсетей
§ Изоляция STP: предотвращение распространения проблем
§ Предотвращение «зацикливания» между ЦОДами
§ Отказоустойчивость и масштабирование производительности
§ Поддержка многих сайтов
Intra-DC Domain with STP Isolation
Intra-DC Domain with STP Isolation
Core
Aggr/ Distr
Access
L3
L2
WAN
Data-center
WAN
Core
Aggr/ Distr
Access
L3
L2
WAN
Data-center
SAN SAN
No Inter-DC Loop
Same Extended VLAN
q Защита от «петель» q Изоляция STP q Отказоустойчивость. q Балансировка нагрузки
на WAN q Прозрачность для
ядра q Прозрачность для
сетей ЦОД q Оптимизация трафика q Масштабирование q Связь многих ЦОД
Необходимо
Ethernet
Ø VSS & vPC или FabricPath § Multi-Chassis EtherChannel для связи пары ЦОД § FabricPath для связи многих сайтов § По тёмной оптике или xWDM § Технологии LAN
IP
Ø OTV § Внедрение на CE § Подходит для корпоративных внедрений § Малая зависимость от транспорта – требуется только IP сеть § Маршрутизация по MAC адресам
Растягивание VLAN Критерии выбора технологии Тип технологии Критерии применения
MPLS
Ø EoMPLS & A-VPLS & H-VPLS § Внедрение на PE § Масштабирование и multi-tenancy § Возможно поверх GRE § Апробированный вариант, хорошо подходит SP
«Тёмная оптика»
• Прямое соединение между ЦОД по оптическому кабелю • Обычно – два альтернативных пути • Проблемы:
– Технологии изоляции ЦОД – Масштабируемось числа ЦОД – Механизмы отказустойчивости – Борьба с «петлями»
• xWDM – аналог для бОльших расстояний или при недостатке оптических волокон
Long Distance
DC 1 DC 2
CO
RE
AG
GR
AC
CES
S
Server Cluster
CO
RE
AG
GR
AC
CESS
Server Cluster
Основные рекомендации
§ Различающиеся номера vPC доменов § BPDU Filter на пограничных устройствах для блокирования распространения BPDU § STP Edge Mode для быстрого восстановления § Отсутствие петель между ЦОД в обход vPC
vPC domain 10 vPC domain 20
vPC domain 21 vPC domain 11
E E
- -
- -
- -
E
E
E
E
F
F
F
F -
-
- -
-
- -
B B
N N N N
N
N N
N
R R
-
R R R R
R R
Многоуровневый vPC для агрегирования и DCI
Rootguard
B
F
N
E
BPDUguard
BPDUfilter
Network port
Edge or portfast port type
- Normal port type
R
Ani
mat
ed S
lide!
Проблема Решение с L2MP / FabricPath
Необходимость полной мобильности сервисов
Гибкость на 2 уровне для доведения VLAN в любую точку для снижения зависимости от расположения серверов
Неэффективное использование полосы на 2 уровне
До 16 активных L2 путей, каждый из которых может быть агрегировать до 16 соединений (Portchannel)
Сбои на 2 уровне Альтернатива недостатками Spanning Tree Опора на технологию маршрутизации ISIS
Масштабирование таблиц MAC адресов в больших L2 доменах
Иерархическая адресация + выучивание по диалогами для более эффективного использования таблицы MAC адресов
Cisco FabricPath Решаемые задачи
§ Достоинства: § Диалоговое выучивание MAC адресов
§ Отказоустойчивость и изоляция STP
§ Динамичесая «подрезка» VLAN
§ Лёгкая интеграция с сущестующими ЦОД
§ Сопряжение с помощью vPC+
§ Ограничения: § Требует использования FabricPath соединений на всём транспорте § Использует Flooding неизвестных адресов § Нет подавления броадкастов § L2 Multipath только для путей одинаковой стоимости
FabricPath для связи ЦОД
Site C
vPC+
FabricPath для связи ЦОД Различные модели внедрения
Site A
Site B
vPC+
Classical Ethernet
Cloud
Site D
vPC+
STP VSS
CE
Core FabricPath Pre-TRILL
Core FabricPath Pre-TRILL
FabricPath для связи ЦОД Кольцевая топология
Site C
vPC+
Site A
Site B
vPC+
Classical Ethernet
Cloud
Site D
vPC+
STP VSS
CE
Core FabricPath Pre-TRILL
Site C
vPC+
Site A
Site B
vPC+
Classical Ethernet
Cloud
Site D
vPC+
STP VSS
CE
FabricPath для связи ЦОД Полносвязная топология
Overlay Transport Virtualization (OTV) Простое и надежное решение для связи ЦОД
• Расширение L2 доменов по произвольной IP сети – Тёмная оптика, MPLS, IP VPN... – Поддержка нескольких ЦОД
• Упрощение построения и эксплуатации – Простота интеграции в существующие сети – Настройка за несколько команд
• Высокая надёжность – Изоляция доменов сбоев – Резервирование подключения сайтов без дополнительных усилий
Any Workload, Anytime, Anywhere
OTV
Overlay Transport Virtualization Принципы работы протокола
• Ethernet трафик инкапсулируется в IP: “MAC in IP” • Динамическая инкапсуляция с использованием таблицы маршрутизации MAC
• Не строится Pseudo-Wire или туннель
Communication between MAC1 (site 1) and MAC2 (site 2)
Server 1 MAC 1
Server 2 MAC 2
OTV OTV MAC IF
MAC1 Eth1
MAC2 IP B
MAC3 IP B IP A IP B
Encap Decap MAC1 à MAC2 IP A à IP B MAC1 à MAC2 MAC1 à MAC2
• Работа поверх любого транспорта (IP, MPLS)
• Изоляция доменов сбоев • Независимость сайтов • Оптимальное использование полосы • Встроенная отказоустойчивость • Встроенная защита от «петель» • Связь многих сайтов • Масштабируемость
§ VLANs, сайты, MACs § ARP, broadcasts/floods
• Простота настройки • Легкость добавления сайтов
Проблемы «растягивания» LAN Решаемые OTV
South Data
Center
North Data
Center
Fault Domain
Fault Domain
Only 6 CLI commands
LAN Extension
Fault Domain
Fault Domain
Расширение подсетей Поддержка технологий продуктами
ASR 1000 Cat 6500 Nexus 7000 ASR 9000 Ethernet
Cluster ✓ Планируется
vPC ✓
FabricPath ✓
MPLS EoMPLS ✓ ✓ 1HCY12 ✓
EoMPLSoGRE ✓ ✓
✈requires SIP card support)
VPLS ? ✓ 1HCY12 ✓
IP OTV Планируется ✓
Оптимальный путь В чём именно проблема?
Layer 3 Core
Access
Agg
Access
Agg
10.1.1.0/24 advertised into L3 Backup should main site go down
10.1.1.0/25 & 10.1.1.128/25 advertised into L3 DC A is the primary entry point
Node A
ESX ESX
Virtual Machine Virtual Machine
VMware vCenter
Data Center 1 Data Center 2
Оптимальный путь Хотелось бы так...
Access
Agg
Access
Agg
Node A
ESX ESX Virtual Machine
VMware vCenter
Data Center 1 Data Center 2
• Исходящий трафик – Изоляция FHRP
• Входящий трафик – ACE/GSS
• Выбор сайта с помощью DNS – Route Health Injection (RHI)
• Анонс /32 маршрутов на активные сервисы – Locator/ID Separation Protocol – LISP-VM
• Маршрутизация до сервиса
Оптимизация пути трафика
Оптимизация пути «на выход» Локализация FHRP с помощью OTV
• Одна и та же HSRP группа на всех сайтах с теме виртуальным MAC адресом
• Каждый сайт обеспечивает исходящую маршрутизацию • OTV локализует исходящий трафик за счёт фильтрации HSRP hello сообщений между сайтами
• ARP запросы перехватываются на OTV edge устройстве чтобть обеспечить ответы именно от локального шлюза
L2 L3
Active GWY Site 2
Active GWY Site 1
FHRP Hellos
FHRP Hellos ARP traffic is
kept local ARP traffic is kept local
West East
Layer 3 Core Intranet ISP A ISP B
Access
Agg
Access
VM= 10.1.1.100 Default GW = 10.1.1.1
DC A DC B
VLAN A
144.254.1.100 KAL-AP Change IP
144.254.200.100
144.254.200.100 144.254.1.100
GSS
SNAT SNAT
KAL-
AP o
n VI
P
L2 Links (GE or 10GE) L3 Links (GE or 10GE)
Оптимизация пути «на вход» С использованием ACE, GSS и KAL-AP
144.254.1.100
Layer 3 WAN
VM= 10.1.1.100 Default GW = 10.1.1.1
VLAN A
Public Network
MAC moved Change the IP@
144.254.200.100
Access
Agg
ISP A
Data Center A
144.254.1.0/24 is advertised into L3
144.254.1.100 144.254.200.100
Access
Agg
ISP B
Data Center B
SNAT SNAT
Оптимизация пути «на вход» С использованием ACE, GSS и vCenter скриптов
Layer 3 Core Intranet ISP A ISP B
Access
Agg
Access
Agg
DC A DC B
VLAN A
Public Network
Probe to 10.1.1.100 Failed
IS 10.1.1.100 OK?
L2 Links (GE or 10GE) L3 Links (GE or 10GE)
144.254.100.0/24 Backup for Data Center A
144.254.100.0/25 & 144.254.100.128/25 EEM or RHI can be used to get very granular
App VM = 10.1.1.100 Default GW = 10.1.1.1
Оптимизация пути «на вход» С использованием Route Health Injection на ACE
Layer 3 Core Intranet ISP A ISP B
Access
Agg Agg
DC A DC B
VLAN A
Public Network
Probe to 10.1.1.100 is OK
IS 10.1.1.100 OK? RHI
L2 Links (GE or 10GE) L3 Links (GE or 10GE)
10.1.1.1 HSRP Group 1
144.254.100.0/24 Backup for Data Center A
144.254.100.0/25 & 144.254.100.128/25 EEM or RHI can be used to get very granular
App VM= 10.1.1.100 Default GW = 10.1.1.1
144.254.100.100/32 is advertised into L3 using RHI
10.1.1.1 HSRP Group 1
Оптимизация пути «на вход» С использованием Route Health Injection на ACE
Оптимизация пути «на вход» Locator-ID Separation Protocol (LISP)
• Отделяет идентификатор сервиса (IP адрес) от его местоположения
• Маршрутизация исходя из местоположения, а не адреса хоста • Соотношение адреса и его местоположение хранятся в директории
• Поиск метоположения IP адреса по информации из директории • Инкапсуляция трафика (IP in IP) и передача по месту нахождения хоста
• Директория – распределенная база данных
ALT directory
Resolution & Registration Data Path
§ Информация о хостах не хранится в таблице маршрутизации
§ “Summarizable host routing”
L2 Links (GE or 10GE) L3 Links (GE or 10GE)
VM= 10.10.10.1 Default GW = 10.10.10.100
Локализация входящего трафика с помощью LISP
Layer 3 Core Intranet ISP A ISP B
Access
Agg
Access
Agg
DC A DC B
VLAN A
Public Network
Prefix Route Locator
10.10.10.1 A, B
10.10.10.2 A, B … …
10.10.10.5 C, D
10.10.10.6 C, D
Ingress Tunnel
IP_DA= A IP_DA = 10.10.10.1
C, D
A B Decap
3
D C
Encap 2
IP_DA = 10.10.10.1
IP_DA 10.10.10.1
1
IP_DA= D IP_DA = 10.10.10.1
Decap
3
IP_DA = 10.10.10.1
Оптимальный транспорт с помощью LISP и OTV
ESX Server A
Layer3 Core
ESX Server B
VLAN A – 10.1.1.0
FHRP: 10.1.1.1 FHRP: 10.1.1.1
- Virtual-Machine-A - IP Address = 10.1.1.100 - Mask: 255.255.255.0 - Default GW = 10.1.1.1
VLAN A – 10.1.1.0
A A’ B B’
MS MR PxTR
D
Client in LISP Site Client in non-LISP Site
C1 C2
E
- Virtual-Machine-A - IP Address = 10.1.1.100 - Mask: 255.255.255.0 - Default GW = 10.1.1.1
OTV Server-to-Server L2 traffic
LISP: L3 Client-to-Server • Оптимизация маршрутизации с детальной информацией
о местоположении • Оптимицация мобильности внутри или между подсетями • Масштабирование прикладных сервисов
OTV: L2 Server-to-Server • Оптимизация расширения LAN • Распределение прикладных систем • Надежная связь на втором уровне для мобильности
виртуальных сервисов и кластерных систем