high performance computing - принципы проектирования сети

35
High Performance Computing Принципы проектирования сети [email protected]

Upload: muk

Post on 24-May-2015

112 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: High performance computing - принципы проектирования сети

High Performance ComputingПринципы проектирования сети[email protected]

Page 2: High performance computing - принципы проектирования сети

Вертикали ЦОД

2

Page 3: High performance computing - принципы проектирования сети

High Performance Computing (HPC)

3

High Performance Computing кластер состоит из набора соединенных между собой компьютерных систем, которые работают сообща, таким образом можно считать, что это

единая система.

Page 4: High performance computing - принципы проектирования сети

Требования к НРС

4

• Системная задержка

• Примеры:

o End-to-end задержка 10 GbE 2.3 микросекунд

o Порты 10/40/100 GbE без переподписки

• Общая производительность системы для обработки трафика сейчас и в будущем

• Примеры:

o Емкость коммутационной фабрики (в Tbps) для обработки трафика

o Большая пропускная способность на слот для будущего роста

• Отказоустойчивость системы для максимизации время работы

• Примеры:

o Избыточные модули для управления, коммутации и питания

o Компоненты с горячей заменой

o Бесшовная отказоустойчивость и обновления ПО

Задержка Емкость Надежность

Page 5: High performance computing - принципы проектирования сети

Вызов 1. Что такое задержка?

5

• Задержка = P + N + S + I + AP- P = Время передачи – отправка битов по проводу- N = Обработка пакета сетевым железом – коммутация, маршрутизация- S = Время сериализации – отправка битов «в провод»- I = Время обработки прерывания – прием пакета на сервере- AP = Время обработки сообщения приложением

• Обмен данными между двумя системами:- ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2

• Категоризация задержки:- Расстояние: Р- Инфраструктура: I, N, S- Приложение: АР

Page 6: High performance computing - принципы проектирования сети

Вызов 1. Как победить задержку?Анализ

6

User space

Kernel Context switch Socketbuffer TCP/IP stack

NIC buffers

Программа Программа Программа Программа

Сервер 1 Сервер 2UDP пакеты отбрасываются здесь, когда память ограничена

Обмен данными между двумя системами:ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2

AP1

S2

N2PN1

S1

I1 I2

AP2

Page 7: High performance computing - принципы проектирования сети

Вызов 1. Как победить задержку?Классификация

7

User space

Kernel Context switch Socketbuffer TCP/IP stack

NIC buffers

Программа Программа Программа Программа

Сервер 1 Сервер 2

AP1

S2

N2PN1

S1

I1 I2

AP2

РАССТОЯНИЕ

ИНФРАСТРУКТУРА

ПРИЛОЖЕНИЕ

Page 8: High performance computing - принципы проектирования сети

Вызов 1. Как победить задержку?Методы

8

• 1000 байт на скорости 1Гб/с- 1000км = 10.1мс- 100км = 1.2мс- 10км = 303μс- 1км = 213μс- 0км = 203μс

• Задержка при отправке 500 байтового пакета. Добавляется каждым коммутатором.

- 10Мб/с = 566μс- 100Мб/с = 56μс- 1Гб/с = 5.7μс- 10Гб/с = 0.57μс• Общая лучшая практика- Правильный выбор провайдера оптической связи- Выбор более скоростного интерфейса для быстрой сериализации- Сократить кол-во уровней в сети для быстрой передачи (Растягивать L2, Уменьшать L3)- Оптимальный выбор сетевого оборудования (cut-through коммутаторы)- Создать план для обработки microbursts- Управлять DROP и DISCARD, чтобы уменьшить JITTER

Page 9: High performance computing - принципы проектирования сети

Вызов 1. Как победить задержку?Выбор пути.

9

Путь Расстояние Задержка

Москва-Киев 850км 4,25мс

Москва-Киев 999км 4,99мс

Значительные различия в задержках у различных операторов

- Зависит от маршрута

- Кол-во сетевых НОР

- Наличие необходимой пропускной способности

Технология, используемая операторами связи сильно отличается по показателям задержки, особенно во время пика трафика

- DWDM предпочтительней MPLS

- Рассмотреть использование высокоскоростной WAN технологии, например растянутые VLAN

Page 10: High performance computing - принципы проектирования сети

Вызов 1. Как победить задержку?Топология

10

ЦОД 3

ЦОД 1

ЦОД 2

Топологические нюансыo Растянутый VLAN = WAN

коммутация на уровне 2o Создает единую сетьo Может использоваться для

геокластеризации и удобства получения multicast трафика

o Одни коммутаторы лучше других. Все зависит от качества исполнения Spanning Tree

o Использовать traffic shaping на управления microbursts

o Использовать одни и те же физические каналы для маршрутизируемых VLAN

Page 11: High performance computing - принципы проектирования сети

Вызов 1. Как победить задержку?Железо

11

40G 40G

10G10G10G10G10G10G

Узел 1 Узел 1Узел 1

Узел 1

Чип 1 Чип 2

Шасси коммутатора

Store & forward

Cut-through

Page 12: High performance computing - принципы проектирования сети

Вызов 1. Как победить задержку?Железо

12

Page 13: High performance computing - принципы проектирования сети

Вызов 1. Как победить задержку?Железо

13

Общая практика Не использовать гипервизор. Никогда Использовать ОС с лучшим TCP стеком – Linux/Solaris/Windows Использовать самые быстрые процессоры

ОС заточены по умолчанию на пропускную. Перенастроить для минимализации задержки Перенастроить TCP/IP стек или обходить его – TCP offload / bypass Никогда не запускать Х сервер

Выключить iptables, ip6tables, yum-tables, sendmail, Bluetooth, cups, irda, atd, autofs, hidd, kudzu, smmbfs

Диск I/O Тонировать файловую систему. XFS для больших файлов. EXT3 среднее арифметичное Можно смотреть в сторону OCFS32, HSF2, BTRFS LINUX runlevel По умолчанию установить RUN LEVEL 3 Тонировать QoS / Scheduling Тонировать сетевой стек Тонировать уровень приложений

Page 14: High performance computing - принципы проектирования сети

Вызов 1. Как победить задержку?NIC

14

Kernel TCP/IP User space TCP/IP Bypass TCP/IP

1G Linux 48μS RTT10G Linux 16μS RTT

OpenOnLoad10μS RTT

OFED2μS RTT

Общие правила для тонировки NICo Будьте избирательны в выборе NIC. Есть большая разница в

характеристиках задержки и DROP, которые зависят от железа и драйвера.

o Проанализируйте сетевой стек

o Тонировать NIC драйвер

o Тонировать TCP/IP стек

o Обмен – уменьшая latency, Вы грузите CPU

Page 15: High performance computing - принципы проектирования сети

Требования к НРС

15

• Системная задержка

• Примеры:

o End-to-end задержка 10 GbE 2.3 микросекунд

o Порты 10/40/100 GbE без переподписки

• Общая производительность системы для обработки трафика сейчас и в будущем

• Примеры:

o Емкость коммутационной фабрики (в Tbps) для обработки трафика

o Большая пропускная способность на слот для будущего роста

• Отказоустойчивость системы для максимизации время работы

• Примеры:

o Избыточные модули для управления, коммутации и питания

o Компоненты с горячей заменой

o Бесшовная отказоустойчивость и обновления ПО

Задержка Емкость Надежность

Page 16: High performance computing - принципы проектирования сети

Вызов 2. Емкость.Устарелая архитектура

16

Page 17: High performance computing - принципы проектирования сети

Вызов 2 – Емкость.Современная архитектура

17

Page 18: High performance computing - принципы проектирования сети

Требования к НРС

18

• Системная задержка

• Примеры:

o End-to-end задержка 10 GbE 2.3 микросекунд

o Порты 10/40/100 GbE без переподписки

• Общая производительность системы для обработки трафика сейчас и в будущем

• Примеры:

o Емкость коммутационной фабрики (в Tbps) для обработки трафика

o Большая пропускная способность на слот для будущего роста

• Отказоустойчивость системы для максимизации время работы

• Примеры:

o Избыточные модули для управления, коммутации и питания

o Компоненты с горячей заменой

o Бесшовная отказоустойчивость и обновления ПО

Задержка Емкость Надежность

Page 19: High performance computing - принципы проектирования сети

Вызов 3. Надежность.Аппаратная надежность.

19

Возможность горячей замены любого из компонентов

Питаниеo Отказоустойчивость по схеме N+1 или N+N

Охлаждениеo Отказоустойчивость по схеме N+1 или N+N

Коммутацияo Отказоустойчивость фабрик модулей по схеме N+1

Управление o Отказоустойчивость управляющих модулей по схеме N+1

Page 20: High performance computing - принципы проектирования сети

Вызов 3. Надежность. Топология

20

ЦОД 2

SW #2SW #1

SW “D”SW “A” SW “B” SW “C”

MLAG

50% TCP50% TCP

EAPSG.8032

MLAG

MLAGSTACK

Dual-homing

Page 21: High performance computing - принципы проектирования сети

Вызов 3. Надежность.Операционная система

21

Page 22: High performance computing - принципы проектирования сети

Принципы на практике. Что есть на рынке

22

4x40G Ports48x10G Ports

32x40G Ports(104x10G Ports)

48x40G Ports216x10G Ports440x1G Ports fiber768x1G Ports copper

32x100G Ports192x40G Ports768x10G Ports384x1G Ports

Summit X670

Top-of-RackSummit X770

Top-of-Rack

BlackDiamond 8800

End-of-Row BlackDiamond X8

End-of-Row

Page 23: High performance computing - принципы проектирования сети

Серия Summit X670

Summit® X670V-48x– 48 портов GbE/10 GbE

– Один модуль расширения для VIM4-40G-4X:

• 4 порта 40 GbE

• 16 портов 10 GbE с разветвителями

• 64 порта 10 GbE в коммутаторе

• SummitStack™-V320 используя 4 порта

40 GbE

– Стеккирование SummitStack-V используя

два порта 10 GbE

Summit X670-48x– 48 портов 1 GbE/10 GbE

– Стеккирование SummitStack-V используя

два порта 10 GbE ports

23

Двунаправленные блоки вентиляторовБлоки питания AC/DC с горячей заменой

Page 24: High performance computing - принципы проектирования сети

Х670 Высокоскоростное стекирование – 320Гб/с

24

Summit X670V

Summit X650

Summit X460/480

Summit X460/480

Summit X670

Up

to 8 u

nits

Summit® X670V

Summit X650

Summit X650

Summit X480

Summit X670V

Up

to 8 u

nits

Page 25: High performance computing - принципы проектирования сети

Серия Summit X770

25

32 Ports of QSFP+ 40GbE !!!Up to 104 ports 10GbE !!!

Page 26: High performance computing - принципы проектирования сети

Summit X770-32q Switch Hardware

26

32-port QSFP+ Ports of 40GbE

Redundant AC/DC Power Supplies (always ships with 2 PSUs)

2 x mini BNC connectors (75Ω)1588 Output: 1PPS & 10MHz

OOB Management Ethernet

Console Port

Stack Member Number

4+1 FansFront-to-Back or Back-to-

Front (always ships with 5)

USB Port

Page 27: High performance computing - принципы проектирования сети

© 2013 Extreme Networks, Inc. All rights reserved.

BlackDiamond 8800: Расширяемая архитектура

Page 27

Единственный производитель со всеми вариантами решений в одном шасси

Ниже TCO: 8500-модули можно использовать в системах 8800/8900

NEW

Коммутац. комната

Агрегация/Ядро

ЦОД

NEW

Page 28: High performance computing - принципы проектирования сети

© 2013 Extreme Networks, Inc. All rights reserved.

8800 systemToday

MSM48c

DC: 10G8Xc

Core: 10G4Xc

Core: G48Xc

Core: G24Xc

Access: G48Tc (POE FRU)

SmallMedium Large

8500-series(for small deployments)

8800 c-series(for medium deployments)

8900-series(for large deployments)

8500-MSM24* MSM48c* 8900-MSM128*

DC: 10G8Xc DC: 8900-10G24X-c

Core: 10G4Xc DC: 8900-G96T-c

Core: G48Xc DC/Core: 8900-10G8X-xl

Access: 8500-G24X-e Core: G24Xc DC/Core: 8900-G48X-xl

Access: 8500-G48T-e (POE FRU) Access: G48Tc (POE FRU) DC/Core: 8900-G48T-xl

Все карты совместимы между собой

*Все управляющие модули поддерживают карты расширения GE or 10GE

Защита инвестиций:

1000 оптических портов на стойку? Да!

Page 29: High performance computing - принципы проектирования сети

© 2013 Extreme Networks, Inc. All rights reserved.

BlackDiamond X8

29

Физические характеристики• 19-inch rack size, 14.5RU, 30” depth• 8 I/O slots – Horizontal• 2 MM slots - Horizontal• 4 Fabric slots – Rear Vertical• 5 Fan trays – Rear Vertical • 8 PSU slots

Производительность• Скорость коммутации 20+ Tbps • 1.28 Tbps на каждый слот• 192 x 40 GbE или 768 x 10 GbE

Надежность• 3+1 модулей коммутации, 960 Gbps на

слот в случае аварии одного fabric модуля (24 интерфейса 40 GbE неблокируемой коммутации)

• Два управляющий модуля• 4+1 блоков вентиляторов• Резервирование электропитания N+1

BlackDiamond® X8

14.5 RU

30”

17.25”

Page 30: High performance computing - принципы проектирования сети

© 2013 Extreme Networks, Inc. All rights reserved.

12-Port 40GbE QSFP+ Module

48-Port 10GbE SFP+ Module

24-Port 40GbE QSFP+ Module

12-Port 40GbE-XL QSFP+ Module

48-Port 100/1000/10000MbE RJ45 Module

4-Port 100GbE-XL CFP2 Module

New

New

New

BlackDiamond X8

Page 31: High performance computing - принципы проектирования сети

© 2013 Extreme Networks, Inc. All rights reserved.

BlackDiamond® X8 Шасси

31

8 I/O Module Slots(Horizontal)

8 PSU Slots

Dual Management Module Slots

5 Fan Tray Slots(Vertical)

8 AC Power Input Sockets

4 Fabric Module Slots

Front View

Rear ViewWith Fan Trays

Rear View4 Fan Trays Removed

Page 32: High performance computing - принципы проектирования сети

Пример НРС для нефтяной компании

32

o HPC cluster is based on three main components:- Cluster servers with 10G NICs. Vendors – HP, IBM & DELL- High performance storage with 10G & 40G. Vendors DDN & Panasas- Networks switches with 10G & 40G. Vendors – Extreme Networkso Requirements for platforms- Storage must support both Infiniband for legacy connectivity and Ethernet- Server platform Intel/Linux & 7200TB storage- 10G/40G Etherneto Purpose of HPC- Must support a connectivity of large storage subsystems- To be used for seismic data processing

Page 33: High performance computing - принципы проектирования сети

Пример. Топология

33

HP Cluster Servers

Extreme Networks

BLACK DIAMOND X8 DDN Storage Servers

LAN

3rd party network vendor

10G

228 ports

10G

16 ports

40G

128 ports

Page 34: High performance computing - принципы проектирования сети

ПримерНРС для нефтяной компании

34

• Почему Ethernet

Компании запросили решение на Ethernet потому что: a. Ethernet может передавать 40G, но IB может 40G и 56G b. Ethernet дешевле и проще найти экспертов. Низкий CAPEX c. Ethernet дешевле в поддержке. Низкий OPEX d. У Ethernet есть 100G e. За Ethernet стоят тяжеловесные производители сетевого

оборудования

Page 35: High performance computing - принципы проектирования сети

Спасибо за внимание!

У Вас есть вопросы?

35

Паливода Александр[email protected]