Надежная инфраструктура цод

31
Дмитрий Мацкевич консультант и эксперт в области ЦОД индивидуальный предприниматель автор интернет проектов www.DCNT.ru Надежная инфраструктура ЦОД

Upload: -

Post on 15-Jun-2015

947 views

Category:

Documents


0 download

DESCRIPTION

Семинар в Академии информационных систем. Мы рассмотрели схемы надежности инфраструктуры ЦОД tier согласно требованиям стандартов в области ЦОД - Bisci 002-2011, TIA/EIA-942, Uptime Institute. Рассмотрели влияние различных систем друг на друга - охлаждение и электроснабжение.

TRANSCRIPT

Page 1: Надежная инфраструктура цод

Дмитрий Мацкевич

консультант и эксперт в области ЦОД

индивидуальный предприниматель

автор интернет проектов

www.DCNT.ru

Надежная инфраструктура ЦОД

Page 2: Надежная инфраструктура цод

• ЦОД – сложный комплексный

объект, включающий в себя

архитектурно–технические решения,

инженерные системы, системы хранения

данных, активное сетевое и

телекоммуникационное оборудование,

сервера и другое оборудование

• Отличие серверной от ЦОД, у

серверной чаще всего уже готовое

архитектурное решение (серверная

комната)

в Российских стандартах нет

определения: серверной и ЦОД

Пользуемся западными стандартами

Мацкевич Дмитрий , www.DCNT.ru, 2012

ЦЕНТР ОБРАБОТКИ ДАННЫХ

Page 3: Надежная инфраструктура цод

Основные требования к ЦОД

• Доступность к ресурсам

(24 часа/ 365 дней)

• Высокая производительность

(небольшое время отклика на запрос)

• Высокая надежность

(резервирование, дублирование данных)

• Безопасность (физическая, информационная)

• Масштабируемость (возможность установки дополнительного оборудования)

• Гибкость (быстрое переключение, изменение )

Мацкевич Дмитрий , www.DCNT.ru, 2012

Page 4: Надежная инфраструктура цод

4

• Контейнерный ЦОД (контейнер 20”, 40 ”, 53” и другие форм-факторы)

Не путайте их с модульными дата центрами!

• МиниЦОД - серверные (площадь менее 24 м2)

• ЦОД (машинные залы )

• ЦОД (специализированные здания и сооружения)

Page 5: Надежная инфраструктура цод

5

В ИТ системах

IA = System UpTime / (System UpTime + System DownTime)

System UpTime – время работы системы без прерывания

System DownTime – время остановки

IA - коэффициент уровня готовности

В инженерных системах

IA = MTBF / (MTBF+MTTR) MTBF - время наработки на отказ

MTTR - усредненное время ремонта

Стремимся к IA = 1, однако, это на практике не возможно достичь !

Мацкевич Дмитрий , www.DCNT.ru, 2012

UpTime и коэффициент уровня

готовности

Page 6: Надежная инфраструктура цод

6

IA = MTBF / (MTBF+MTTR) MTBF - время наработки на отказ

MTTR - усредненное время ремонта

Время наработки на отказ 5 лет

Среднее время восстановления 4 часа

8760 часов в год

IA = 8760 * 5 / (8760 * 5 + 4 ) = 0,999909

Отличные показатель?

Мацкевич Дмитрий , www.DCNT.ru, 2012

Расчет коэффициент

уровня готовности

Page 7: Надежная инфраструктура цод

Uptime % DownTime % DownTime в год (8760 час)

DownTime в неделю

98 2 7,3 дня 3 часа 22 минут

99 1 3 дня 39 минут 1 час 41 минута

99,9 00,1 8 часов 45 мин 10 мин 5 сек

99,99 00,01 52 мин 30 сек 1 мин

99,999 00,001 5 мин 15 сек 6 сек

99,9999 00,0001 31,5 сек 0,6 сек

UpTime – время нахождения системы в рабочем состоянии

UpTime – часто приводят в количестве 9-ок

DownTime – время нахождения системы в нерабочем состоянии

Page 8: Надежная инфраструктура цод

8

Вероятность выхода из строя системы из 2-ух последовательных элементов

Ps = P1(вероятность выхода из строя элемента 1) + P2 (вероятность выхода из

строя элемента 2)

Например, вероятность выхода системы доступа информации к диску =

Вероятность выхода контроллера диска + Вероятность выхода диска;

Pк+Рд = 0,0001 + 0,0001 = 0,0002

Вероятность выхода из строя системы с резервированием Ps (вероятность выхода из строя системы) = P1(вероятность выхода из строя 1 элемента) *

P2 (вероятность выхода из строя 2-ого элемента)

Например , два зеркальных диска ; Pд*Pд = 0,0001 * 0,0001=0,0000001

Однако, если у нас контроллер не резервируется, то вероятность выхода

системы хранения данных

Pк+Рд+Рд = 0,0001+ 0,0001 * 0,0001=0,0001001

Выводы

• Чем больше элементов в цепочке, тем меньше надежность

• Не должна быть точка отказа в системе (SPOF)

• Необходимо резервирование компонентов и путей

Мацкевич Дмитрий , www.DCNT.ru, 2012

Надежность и резервирование

Page 9: Надежная инфраструктура цод

9 Мацкевич Дмитрий , www.DCNT.ru, 2012

N: Требуемый объем ресурсов N.

Например, Тб памяти, мощности кВА, кВт охлаждения

N+1: В системе имеется один резервный элемент.

При отключении, ремонте, в некоторых случаях выходе из строя одного из элементов

система не остановит свою работу.

Например, RAID-5 (1 диск дополнительный) или установлен один резервный ИБП.

N+2: Два дополнительных элемента в системе.

Например, RAID-6, 2 диска в резерве или два резервных кондиционера.

Также эта схема позволяет уменьшить количество резервируемых компонентов между двумя

элементами системы (клапаны, автоматические выключатели)

2N: Дублирование компонентов.

Чаще N ресурсов находится в одной подсистеме, N в другой. Чтобы выход даже N ресурсов

не привел к остановке подсистемы.

Например, установлено два дисковые подсистемы (два контроллера) в севере или две группы

ИБП.

2(N+1): Дублирование и внутри каждой подсистемы есть дополнительный элемент при

выходе из строя одного элемента в одной системе и всех элементов другой система в целом

останется работоспособной. Например, используем две системы отделенные друг от друга с

дисковым контроллером с системами RAID-5)

S+S: Подсистема зарезервирована. При выходе из строя всех компонентов из

одной подсистемы будет обеспечена непрерывная работа системы в целом.

Например, установлено две дисковые подсистемы на разных серверах или есть

две подсистемы с ИБП в каждой подсистеме.

Резервирование и требуемый ресурс N (Need)

Page 10: Надежная инфраструктура цод

10

Требуется

для ИТ оборудования требуется бесперебойное электропитание

мощностью 500 кВА ( 500 кВА это и будет N)

Два ИБП по 500 кВА, 2 х 500 кВА, второй ИБП будет резервным, схема

N+1 (N от слова Need)

Три ИБП по 250 кВА, 2 *250 (N) + 250 (1)

третий ИБП будет резервным, схема N+1

Четыре ИБП по 250 кВА, 2 *250 (N) + 2 *250 (N), схема N+2

Две подсистемы питания, в каждой по одному ИБП на 500 кВА,

схема резервирования N+1= 2N и иногда = S+S

Две подсистемы питания, в каждой по 3 ИБП 250 кВа

Схема резервирования 2 (N+1)

Варианты решения с резервированием

Мацкевич Дмитрий , www.DCNT.ru, 2012

Пример резервирования ресурсов

Page 11: Надежная инфраструктура цод

Состав основных инженерных

систем в ЦОД • Система энергоснабжения

• Система бесперебойного

электропитания (СБЭ)

• Система резервного электропитания

(СРЭ)

• Система освещения (основного и

аварийного)

• Система кондиционирования и

вентиляции (СКВ)

• Система оповещения

• Система пожаротушения

• Система контроля и управления

доступом (СКУД)

• Система телевизионного наблюдения

• Система контроля и мониторинга

• Система диспетчеризации

• Структурированная кабельная

система (СКС)

• Система кабельных каналов (СКК)

• Система заземления и

молниезащиты

• Система подготовки воды

• Система дренажа воды

• Система безопасности ИТ и

физической

Много элементов! Много связей !

Взаимное влияние, например,

СБЭ -> охлаждение -> СБЭ !

Влияние инженерных подсистем на

работу ИТ оборудования !

Page 12: Надежная инфраструктура цод

• Инженерная инфраструктура определяет доступность к ресурсам

• Инженерная инфраструктура определяет высокую

производительность

• Инженерная инфраструктура определяет надежность

• Инженерная инфраструктура определяет безопасность

• Инженерная инфраструктура определяет масштабируемость

• Инженерная инфраструктура определяет гибкость

Надежная инженерная инфраструктура – это базис для надежной

работы ИТ систем, поэтому ей необходимо уделить пристальное

внимание

Чтобы надежно работала ИТ инфраструктура,

требуется надежная инженерная инфраструктура

Page 13: Надежная инфраструктура цод

Мацкевич Дмитрий , www.DCNT.ru, 2012 13

Инструкция по проектированию зданий и

сооружений для ЭВМ СН-512-78 ред.2000 года

Page 14: Надежная инфраструктура цод

Мацкевич Дмитрий , www.DCNT.ru, 2012 14

Американский стандарт

ANSI/TIA-942 в ред. 2005 г.

Page 15: Надежная инфраструктура цод

Мацкевич Дмитрий , www.DCNT.ru, 2012 15

2-ое дополнение к стандарту

ANSI/TIA-942 март 2010 г.

Page 16: Надежная инфраструктура цод

Мацкевич Дмитрий , www.DCNT.ru, 2012 16

Американский стандарт

ANSI/BICSI 002-2011

Page 17: Надежная инфраструктура цод

Мацкевич Дмитрий , www.DCNT.ru, 2012 17

Европейский стандарт Code of Conduct

• Cправочный документ,

позволяющий определять и

реализовывать меры по

повышению энергетической

эффективности дата-центров

• Есть критерии для новых,

модернизируемых и построенных

ЦОД и по ним выставляется

оценка (общей оценки ЦОД нет )

• Участники программы -

операторы ЦОД, провайдеры Colo

услуг, пользователей услуг Colo

• Надо заполнить формы

• Разные цвета – разные формы,

заполняемые участником

программы

• Критерии выработаны для

Зданий,

электромеханического

оборудования, ИТ

оборудования, стоек, ПО, ОС

и виртуализация,

Page 18: Надежная инфраструктура цод

Мацкевич Дмитрий , www.DCNT.ru, 2012 18

Европейский стандарт Code of Conduct

• Эксплуатация, управление и планирование в дата-центре - Важно

разрабатывать целостную стратегию и методы управления дата-центром. Это

позволит Участнику эффективно обеспечивать надежность, экономические,

эксплуатационные и климатические преимущества

• ИТ-оборудование и сервисы - ИТ-оборудование создает потребность в

электроэнергии и охлаждении в дата-центре, поэтому любое снижение

потребляемой или предоставляемой ИТ-оборудованию энергии и

охлаждающей способности будет иметь повышенное влияние на общее

электроснабжение.

• Охлаждение - Охлаждение зачастую является наиболее энергоемкой

системой в дата-центре, и как таковая она представляет значительные

возможности для повышения эффективности.

• Силовое оборудования

• Прочее оборудование – офисы, склады и т.д.

• Здание дата центра - Размещение и физическая топология здания дата-

центра имеет важное значение для обеспечения гибкости и

эффективности.

Page 19: Надежная инфраструктура цод

19

Стандарт TIA/EIA-942 (UpTime Institute) разделяет на четыре уровня

надежности инфраструктуру ЦОД

Tier 1 (Tier I): Базовый уровень N, нет резервирования.

Tier 2 (Tier II): Избыточные элементы (N+1), пути (каналы, линии,

трубопроводы, трассы) не резервированы, ремонт системы без ее

остановки не возможен

Tier 3 (Tier III): Избыточные элементы N+1 и резервирование путей, Возможен ремонт и замена оборудования без остановки. Единая точка

отказа может быть.

Tier 4 (Tier IV): Резервирование на уровне 2*N (N при сбое Uptime).

Полностью отказоустойчивая инфраструктура ЦОД, выход из строя

любого элемента из подсистем и любого пути из подсистем в любой

комбинации не приводит к остановке работы.

Подтверждением Tier занимается ТОЛЬКО частная компания

UpTime Institute http://professionalservices.uptimeinstitute.com/tiercert.htm

Мацкевич Дмитрий , www.DCNT.ru, 2012

Уровни надежности (tier)

инфраструктуры ЦОД

Page 20: Надежная инфраструктура цод

20 Мацкевич Дмитрий , www.DCNT.ru, 2012

Tier инфраструктуры ЦОД

согласно Uptime Institute

Класс Tier I Tier II Tier III Tier IV

Количество

элементов после

сбоя

N N+1 N+1 N после сбоя

Распределительн

ые пути

1 1 1 активный и 1

пассивный

2 активны,

работают

параллельно

Непрерывное

обслуживание

Нет нет есть Есть

Устойчивость к

ошибками и сбоям

Нет нет Нет Есть

Непрерывное

охлаждение

не требуется не требуется не требуется Требуется

Class A (ASHRAE)

ДГУ Standby and

Prime, на 12 час

топливо

Standby and

Prime, на 12 час

топливо

Непрерывной

работы, на12 час

топливо

Непрерывной

работы, на 12 час

топливо

Резервирование

клапанов, выкл. в

электр. системе

Не требуется Не требуется Требуется Требуется

Изолированность Не требуется Не требуется Не требуется Требуется

Page 21: Надежная инфраструктура цод

21 Мацкевич Дмитрий , www.DCNT.ru, 2012

Пример требований стандарта

TIA-942 дополнение 2 2010 год

Page 22: Надежная инфраструктура цод

22

Class F0: Нет избыточных элементов и путей,

System DownTime до 400 часов, доступность не меньше 99%

Class F1: Нет избыточных элементов и путей,

System DownTime 100-400 часов, доступность не меньше 99%

Class F2 : Избыточные элементы только для критичных участков,

System DownTime 50-99 часов, доступность не меньше 99,9%

Class F3 : Избыточные элементы,

System DownTime 0-49 часов, доступность не меньше 99,99%

Class F4 : Дублирование подсистем на уровне 2*(N+1), System

DownTime 0, доступность не меньше 99,999%

Мацкевич Дмитрий , www.DCNT.ru, 2012

Классы надежности ЦОД

согласно BISCI 002-2011

Page 23: Надежная инфраструктура цод

23

Class F0: Один источник питания. Нет ИБП. Одна линия питания для

ИТ нагрузки.

Class F1: Схема N. Наличие ИБП. Одна линия питания. Резервный

источник питания. Одна линия питания в ИТ нагрузке.

Class F2 : Схема N+1. Резервный источник питания. Одна линия

питания к ИТ нагрузке. Возможность ремонта без останова только на

системном уровне (например, ИБП, ДГУ, чиллер, насос), но не в системе

распределения питания.

Class F3 : Схема N + 1. Резервный источник питания. возможность

одновременного ремонта и эксплуатации. Две линии к ИТ нагрузке, но

только одна линия от ИБП.

Class F4 : Дублирование отдельных подсистем на уровне 2*(N+1). Дата

центр полностью отказоустойчивый, не опускается ниже N+1 во время

ремонта или отказа. Две линии к ИТ нагрузке, обе от ИБП.

Мацкевич Дмитрий , www.DCNT.ru, 2012

Схема электроснабжения ЦОД

согласно BISCI 002-2011

Page 24: Надежная инфраструктура цод

24 Мацкевич Дмитрий , www.DCNT.ru, 2012

Пример критериев стандарта

EU Code of conduct

Page 25: Надежная инфраструктура цод

Uptime - процент работы без простоя

(уровень надежности)

DouwTime

Время простоя в год

Время простоя в месяц

Стоимость строительства ЦОД

по оценке Uptime Institute

(1 кв.фут = 0,09 м2)

98 7,3 дня 14,6 час -

99,671 (tier I) 28,8 час 2,4 час 450 USD

99,749 (tier II) 22,0 час 1,83 час 600 USD

99,982 (tier III) 96 мин 8 мин 900 USD

99,995 (tier IV) 24 мин 2 мин от 1100 USD

99,999 5 мин 15 сек 26 сек нет оценки

99,9999 31,5 сек 3 сек нет оценки

Page 26: Надежная инфраструктура цод

Повышение надежности и

отказоустойчивости ЦОД во

что обойдется?

Во что обходится 1

минута простоя?

Page 27: Надежная инфраструктура цод

Стоимость Доход

1 минуты ≈

Время

Повышение надежности с 3-его до 4-ого уровня Цена

вопроса = Стоимость 1 минуты * (96 - 24)

* 96 – время простоя в мин 3-ий уровень, 24 – 4-ый

уровень

Page 28: Надежная инфраструктура цод

Может ли клиент подождать…

1 минуту? 1 час? А 1 день???

Один недовольный клиент сообщает всем о проблемах с

компанией !!!

Page 29: Надежная инфраструктура цод

29 Мацкевич Дмитрий , www.DCNT.ru, 2012

Пример ошибок в схеме

электроснабжения по Tier II Uptime

Page 30: Надежная инфраструктура цод

3-х дневный курс обучения «Архитектура и инфраструктура ЦОД»

Запись на семинар

http://dcnt.ru/?p=5210

30

Page 31: Надежная инфраструктура цод

Дмитрий Мацкевич

консультант и эксперт в области ЦОД

СПАСИБО