Надежная инфраструктура цод
DESCRIPTION
Семинар в Академии информационных систем. Мы рассмотрели схемы надежности инфраструктуры ЦОД tier согласно требованиям стандартов в области ЦОД - Bisci 002-2011, TIA/EIA-942, Uptime Institute. Рассмотрели влияние различных систем друг на друга - охлаждение и электроснабжение.TRANSCRIPT
Дмитрий Мацкевич
консультант и эксперт в области ЦОД
индивидуальный предприниматель
автор интернет проектов
www.DCNT.ru
Надежная инфраструктура ЦОД
• ЦОД – сложный комплексный
объект, включающий в себя
архитектурно–технические решения,
инженерные системы, системы хранения
данных, активное сетевое и
телекоммуникационное оборудование,
сервера и другое оборудование
• Отличие серверной от ЦОД, у
серверной чаще всего уже готовое
архитектурное решение (серверная
комната)
в Российских стандартах нет
определения: серверной и ЦОД
Пользуемся западными стандартами
Мацкевич Дмитрий , www.DCNT.ru, 2012
ЦЕНТР ОБРАБОТКИ ДАННЫХ
Основные требования к ЦОД
• Доступность к ресурсам
(24 часа/ 365 дней)
• Высокая производительность
(небольшое время отклика на запрос)
• Высокая надежность
(резервирование, дублирование данных)
• Безопасность (физическая, информационная)
• Масштабируемость (возможность установки дополнительного оборудования)
• Гибкость (быстрое переключение, изменение )
Мацкевич Дмитрий , www.DCNT.ru, 2012
4
• Контейнерный ЦОД (контейнер 20”, 40 ”, 53” и другие форм-факторы)
Не путайте их с модульными дата центрами!
• МиниЦОД - серверные (площадь менее 24 м2)
• ЦОД (машинные залы )
• ЦОД (специализированные здания и сооружения)
5
В ИТ системах
IA = System UpTime / (System UpTime + System DownTime)
System UpTime – время работы системы без прерывания
System DownTime – время остановки
IA - коэффициент уровня готовности
В инженерных системах
IA = MTBF / (MTBF+MTTR) MTBF - время наработки на отказ
MTTR - усредненное время ремонта
Стремимся к IA = 1, однако, это на практике не возможно достичь !
Мацкевич Дмитрий , www.DCNT.ru, 2012
UpTime и коэффициент уровня
готовности
6
IA = MTBF / (MTBF+MTTR) MTBF - время наработки на отказ
MTTR - усредненное время ремонта
Время наработки на отказ 5 лет
Среднее время восстановления 4 часа
8760 часов в год
IA = 8760 * 5 / (8760 * 5 + 4 ) = 0,999909
Отличные показатель?
Мацкевич Дмитрий , www.DCNT.ru, 2012
Расчет коэффициент
уровня готовности
Uptime % DownTime % DownTime в год (8760 час)
DownTime в неделю
98 2 7,3 дня 3 часа 22 минут
99 1 3 дня 39 минут 1 час 41 минута
99,9 00,1 8 часов 45 мин 10 мин 5 сек
99,99 00,01 52 мин 30 сек 1 мин
99,999 00,001 5 мин 15 сек 6 сек
99,9999 00,0001 31,5 сек 0,6 сек
UpTime – время нахождения системы в рабочем состоянии
UpTime – часто приводят в количестве 9-ок
DownTime – время нахождения системы в нерабочем состоянии
8
Вероятность выхода из строя системы из 2-ух последовательных элементов
Ps = P1(вероятность выхода из строя элемента 1) + P2 (вероятность выхода из
строя элемента 2)
Например, вероятность выхода системы доступа информации к диску =
Вероятность выхода контроллера диска + Вероятность выхода диска;
Pк+Рд = 0,0001 + 0,0001 = 0,0002
Вероятность выхода из строя системы с резервированием Ps (вероятность выхода из строя системы) = P1(вероятность выхода из строя 1 элемента) *
P2 (вероятность выхода из строя 2-ого элемента)
Например , два зеркальных диска ; Pд*Pд = 0,0001 * 0,0001=0,0000001
Однако, если у нас контроллер не резервируется, то вероятность выхода
системы хранения данных
Pк+Рд+Рд = 0,0001+ 0,0001 * 0,0001=0,0001001
Выводы
• Чем больше элементов в цепочке, тем меньше надежность
• Не должна быть точка отказа в системе (SPOF)
• Необходимо резервирование компонентов и путей
Мацкевич Дмитрий , www.DCNT.ru, 2012
Надежность и резервирование
9 Мацкевич Дмитрий , www.DCNT.ru, 2012
N: Требуемый объем ресурсов N.
Например, Тб памяти, мощности кВА, кВт охлаждения
N+1: В системе имеется один резервный элемент.
При отключении, ремонте, в некоторых случаях выходе из строя одного из элементов
система не остановит свою работу.
Например, RAID-5 (1 диск дополнительный) или установлен один резервный ИБП.
N+2: Два дополнительных элемента в системе.
Например, RAID-6, 2 диска в резерве или два резервных кондиционера.
Также эта схема позволяет уменьшить количество резервируемых компонентов между двумя
элементами системы (клапаны, автоматические выключатели)
2N: Дублирование компонентов.
Чаще N ресурсов находится в одной подсистеме, N в другой. Чтобы выход даже N ресурсов
не привел к остановке подсистемы.
Например, установлено два дисковые подсистемы (два контроллера) в севере или две группы
ИБП.
2(N+1): Дублирование и внутри каждой подсистемы есть дополнительный элемент при
выходе из строя одного элемента в одной системе и всех элементов другой система в целом
останется работоспособной. Например, используем две системы отделенные друг от друга с
дисковым контроллером с системами RAID-5)
S+S: Подсистема зарезервирована. При выходе из строя всех компонентов из
одной подсистемы будет обеспечена непрерывная работа системы в целом.
Например, установлено две дисковые подсистемы на разных серверах или есть
две подсистемы с ИБП в каждой подсистеме.
Резервирование и требуемый ресурс N (Need)
10
Требуется
для ИТ оборудования требуется бесперебойное электропитание
мощностью 500 кВА ( 500 кВА это и будет N)
Два ИБП по 500 кВА, 2 х 500 кВА, второй ИБП будет резервным, схема
N+1 (N от слова Need)
Три ИБП по 250 кВА, 2 *250 (N) + 250 (1)
третий ИБП будет резервным, схема N+1
Четыре ИБП по 250 кВА, 2 *250 (N) + 2 *250 (N), схема N+2
Две подсистемы питания, в каждой по одному ИБП на 500 кВА,
схема резервирования N+1= 2N и иногда = S+S
Две подсистемы питания, в каждой по 3 ИБП 250 кВа
Схема резервирования 2 (N+1)
Варианты решения с резервированием
Мацкевич Дмитрий , www.DCNT.ru, 2012
Пример резервирования ресурсов
Состав основных инженерных
систем в ЦОД • Система энергоснабжения
• Система бесперебойного
электропитания (СБЭ)
• Система резервного электропитания
(СРЭ)
• Система освещения (основного и
аварийного)
• Система кондиционирования и
вентиляции (СКВ)
• Система оповещения
• Система пожаротушения
• Система контроля и управления
доступом (СКУД)
• Система телевизионного наблюдения
• Система контроля и мониторинга
• Система диспетчеризации
• Структурированная кабельная
система (СКС)
• Система кабельных каналов (СКК)
• Система заземления и
молниезащиты
• Система подготовки воды
• Система дренажа воды
• Система безопасности ИТ и
физической
Много элементов! Много связей !
Взаимное влияние, например,
СБЭ -> охлаждение -> СБЭ !
Влияние инженерных подсистем на
работу ИТ оборудования !
• Инженерная инфраструктура определяет доступность к ресурсам
• Инженерная инфраструктура определяет высокую
производительность
• Инженерная инфраструктура определяет надежность
• Инженерная инфраструктура определяет безопасность
• Инженерная инфраструктура определяет масштабируемость
• Инженерная инфраструктура определяет гибкость
Надежная инженерная инфраструктура – это базис для надежной
работы ИТ систем, поэтому ей необходимо уделить пристальное
внимание
Чтобы надежно работала ИТ инфраструктура,
требуется надежная инженерная инфраструктура
Мацкевич Дмитрий , www.DCNT.ru, 2012 13
Инструкция по проектированию зданий и
сооружений для ЭВМ СН-512-78 ред.2000 года
Мацкевич Дмитрий , www.DCNT.ru, 2012 14
Американский стандарт
ANSI/TIA-942 в ред. 2005 г.
Мацкевич Дмитрий , www.DCNT.ru, 2012 15
2-ое дополнение к стандарту
ANSI/TIA-942 март 2010 г.
Мацкевич Дмитрий , www.DCNT.ru, 2012 16
Американский стандарт
ANSI/BICSI 002-2011
Мацкевич Дмитрий , www.DCNT.ru, 2012 17
Европейский стандарт Code of Conduct
• Cправочный документ,
позволяющий определять и
реализовывать меры по
повышению энергетической
эффективности дата-центров
• Есть критерии для новых,
модернизируемых и построенных
ЦОД и по ним выставляется
оценка (общей оценки ЦОД нет )
• Участники программы -
операторы ЦОД, провайдеры Colo
услуг, пользователей услуг Colo
• Надо заполнить формы
• Разные цвета – разные формы,
заполняемые участником
программы
• Критерии выработаны для
Зданий,
электромеханического
оборудования, ИТ
оборудования, стоек, ПО, ОС
и виртуализация,
Мацкевич Дмитрий , www.DCNT.ru, 2012 18
Европейский стандарт Code of Conduct
• Эксплуатация, управление и планирование в дата-центре - Важно
разрабатывать целостную стратегию и методы управления дата-центром. Это
позволит Участнику эффективно обеспечивать надежность, экономические,
эксплуатационные и климатические преимущества
• ИТ-оборудование и сервисы - ИТ-оборудование создает потребность в
электроэнергии и охлаждении в дата-центре, поэтому любое снижение
потребляемой или предоставляемой ИТ-оборудованию энергии и
охлаждающей способности будет иметь повышенное влияние на общее
электроснабжение.
• Охлаждение - Охлаждение зачастую является наиболее энергоемкой
системой в дата-центре, и как таковая она представляет значительные
возможности для повышения эффективности.
• Силовое оборудования
• Прочее оборудование – офисы, склады и т.д.
• Здание дата центра - Размещение и физическая топология здания дата-
центра имеет важное значение для обеспечения гибкости и
эффективности.
19
Стандарт TIA/EIA-942 (UpTime Institute) разделяет на четыре уровня
надежности инфраструктуру ЦОД
Tier 1 (Tier I): Базовый уровень N, нет резервирования.
Tier 2 (Tier II): Избыточные элементы (N+1), пути (каналы, линии,
трубопроводы, трассы) не резервированы, ремонт системы без ее
остановки не возможен
Tier 3 (Tier III): Избыточные элементы N+1 и резервирование путей, Возможен ремонт и замена оборудования без остановки. Единая точка
отказа может быть.
Tier 4 (Tier IV): Резервирование на уровне 2*N (N при сбое Uptime).
Полностью отказоустойчивая инфраструктура ЦОД, выход из строя
любого элемента из подсистем и любого пути из подсистем в любой
комбинации не приводит к остановке работы.
Подтверждением Tier занимается ТОЛЬКО частная компания
UpTime Institute http://professionalservices.uptimeinstitute.com/tiercert.htm
Мацкевич Дмитрий , www.DCNT.ru, 2012
Уровни надежности (tier)
инфраструктуры ЦОД
20 Мацкевич Дмитрий , www.DCNT.ru, 2012
Tier инфраструктуры ЦОД
согласно Uptime Institute
Класс Tier I Tier II Tier III Tier IV
Количество
элементов после
сбоя
N N+1 N+1 N после сбоя
Распределительн
ые пути
1 1 1 активный и 1
пассивный
2 активны,
работают
параллельно
Непрерывное
обслуживание
Нет нет есть Есть
Устойчивость к
ошибками и сбоям
Нет нет Нет Есть
Непрерывное
охлаждение
не требуется не требуется не требуется Требуется
Class A (ASHRAE)
ДГУ Standby and
Prime, на 12 час
топливо
Standby and
Prime, на 12 час
топливо
Непрерывной
работы, на12 час
топливо
Непрерывной
работы, на 12 час
топливо
Резервирование
клапанов, выкл. в
электр. системе
Не требуется Не требуется Требуется Требуется
Изолированность Не требуется Не требуется Не требуется Требуется
21 Мацкевич Дмитрий , www.DCNT.ru, 2012
Пример требований стандарта
TIA-942 дополнение 2 2010 год
22
Class F0: Нет избыточных элементов и путей,
System DownTime до 400 часов, доступность не меньше 99%
Class F1: Нет избыточных элементов и путей,
System DownTime 100-400 часов, доступность не меньше 99%
Class F2 : Избыточные элементы только для критичных участков,
System DownTime 50-99 часов, доступность не меньше 99,9%
Class F3 : Избыточные элементы,
System DownTime 0-49 часов, доступность не меньше 99,99%
Class F4 : Дублирование подсистем на уровне 2*(N+1), System
DownTime 0, доступность не меньше 99,999%
Мацкевич Дмитрий , www.DCNT.ru, 2012
Классы надежности ЦОД
согласно BISCI 002-2011
23
Class F0: Один источник питания. Нет ИБП. Одна линия питания для
ИТ нагрузки.
Class F1: Схема N. Наличие ИБП. Одна линия питания. Резервный
источник питания. Одна линия питания в ИТ нагрузке.
Class F2 : Схема N+1. Резервный источник питания. Одна линия
питания к ИТ нагрузке. Возможность ремонта без останова только на
системном уровне (например, ИБП, ДГУ, чиллер, насос), но не в системе
распределения питания.
Class F3 : Схема N + 1. Резервный источник питания. возможность
одновременного ремонта и эксплуатации. Две линии к ИТ нагрузке, но
только одна линия от ИБП.
Class F4 : Дублирование отдельных подсистем на уровне 2*(N+1). Дата
центр полностью отказоустойчивый, не опускается ниже N+1 во время
ремонта или отказа. Две линии к ИТ нагрузке, обе от ИБП.
Мацкевич Дмитрий , www.DCNT.ru, 2012
Схема электроснабжения ЦОД
согласно BISCI 002-2011
24 Мацкевич Дмитрий , www.DCNT.ru, 2012
Пример критериев стандарта
EU Code of conduct
Uptime - процент работы без простоя
(уровень надежности)
DouwTime
Время простоя в год
Время простоя в месяц
Стоимость строительства ЦОД
по оценке Uptime Institute
(1 кв.фут = 0,09 м2)
98 7,3 дня 14,6 час -
99,671 (tier I) 28,8 час 2,4 час 450 USD
99,749 (tier II) 22,0 час 1,83 час 600 USD
99,982 (tier III) 96 мин 8 мин 900 USD
99,995 (tier IV) 24 мин 2 мин от 1100 USD
99,999 5 мин 15 сек 26 сек нет оценки
99,9999 31,5 сек 3 сек нет оценки
Повышение надежности и
отказоустойчивости ЦОД во
что обойдется?
Во что обходится 1
минута простоя?
Стоимость Доход
1 минуты ≈
Время
Повышение надежности с 3-его до 4-ого уровня Цена
вопроса = Стоимость 1 минуты * (96 - 24)
* 96 – время простоя в мин 3-ий уровень, 24 – 4-ый
уровень
Может ли клиент подождать…
1 минуту? 1 час? А 1 день???
Один недовольный клиент сообщает всем о проблемах с
компанией !!!
29 Мацкевич Дмитрий , www.DCNT.ru, 2012
Пример ошибок в схеме
электроснабжения по Tier II Uptime
3-х дневный курс обучения «Архитектура и инфраструктура ЦОД»
Запись на семинар
http://dcnt.ru/?p=5210
30
Дмитрий Мацкевич
консультант и эксперт в области ЦОД
СПАСИБО