Совместимы ли понятия sds и производительность?
TRANSCRIPT
Совместимы ли понятия SDS и производительность?
Чусавитин МихаилИнженер отдела ЦОД, ЛАНИТ-Интеграция
План
• Вкратце о SDS• Классификация• Производительность,
эффективность• Варианты использования• Стоимость
Программно-определяемые СХД это:
• Гибкость:– Поддержка любых типичных платформ (comodity hardware)– Нет необходимости замены инфраструктуры (forklift upgrade)– Рост по требованию (Pay-as-you-grow)– Переназначение ресурсов «на лету»
• Сокращение затрат при использовании существующего оборудования:– Можно развернуть на существующей инфраструктуре – Не займет дополнительного места в стойке– «Вторая жизнь» старым серверам и СХД
• Интеграция с облачными решениями
Классификация
1. Классические SDS (CEPH, Gluster, ScaleIO):– Устанавливаются на «все подряд»
– Scale-out архитектура, самоорганизация
– Практически любой уровень защиты данных
2. Основанные на коде традиционных СХД (DataONTAP Edge, HP VSA, IBM XIV) : – Обычно представлены в виде VM
– Интеграция с аппаратными решениями
3. Часть вычислительных комплексов (vSAN, Nutanix, PVE): – Поставляются как модуль к гипервизору
4. Системы обработки и хранения больших данных (HDFS, RiakCS)– Поддержка MapReduce
– Последовательное чтение больших файлов
5. Программно-аппаратные решения (IBM SVC, HDS HCP):– Предлагаются как готовые решения (appliance) без возможности установки
на стороннее оборудование
Производительность
БУДУЩЕЕ: SCALE OUT
ПРОШЛОЕ: SCALE UP
Преимущества архитектуры
• Полная децентрализация:– Узлы сами общаются, следят друг за другом и реплицируют данные– Клиент сам вычисляет нужный узел– Распределение данных по всем узлам кластера– Восстановление и балансировка при изменении конфигурации:
«многие ко многим»
• Flash-кэш на чтение и на запись:– SSD на каждом узле– Отдельные full-flash узлы
• Настраиваемая политика резервирования:– Репликация объектов (быстрое восстановление, меньшая емкость) – Erasure Coding (медленное восстановление, большая емкость)
Недостатки архитектуры
• Накладные расходы на сеть, емкость и производительность дисков
• На каждом узле все записи предварительно заносятся в журнал, только потом переносятся на диск
• Каждый диск обслуживает сразу несколько параллельных потоков (высокий seek time)
• Вся система работает поверх ЛВС:– Необходимость в отдельной backend-сети– Отсутствие стабильной поддержки Infiniband RDMA
• Собственные клиенты и протоколы:– Полное отсутствие поддержки Microsoft Windows, VMware– Нет нативной поддержки Fibre Channel, сырая поддержка iSCSI
Тестовая конфигурация
VS
СХД SDS
Производительность
Шаблон нагрузки
Теоретический максимум CEPH Типичная СХД
Слч.чтение (IOPS) 3 600 2 858 79 % 3 600 99 %
Слч.запись(IOPS) 4 000 3 000 75 % 2 366 59 %
Чтение (МБ/с) 6 400 3 648 57 % 4 399 69 %
Запись (МБ/с) 3 200 1 197 37 % 924 29 %
Сравнение результатов с теоретическим максимумом дисков
Чтение Запись0
5001000150020002500300035004000
Случайные операции (IOPS)
CEPH СХД Диски
Чтение Запись0
1000
2000
3000
4000
5000
6000
Последовательные операции (МБ/с)
CEPH СХД Диски
Принципиальные различия в процессе записи и чтения у SDS
Запись Чтение
Варианты эффективного использования
• Хранение больших массивов информации• Среды разработки и тестирования• Виртуальная инфраструктура ЦОД• Облачные вычисления и хостинг• Консолидация СХД
Где уже используется?
• 3 ПБ - ЦЕРН (CERN) / 52 узла / 1128 дисков / • 2 ПБ - Flickr (Yahoo) • 0,3 ПБ - Deutsche Telekom / 8 узлов / 80
дисков • Netherlands Government Cloud – 0,13 ПБ - Q1 2015 / 24 узла / 192 SSD – 5 ПБ - Q2 2015 / 189 узлов / 1890 диска
• mail.ru, 2GIS и др.
Сравнительная стоимость решений SDS и СХД
100200
300400
500600
700800
9001000
0.1$ 0.3$ 0.5$ 0.7$ 0.9$ 1.1$ 1.3$ 1.5$ 1.7$ 1.9$ 2.1$
СХД среднего уровняСервер среднего уровняСервер высокой плотностиДешевый сервер
Емкость системы (ТБ)
Стои
мос
ть 1
ГБ
Есть вопросы?
Чусавитин Михаилинженер Отдела ЦОД, ЛАНИТ-Интеграция
[email protected]+7 495 967 6650, 16116