hp vertica
DESCRIPTION
Краткий рассказ про HP Vertica - СУБД нового поколения, предназначенную для хранения и быстрого доступа к большим объёмам данных.TRANSCRIPT
www.i-teco.ru
Обзор платформы HP Vertica
2 www.i-teco.ruОбзор платформы HP Vertica
Представьте, что на этом слайде приведена громкая цитата, сопровождающаяся шокирующими данными о лавинообразном росте информации в мире, необходимости ее структуризации и анализа посредством решений уровня Big Data
3 www.i-teco.ruОбзор платформы HP Vertica
HP Vertica - это специализированная база данных, предназначенная для анализа большого объема информации в режиме реального времени
Архитектурные особенности HP Vertica позволяют обрабатывать и предоставлять информацию намного быстрее и эффективнее, чем традиционные СУБД
• Повышение производительности в 10-100 раз
• Высокая масштабируемость от TB к PB
• Простая интеграция с существующими решениями ETL и BI
• Максимальная производительность на доступной аппаратной платформе
• Высокая гибкость развертывания
• Простая лицензионная модель
4 www.i-teco.ruОбзор платформы HP Vertica
Особенности, позволяющие добиться таких результатов:
• Технология колоночного хранения
• Высокоэффективное сжатие
• Массово-параллельная архитектура (MPP)
• Встроенная поддержка высокой доступности (HA)
• Стандартный SQL интерфейс, коннекторы ODBC, JDBC или ADO.NET
• Автоматизированный Дизайнер БД
• Идеология «нулевого» администрирования
5 www.i-teco.ruОбзор платформы HP Vertica
Технология колоночного хранения
В таблицах традиционных (рядных) СУБД все данные хранятся построчно, тогда как в таблицах колоночной СУБД таблицы являются совокупностью колонок, каждая из которых по сути представляет собой таблицу из одного поля
Такой подход позволяет минимизировать затраты сервера доступа к данным на носителях и ускорить выполнение аналитических запросов за счет чтения значений только тех полей, которые участвуют в запросе
SELECT avg(price) FROM tickstore WHERE symbol = ‘AAPL’ AND date = ‘5/06/09’;
6 www.i-teco.ruОбзор платформы HP Vertica
Высокоэффективное сжатие
Вся информация в HP Vertica хранится в сжатом виде, при этом значительно увеличивается скорость чтения данных с носителей
HP Vertica использует различные алгоритмы сжатия в зависимости от характера данных : Run-Length Encoding (RLE), словарный метод, дифференцированный (для непрерывных типов данных)
За счет использования технологии колоночного хранения достигается максимальная эффективность сжатия данных одного типа
Принцип RLE
В таблице со 100 млн записей, сделанных в течение 1 года, в колонке "Дата" будет храниться не более 366 возможных значений. Таким образом, для хранения на диске 100 млн. отсортированных значений заменяются на 366 пар значений вида <дата, кол-во раз>. При этом они занимают почти в 100 тыс. раз меньше места, что также способствует повышению скорости выполнения запросов.
7 www.i-teco.ruОбзор платформы HP Vertica
Массово-параллельная архитектура (MPP)
Архитектура MPP предполагает возможность горизонтального масштабирования кластера серверов с разделенной памятью для легкого наращивания мощностей при значительном увеличении потоков загружаемых данных и количества ad-hoc запросов, в том числе в рамках параллельных сессий
Узлы кластера HP Vertica представляют собой по сути пиринговую сеть, так как не содержат разделяемых ресурсов и связанных с ними блокировок
Преимущества MPP
• Отсутствуют специализированные (критические) узлы• Для загрузки данных и выполнения запросов может
использоваться любой узел• Линейная масштабируемость• Чем больше узлов, тем больше места для данных и выше общая
производительность• Автоматическая репликация и восстановление после сбоев
8 www.i-teco.ruОбзор платформы HP Vertica
Встроенная поддержка высокой доступности (HA)
• При выходе узла кластера из строя продолжается загрузка данных и выполнение запросов
• Необходимость ведения журналов и восстановления данных на их основе отсутствует
• Для обеспечения отказоустойчивости данные зеркалируются между узлами кластера
• Пропавшие данные восстанавливаются с оставшихся узлов кластера
Кластер HP Vertica из 3 узлов
Благодаря специальному механизму K-Safety устройство кластера HP Vertica функционально подобно устройству RAID массивов
9 www.i-teco.ru
Analytics, Reporting
Обзор платформы HP Vertica
Стандартный SQL интерфейс
HP Vertica поддерживает стандарт ANSI SQL-99 и его аналитические расширения с целью минимизации затрат при интеграции с существующими инструментами BI и ETL
HP Vertica обладает всеми стандартными драйверами доступа к данным - ODBC, JDBC, ADO.NET, Python
Также HP Vertica оснащен набором штатных средств пакетной загрузки данных, которые можно расширять собственными парсерами, фильтрами и валидаторами
Массовая и поточная загрузка
ETL, Replication, Data Quality
SQLODBC, JDBC, .NET
10 www.i-teco.ruОбзор платформы HP Vertica
Автоматический дизайнер БД
HP Vertica поставляется с заранее сконфигурированными настройками и ПО Database Designer, предназначенным для автоматизации адаптации системы под требования заказчика
HP Vertica Database Designer позволяет значительно минимизировать усилия администраторов, связанные с физическим дизайном и оптимизацией баз данных
HP Vertica Database Designer:
• анализирует существующие логические схемы, статистическую информацию о загруженных данных и используемые запросы (опционально)
• создает макет дизайна физической схемы (проекции) в форме сценариев SQL, которая может быть выполнена как автоматически, так и вручную
• не требует специализированных знаний в области проектирования баз данных
• может запускаться в любое время для дополнительной оптимизации без остановки баз данных
11 www.i-teco.ruОбзор платформы HP Vertica
Идеология «нулевого» администрирования
Близость к идеологии "нулевого" администрирования достигается за счет архитектуры MPP, наличия механизмов автоматической оптимизации, секционирования таблиц, определения сортировки хранения записей в таблицах, созданием к таблицам дополнительных оптимизированных моделей (проекций), а также распределением нагрузок через пулы ресурсов
Вместо выделенной штатной единицы постоянного администратора возможно удаленное администрирование сервера или администрирование архитектором, разработчиком ETL или BI
Администрирование HP Vertica сводится к следующему:
• Управление ролями и пользователями• Управление нагрузками на кластер - распределение ресурсов серверов HP Vertica по пулам ресурсов• Управление серверами кластера - добавление новых серверов в кластер, их замена или удаление• Восстановление работы кластера при помощи автоматизированной утилиты, позволяющей запустить или
заменить сбойный сервер• Обновление версии сервера путем размещения дистрибутива на один из серверов HP Vertica, временной
остановки сервера HP Vertica, запуска инсталляции обновления и обратного старта сервера HP Vertica• Оптимизация запросов при помощи HP Vertica Database Designer
12 www.i-teco.ruОбзор платформы HP Vertica
Программно-аппаратное обеспечение HP Vertica
• Процессоры – x86-64 (Intel/AMD)• Хранилище – SAS, SATA, SAN, SSD• Сеть – Gigabit Ethernet• ОС – Linux
RHELSUSE DebianCentOS
• При увеличении аппаратной платформы дополнительные затраты на приобретение лицензий HP Vertica не требуются
Quarter-Rack1 BladeSystem c7000
10TB Vertica license8 BL460c G7 server blades
96 cores576GB RAM
1 MDS60018.75TB usable capacity
Full-Rack2 BladeSystem c7000
50TB Vertica license32 BL460c G7 server
blades384 cores
2304GB RAM4 MDS600
75TB usable capacity
Half-Rack1 BladeSystem c700020TB Vertica license16 BL460c G7 server blades192 cores1152GB RAM2 MDS60037.5TB usable capacity
13 www.i-teco.ruОбзор платформы HP Vertica
Лицензирование HP Vertica
Модель лицензирования HP Vertica определяется объемом исходных данных, при этом никаких ограничений на использование технических средств не существует
Такая модель позволяет увеличить производительность кластера, просто докупив и подключив к нему новые сервера, не тратясь на дополнительные лицензии
Приобретение дополнительных лицензий потребуется только при условии, что объем исходных данных достиг планируемого при покупке лицензий объема и нет возможности удалить устаревшие архивные данные с целью высвобождения места
Существует также бесплатная полноценная версия HP Vertica Community Edition, позволяющая развернуть кластер из 3 серверов и загрузить в такое хранилище до 1 ТБ «сырых» данных
14 www.i-teco.ruОбзор платформы HP Vertica
Экосистема HP Vertica
15 www.i-teco.ruОбзор платформы HP Vertica
Заказчики HP Vertica (более 360)
16 www.i-teco.ruОбзор платформы HP Vertica
Потенциальные заказчики
• Любые организации, оперирующие большими объемами данных при формирования аналитической отчетности и испытывающие проблемы с производительностью в настоящем, или ожидающие возникновения подобных проблем в будущем (хранилище данных - узкое место). В данном случае Vertica позиционируется как замена уже развернутого в организации хранилища c миграцией на Vertica имеющихся в нем данных с сохранением их логической структуры.
• Любые организации, планирующие внедрение хранилища данных в рамках разработки решения BI с нуля.
17 www.i-teco.ruОбзор платформы HP Vertica
Использованные материалы
Презентационные, публицистические и технические материалы портала HP Vertica – http://www.vertica.com
Публицистические материалы архитектора DWH Алексея Константинова - http://ascrus.blogspot.ru/
Публицистические материалы порталов
А также иные источники информации
http://habrahabr.ru http://sql.ru http://citforum.ru
www.i-teco.ru
Спасибоза внимание
Отделение Ай-Теко Бизнес КонсалтингКомпания «Ай-Теко»Тел. +7 (495) 777-1095E-mail: [email protected]