bigintegrate - разрушение мифов по поводу etl на hadoop

23
BigIntegrate - разрушение мифов по поводу ETL на Hadoop. Андрей Орлов, эксперт по решениям IBM Big Data [email protected] Twitter: @lokaro LinkedIn: in/lokaro

Upload: andrey-orlov

Post on 13-Apr-2017

518 views

Category:

Data & Analytics


7 download

TRANSCRIPT

Page 1: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

BigIntegrate - разрушение мифов по поводу ETL на Hadoop.

Андрей Орлов, эксперт по решениям IBM Big [email protected]

Twitter: @lokaro LinkedIn: in/lokaro

Page 2: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Пару слов обо мне…

School of Business InformaticsSoftware engineering

IBM Certified Solution Advisor Big Data & Analytics

Page 3: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Agenda

• Что такое Information Server?• Что такое Hadoop?• Что такое ETL / ELT на Hadoop?• Что такое Information Server на Hadoop?• Что такое BigIntegrate / BigQuality?

Page 4: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

IBM Information Server 11.5

Page 5: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

IBM Information ServerЛидирующая на рынке платформа интеграции данных Линейная масштабируемость при

резком увеличении объемов данных Операционная интеграция 24x7 Полная интеграция на уровне

метаданных и понимание происхождения данных

Сопоставление Бизнес и IT целей Оптимизированное подключение к

различным источникам данных

InfoSphereInformation

Server

Information Governance

Catalog

Data Integration

Data Quality

Page 6: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Information Governance CatalogПонимание и совместная работа

Понимание• Полный каталог метаданных• Бизнес-контекст для информационных активов• Уверенность бизнеса в информационных активах

Управление• Совместное управление бизнес-словарем• Создание стюардов, распределение обязанностей• Понимание происхождения данных• Соединение бизнес-терминов и правил управления

с информационными активами• Расширение источников данных и ассетов при помощи REST-

API для создания, импорта и управления расширениями• Поддержка русского языка для контента

Улучшенные возможности расширения

XSD / XML поддержка

Page 7: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Information Server for Data IntegrationВыгрузка, трансформация и доставка любых данных

Подключения• Масштабирование трансформаций на узлах кластера hadoop• Улучшенный File Connector• SQL Srv 2014, Sybase ASE/IQ 16, Teradata 15.10

Дизайн и трансформация• Трансформация и агрегация любого объема данных• Сотни встроенных функций преобразования• Использование системы управления метаданными для

повышения производительности и совместной работы• Встроенная защита конфиденциальных данных налету при

помощи лучшего в своем классе Optim Masking

Управление и мониторинг• Простые веб-дашборды для управление среды исполнения

Page 8: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Information Server for Data QualityАнализ, очистка и мониторинг ваших данныхАнализ• Обнаружение данных на основе определенных бизнес

классов данных• Анализ структуры данных и контента• Автоматический процесс анализа данных

Очистка• Исследование, стандартизация, соответствие и выживание

данных внутри процесса интеграции данныхМониторинг

• Оценка и мониторинг качества данных в любой системе• Соотношение индикаторов качества данных и бизнес-политик• Подключение дата-стюардов, когда качество данных

опускается ниже определенного уровня

Page 9: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Hadoop. IBM BigInsights

Page 10: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Hadoop изнутриИнфраструктура для параллельной обработки больших

объемов данных

Page 11: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Hadoop изнутриИнфраструктура для параллельной обработки больших

объемов данных

Распределённая файловая система

Page 12: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Hadoop изнутриИнфраструктура для параллельной обработки больших

объемов данных

Распределённая файловая система

Распределённые вычисления

Page 13: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Hadoop изнутриИнфраструктура для параллельной обработки больших

объемов данных

Распределённая файловая система

Распределённые вычисления

А также:

Page 14: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Модернизация хранилищ данных

Интеграция больших данных и традиционных хранилищ для повышения эффективности

Использование разнообразных данных

Расширение инфраструктуры хранилища

• Оптимизация хранения и лицензирования за счет переноса редко используемых данных в Hadoop

• Сокращение хранения за счет обработки потоковых данных

• Повышение производительности

• Структурированные, неструктурированные, потоковые данные для анализа

• Минимальные задержки по анализу (часы, а не недели или месяцы)

• Запросы к любым данным

Page 15: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Существующие ETL/ELT решения в Hadoop• Механизмы Hadoop

– MapReduce– Spark

• Tools– Flume– Sqoop

• SQL-like– Hive– BigSQL– Impala– HAWQ– Presto– …

Page 16: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

BigIntegrate & BigQuality

Page 17: BigIntegrate - разрушение мифов по поводу ETL на Hadoop
Page 18: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

BigIntegrate & BigQuality

• Масштабируемый движок по интеграции и качеству данных теперь полноценно работает прямо на кластере Hadoop

• Трансформация, обогащение и очистка данных, которые лежат в Hadoop

• Вся мощность Hadoop кластера для решения задач интеграции без написания строк кода

• Поддерживаемые дистрибутивы: BigInsights 4.0+, HortonWorks 2.2+, Cloudera 5.3+

Page 19: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Быстрая загрузка и обработка прямо внутри Hadoop

Полное доверие к вашим данным

Высочайший уровень продуктивности

В 15x быстреечем большинство других решений

Встроенные возможности управления, очистки, безопасности и

происхождения данных

87% экономиипри помощи более сотни функций

преобразования

Page 20: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Hadoop Platform

HDFS

BigIntegrate &BigQuality

Engine

YARN

(Резервирование,надежное хранение)

(Менеджер ресурсовкластера Hadoop)

Tez (Движок исполнения)

MapReduce(batch)

Hive(SQL) …

VS

Page 21: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Hadoop Platform

BigIntegrate & BigQualityEngine

MapReduce(batch)

Hive(SQL) …

VS

Интеграция, качество и инструмент управления

Только Hadoop интеграция

Page 22: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Traditional ETL

Выполнение на любой платформе

Единый дизайн заданий

within DB within Hadoop 2.0

HDFS

BigIntegrationBigQuality

YARN

Уникальный подход IBM

• Высокая производительность благодаря исполнению заданий Information Server напрямую через Yarn

• Запуск спроектированного задания на базе данных (ELT), традиционным образом (ETL) или же на Hadoop

Page 23: BigIntegrate - разрушение мифов по поводу ETL на Hadoop

Спасибо за внимание!Андрей Орлов, эксперт по решениям IBM Big Data

[email protected]: @lokaro LinkedIn: in/lokaro