bigintegrate - разрушение мифов по поводу etl на hadoop

Post on 13-Apr-2017

518 Views

Category:

Data & Analytics

7 Downloads

Preview:

Click to see full reader

TRANSCRIPT

BigIntegrate - разрушение мифов по поводу ETL на Hadoop.

Андрей Орлов, эксперт по решениям IBM Big DataAndrey.Orlov@ru.ibm.com

Twitter: @lokaro LinkedIn: in/lokaro

Пару слов обо мне…

School of Business InformaticsSoftware engineering

IBM Certified Solution Advisor Big Data & Analytics

Agenda

• Что такое Information Server?• Что такое Hadoop?• Что такое ETL / ELT на Hadoop?• Что такое Information Server на Hadoop?• Что такое BigIntegrate / BigQuality?

IBM Information Server 11.5

IBM Information ServerЛидирующая на рынке платформа интеграции данных Линейная масштабируемость при

резком увеличении объемов данных Операционная интеграция 24x7 Полная интеграция на уровне

метаданных и понимание происхождения данных

Сопоставление Бизнес и IT целей Оптимизированное подключение к

различным источникам данных

InfoSphereInformation

Server

Information Governance

Catalog

Data Integration

Data Quality

Information Governance CatalogПонимание и совместная работа

Понимание• Полный каталог метаданных• Бизнес-контекст для информационных активов• Уверенность бизнеса в информационных активах

Управление• Совместное управление бизнес-словарем• Создание стюардов, распределение обязанностей• Понимание происхождения данных• Соединение бизнес-терминов и правил управления

с информационными активами• Расширение источников данных и ассетов при помощи REST-

API для создания, импорта и управления расширениями• Поддержка русского языка для контента

Улучшенные возможности расширения

XSD / XML поддержка

Information Server for Data IntegrationВыгрузка, трансформация и доставка любых данных

Подключения• Масштабирование трансформаций на узлах кластера hadoop• Улучшенный File Connector• SQL Srv 2014, Sybase ASE/IQ 16, Teradata 15.10

Дизайн и трансформация• Трансформация и агрегация любого объема данных• Сотни встроенных функций преобразования• Использование системы управления метаданными для

повышения производительности и совместной работы• Встроенная защита конфиденциальных данных налету при

помощи лучшего в своем классе Optim Masking

Управление и мониторинг• Простые веб-дашборды для управление среды исполнения

Information Server for Data QualityАнализ, очистка и мониторинг ваших данныхАнализ• Обнаружение данных на основе определенных бизнес

классов данных• Анализ структуры данных и контента• Автоматический процесс анализа данных

Очистка• Исследование, стандартизация, соответствие и выживание

данных внутри процесса интеграции данныхМониторинг

• Оценка и мониторинг качества данных в любой системе• Соотношение индикаторов качества данных и бизнес-политик• Подключение дата-стюардов, когда качество данных

опускается ниже определенного уровня

Hadoop. IBM BigInsights

Hadoop изнутриИнфраструктура для параллельной обработки больших

объемов данных

Hadoop изнутриИнфраструктура для параллельной обработки больших

объемов данных

Распределённая файловая система

Hadoop изнутриИнфраструктура для параллельной обработки больших

объемов данных

Распределённая файловая система

Распределённые вычисления

Hadoop изнутриИнфраструктура для параллельной обработки больших

объемов данных

Распределённая файловая система

Распределённые вычисления

А также:

Модернизация хранилищ данных

Интеграция больших данных и традиционных хранилищ для повышения эффективности

Использование разнообразных данных

Расширение инфраструктуры хранилища

• Оптимизация хранения и лицензирования за счет переноса редко используемых данных в Hadoop

• Сокращение хранения за счет обработки потоковых данных

• Повышение производительности

• Структурированные, неструктурированные, потоковые данные для анализа

• Минимальные задержки по анализу (часы, а не недели или месяцы)

• Запросы к любым данным

Существующие ETL/ELT решения в Hadoop• Механизмы Hadoop

– MapReduce– Spark

• Tools– Flume– Sqoop

• SQL-like– Hive– BigSQL– Impala– HAWQ– Presto– …

BigIntegrate & BigQuality

BigIntegrate & BigQuality

• Масштабируемый движок по интеграции и качеству данных теперь полноценно работает прямо на кластере Hadoop

• Трансформация, обогащение и очистка данных, которые лежат в Hadoop

• Вся мощность Hadoop кластера для решения задач интеграции без написания строк кода

• Поддерживаемые дистрибутивы: BigInsights 4.0+, HortonWorks 2.2+, Cloudera 5.3+

Быстрая загрузка и обработка прямо внутри Hadoop

Полное доверие к вашим данным

Высочайший уровень продуктивности

В 15x быстреечем большинство других решений

Встроенные возможности управления, очистки, безопасности и

происхождения данных

87% экономиипри помощи более сотни функций

преобразования

Hadoop Platform

HDFS

BigIntegrate &BigQuality

Engine

YARN

(Резервирование,надежное хранение)

(Менеджер ресурсовкластера Hadoop)

Tez (Движок исполнения)

MapReduce(batch)

Hive(SQL) …

VS

Hadoop Platform

BigIntegrate & BigQualityEngine

MapReduce(batch)

Hive(SQL) …

VS

Интеграция, качество и инструмент управления

Только Hadoop интеграция

Traditional ETL

Выполнение на любой платформе

Единый дизайн заданий

within DB within Hadoop 2.0

HDFS

BigIntegrationBigQuality

YARN

Уникальный подход IBM

• Высокая производительность благодаря исполнению заданий Information Server напрямую через Yarn

• Запуск спроектированного задания на базе данных (ELT), традиционным образом (ETL) или же на Hadoop

Спасибо за внимание!Андрей Орлов, эксперт по решениям IBM Big Data

Andrey.Orlov@ru.ibm.comTwitter: @lokaro LinkedIn: in/lokaro

top related