Oracle Data Integration в архитектуре Big Data
Sergey Prokhorov
ORACLE principal sales consultant
Agenda
• Архитектурные задачи
• Коннекторы Oracle Big Data
• Решения Oracle’s Data Integration
• Ссылки, вопросы и ответы
Architecture Principles
and Best Practices Архитектурные задачи
Составляющие информационного пространства
Video-Audio
Машинные данные
Социальные
данные
Документы
Информационная архитектура
сегодня:
Управление на основе
транзакционных данных
Информационная архитектура
завтра:
Управление на основе всех данных
Транзакционные системы
Единая интеграционная архитектура
для всех источников данных
Структурированные данные
Приложения
Традиционная информационная архитектура
ETL/ELT
Transaction
Data Ma
nag
em
en
t
Se
cu
rity
, G
ove
rna
nce
Advanced
Analytics
Visual
Discovery
DBMS
(OLTP)
Reference &
Master Data
Стр
уктур
ир
ов
ан
ны
е
да
нн
ые
Data
Warehouse EPM / BI Apps
Reporting &
Dashboards
CDC
Real-Time
DB Rep
Data
Marts ODS
Ключевые архитектурные аспекты • Тип данных: Структурированные, малой вариативности, отработанная технология загрузки
• Объемы: Расширение архитектуры для поддержки больших объемов данных
• Скорость обработки: Real-time или близкая к real-time
• Использование: Широко используется всеми структурами компании
Информационная архитектура Big Data
Distributed
File System
Machine
Generated
Social
Media
Text, Image
Video, Audio
Key-Value
Data Store
Нес
тр
уктур
ир
ов
ан
ны
е
да
нн
ые
Structured Data
Correlation
Visualization
& Discovery
Sandboxes Statistical
Analytics
Visualization
& Discovery
Data
Marts DW
MapReduce
Solutions
Ключевые архитектурные аспекты • Тип данных: Слабо структурированные или не структурированные
• Объемы: Потенциально очень большие объемы данных. Постоянный рост данных.
• Скорость обработки: Важна для обработки больших объемов данных, не для анализа.
• Использование: Еще используется незначительно, в основном инновации.
Разрозненная архитектура ETL/ELT
Biz Txn
Data Ma
nag
em
en
t
Se
cu
rity
, G
ove
rna
nce
Advanced
Analytics
Visual
Discovery
Master &
Ref Data
Distributed
File System
EPM / BI App
Reporting &
Dashboards
MapReduce
Solutions
CDC
Real-Time
DB Rep
Data
Marts ODS
Machine
Generated
Social
Media
Text, Image
Video, Audio
Key-Value
Data Store
Нестр
уктур
ир
ов
ан
ны
е
да
нн
ые
Custom Code?
Sandboxes
DBMS
(OLTP) Data
Warehouse
Стр
уктур
ир
ов
ан
ны
е
дан
ны
е
Oracle : Общая интеграционная архитектура
Transaction
Data
Advanced
Analytics
Visual
Discovery
DBMS
(OLTP)
Master &
Ref Data
Data
Warehouse
Text Analytics
and Search
Reporting &
Dashboards
Real-Time
Machine
Generated
Social
Media
Text, Image
Video, Audio Key-Value
Data Store
Hadoop
Cluster w
MapReduce
Alerting
In-Database
Analytics
EPM
BI Applications
Message-
Based
DB Replic
ETL/ELT
ChangeDC
ODS
Data Marts
Streaming
(CEP Engine)
Источники данных Подготовка данных Анализ Н
естр
уктур
ир
ов
ан
ны
е
да
нн
ые
Стр
уктур
ир
ов
ан
ны
е
да
нн
ые
Решения Oracle Data Integration
Oracle Data Integrator (ODI) Big Data Интеграция и управление
Any Data Warehouse
Any Planning System • Оптимизированная E-LT архитектура
• Декларативный дизайн
• Модули знания, возможность расширения набора модулей знаний
Relational and Non-Relational
Application Sources
Legacy Sources
Oracle Data Integrator
CEP, Data Services
Оптимизированная загрузка данных благодаря E-LT
• Используются SET-based трансформации
• Быстрее загрузка данных, меньше передач по сети
• Преимущества от использования существующих аппаратных платформ
Традиционная архитектура ETL
Extract Load
Transform
Архитектура Следующего Поколения
“E-LT”
Load Extract
Transform Transform
Рост производительности, снижение затрат
Тест производительности ELT на Exadata Загрузка и сложные преобразования реальных данных
со скоростью до 7ТБ в час
Oracle GoldenGate Гетерогенная Real-time интеграция (возможна работа под управлением ODI)
Миграция с нулевым временем простоя
CEP Integration, Real-time Events
Enterprise синхронизация данных
Real-time BI/Data Warehousing, MDM
Высокая доступность и отказоустойчивасть
Relational and Non-Relational
Application Sources
Legacy Sources
• Log-based CDC
• Двунаправленная репликация
• Гарантированная доставка,
транзакционная целостность
Oracle GoldenGate
Как работает Oracle GoldenGate
Двунаправленная
Capture
Захват
Trail
Данные
Pump
Доставка
Delivery
Применение
Source
Oracle & Non-Oracle
Database(s)
Target
Oracle & Non-Oracle
Database(s)
Высока производительность, транзакционность,
гарантированная доставка.
LAN/WAN
Internet
TCP/IP
Trail
Маршрутизация Данные
Oracle Enterprise Data Quality Data Quality для всех данных (интегрировано с ODI)
Relational and Non-Relational
Application Sources
Legacy Sources
• Реализует оптимизированный подход для customer and product data
• Бизнес ориентированный пользовательский интерфейс
• Повышает стоимость информации, снижает риски ошибочных данных
Описка, стандартизация, слияние данных
Data Preparation, Case Management
Управление, профилирование, аудит Oracle Enterprise Data Quality
Коннекторы Oracle Big Data
Коннекторы Oracle Big Data
Сбор данных
Oracle NoSQL
Database
HDFS
Oracle
Database
Организация данных
Hadoop (MapReduce)
Oracle Big Data Connectors
Oracle Data Integrator
Принятие решений
Analytic
Applications
Анализ данных
In-D
ata
base
An
aly
tics
Data
Warehouse
Oracle Data Integrator (ODI) для Big Data Гетерогенная интеграция для сред Hadoop
Трансформация
через MapReduce
Loads
Oracle Data
Integrator
• Поддерживает стандарты Hadoop
• Генерация кода MapReduce на
основе процессов созданых с
помощью UI
ODI для Big Data и Oracle Оптимизированная интеграция дял Oracle Exadata
Oracle Database,
Oracle Exadata
Трансформация
через MapReduce
Загрузка
Управление
Oracle Loader
for Hadoop
Oracle Data
Integrator
Коннекторы Oracle Big Data
Hadoop Cluster
ODI для Oracle Big Data Appliance Корпоративная аналитика всего информационного пространства
Загрузка
Управление
Oracle Loader
for Hadoop
Oracle Data
Integrator
Oracle Database,
Oracle Exadata Oracle Big Data Appliance
Коннекторы Oracle Big Data
Трансформация
через MapReduce
Oracle Big Data Appliance
Hardware
• 18 Sun X4270 M2 Servers
– 48 GB memory на узел = 864 GB memory
– 12 Intel cores на узел = 216 cores
– 36 TB дискового пространства на узел = 648 TB
• 40 Гб/сек InfiniBand
• 10 Гб/сек Ethernet
Software
• CDH (Hadoop)
• Oracle NoSQL Database
• Oracle Adapters
Oracle Data Integrator для Big Data
Упрощение создания Hadoop MapReduce кода для наилучшей продуктивности.
Интеграция в гетерогенных средах с использованием стандартов: Hadoop, MapReduce, Hive, NoSQL, HDFS
Унификация интеграционных подходов для структурированных и неструктурированных данных.
Оптимизированная загрузка больших данных в Oracle Exadata используя Oracle Big Data Connectors
Позволяет работать с данными на сторонеOracle Big Data Appliance и с использованием Big Data Connectors
Объединяет возможности:
23
Copyright © 2011, Oracle and/or its affiliates. All rights reserved. Confidential : Oracle Restricted
HDFS export для Oracle Database
Oracle Loader для Hadoop
HDFS
Oracle11g
• Загрузка в single partitioned
или non-partitioned таблицы – Поддерживает scalar data-types
для Oracle Database
• Выполняется как Hadoop
Map-Reduce процесс
• Online и Offline модели
загрузки
• Высокая производительность Parallel JDBC
Direct Load Offline / Data Pump
24
Copyright © 2011, Oracle and/or its affiliates. All rights reserved. Confidential : Oracle Restricted
SQL доступ к HDFS данным из Oracle
Oracle SQL HDFS Connector
Oracle11g
HDFS
HDFS Files
External Table
• Позволяет обращаться к
файлам HDFS как к внешним
таблицам Oracle Database
25
Copyright © 2011, Oracle and/or its affiliates. All rights reserved. Confidential : Oracle Restricted
Oracle R Connector для Hadoop
• Возможность запуска
скриптов языка R на
очень больших объемах
данных
• Обеспечивает R API к
данным Hadoop
Oracle R
Enterprise
Oracle R
Connector
Мост в мир БОЛЬШИХ ДАННЫХ
• Большие данные уже существуют. Задача
использовать эти данные.
• Интеграционные продукты Oracle уже
существуют для Big Data. Они позволяют
построить мост между старыми и новыми
архитектурными подходами.
• Oracle предлагает единое интеграционное
решение с открытой архитектурой для работы с
большими данными.
Присоединяйтесь к Data Integration Community
Узнайте больше…
Oracle.com/goto/DataIntegration
Twitter twitter.com/OracleDI
Facebook facebook.com/OracleDataIntegration
LinkedIn Oracle Data Integration
Oracle’s Data Integration blog blogs.oracle.com/dataintegration
Oracle.com/bigdata