Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Принципы построения
современных Big Data архитектур
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
БАЗОВАЯ АРХИТЕКТУРА
EDW(Enterprise Data Warehouse, корпоративное хранилище)
ETL
Аналитика
Управление
преобразованием
данных
Аналитический сервер
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Node 1 Node 2 Node 3
РАЗВИТИЕ АРХИТЕКТУРЫ
EDW(Enterprise Data Warehouse)
ETLРегламентное
применение
моделей
Аналитика
Управление
преобразованием
данных
Аналитический сервер
Балансировка
нагрузки на
кластере
Публикация
моделей
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Node 1 Node 2 Node 3
РАЗВИТИЕ АРХИТЕКТУРЫ
EDW(Enterprise Data Warehouse)
ETLРегламентное
применение
моделей
Аналитический сервер
SAS Enterprise Miner,
...
SAS Grid Manager
SAS Scoring
Accelerator
SAS Data Management
ПО SAS
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
In-m
em
oryУглубленная Аналитика
Massive Parallel Processing или Hadoop
In-memory аналитика
In-m
em
ory
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
HP Optimization
• Распределение
ресурсов
• Расписания
• Объекты на карте
HP Forecasting
• Прогнозирование временных
рядов
• Сценарный анализ
• Планирование
HP Econometrics
• Анализ закономерностей для
временных рядов
• Задачи классификации и
регрессии на временных рядах
SAS in-memory
аналитикаУСКОРИТЕЛИ РАБОТЫ АНАЛИТИКИ
HP Data Mining
• Сегментация объектов
• Задачи классификации
• Вероятность наступления событий
HP Statistics
• Линейные, нелинейные,
смешанные, обобщенные
модели
HP Text Mining
• Неструктурированные
предикторы в моделях
• Кластеризация документовHP SNA
• Взаимосвязи
• Потоки
• Лидеры
Copyr i g ht © 2013, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS HIGH
PERFORMANCE
DATA MINING
ПРОВЕРКА В КРУПНОМ ОПЕРАТОРЕ СВЯЗИ
• Увеличение точности модели оттока:
14.6%
• Увеличение точности моделей
увеличения продаж: в несколько раз
• Все кампании (решения) могут
проводиться на основе моделей, а не
30%
• Оценка эффекта: 207 млн. руб./ год
• Оценка эффекта: 153 млн. руб./ год
• Потенциал: 1.6 млрд. руб./ год
Аналитика работает в среднем в 100 раз быстрее:
новые алгоритмы, быстрее разработка моделей
Copyr i g ht © 2013, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Ускоритель
работы
аналитики
Пример использования
в крупном
американском банке
До SAS HP DM SAS HP DM
Среднее время
построения нейронной
сети
5 часов 3 минуты
Используемые
алгоритмы
1 вид (NN) > 3 видов(Random Forest, SVM,
логистическая
регрессия)
Итерации при
построении нейронных
сетей
7 5000 (70 мин.)
Model lift 1.6 2.5
Время построения
модели одним
аналитиком
1 день 30 минут
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ИНТЕРАКТИВНАЯ ВИЗУАЛИЗАЦИЯ:
SAS VISUAL ANALYTICS
• Показатели в любых разрезах
• Графики, авто-определение формата
• Показатели на карте
• Инструментальные панели, на мобильных устройствах
Возможности визуализации
• Ознакомление аналитиков с данными
• Визуализация результатов анализа
• Общение с руководством
Решаемые подзадачи
SAS IN-MEMORY
АНАЛИТИКА
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS VISUAL STATISTICS
Data Manipulation• Нахождение
выбросов
• Интерактивная
фильтрация
Data Exploration/
Visualization• Исследование
взаимосвязи параметров
• Использование
наиболее релевантных
переменных для
моделирования
• Распределение
переменных и сводные
статистики
Modeling• Предиктивные
модели
• Линейная
регрессия
• Логистическая
регрессия
• Общая линейная
регрессия
• Дерево решений
• Кластеризация
• Group by процессинг
Access & Score• Сравнение моделей
• Выгрузка скоринг код
SAS IN-MEMORY
АНАЛИТИКА
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS IN-MEMORY
STATISTICS FOR
HADOOP
Data Manipulation• SAS Data Step
• BALANCE
• COLUMINFO
• COMPUTE
• DELETEROWS
• DISTINCT
• DROPTABLE
• FETCH
• GROUPBY
• PARTITION
• PROMOTE
• PURGETEMPTABLES
• SET
• TABLE
• UPDATE
Data Exploration/
Visualization• BOXPLOT
• CORR
• CROSSTAB
• CONTOURPLOT
• DISTRIBUTIONINFO
• FREQUENCY
• HISTOGRAM
• KDE
• REPLAY
• SUMMARY
• AGGREGATE
Miscellaneous• EXTERNAL (C API)
• FREE
• SAVE
• STORE
Predictive Modeling• DECISIONTREE
• FORECAST
• LOGISTIC
• GENMODEL
• GLM
• RANDOMWOODS
• ASSESMENT
Descriptive Modeling• CLUSTER
• CLUSTER TF-IDF
• ASSOCIATIONS
• SVD
Recommender• CLUSTER
• KNN
• ASSOCIATIONS
• SVD
Text Analytics• PARSING
• SVD
Deployment• SCORE
• CODE
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
IN-MEMORY АНАЛИТИКА
EDW(Enterprise Data Warehouse)
Node ..Node 7Node 3 Node 4 Node 5 Node 6
Интерактивная
визуализация
Интерактивный
анализ
закономерностей
Интерактивное
моделирование
ETL
Вычислительный кластер
Подготовка и
преобразование
данных
Ускоритель
аналитики: Data
Mining, …
ADW
Основной аналитический сервер
Подкластер кэша
данных и
неинтерактивных
задач
Подкластер
интерактивной
работы
Аналитика
Управление
преобразованием
данных
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS® Data Director User Name
What directive do you want to perform?
Copy Data for VisualizationCopy data from Hadoop and load it
into LASR for visualization. Existing
data in the target table will be
replaced.
Join Tables in HadoopCreate a table in Hadoop from
multiple tables.
Schedule a Directive to RunSchedule a directive to run at
specified dates and times
Copy Data to HadoopCopy data from a source and load it
into Hadoop. Existing data in the
target file will be replaced.
Pivot a Table in HadoopTranspose the columns of a table in
Hadoop.
Saved DirectivesOpen a previously created directive
to run, view, or edit.
Chain Directives TogetherRun a number of directives in a
specific order.
Profile DataCreate a report profiling the data in a
table.
Transform Data in HadoopTransform the data in an Hadoop
data file.
Verify Mailing AddressCheck the validity of the mailing
address data in a table.
Generate Business Rules Send Data for RemediationSelect data to send to the
remediation queue for further action.
Analyze data in a table and generate
business rules.
1 Click
All DirectivesShow:
SAS Data Loader
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
IN-MEMORY АНАЛИТИКА SAS
Node ..Node 7Node 3 Node 4 Node 5 Node 6
SAS Visual Analytics
SAS IM-STAT
SAS Visual Statistics
EDW(Enterprise Data Warehouse)
ETL
SAS High-Performance
Data Mining,…
SAS Data Loader
Основной аналитический сервер
Подкластер кэша
данных и
неинтерактивных
задачПодкластер
интерактивной
работы
Вычислительный кластер
SAS Enterprise Miner,
...
SAS Grid Manager
SAS Scoring
Accelerator
SAS Data Management
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Node 1 Node 2 Node 3
ЦЕЛЕВАЯ АРХИТЕКТУРА
Node ..Node 11Node 7 Node 8 Node 9 Node 10
Подкластер
интерактивной
работы
Подкластер кэша
данных и
неинтерактивных
задач
EDW(Enterprise Data Warehouse)
ETL
Интерактивная
визуализация
Интерактивный
анализ
закономерностей
Интерактивное
моделирование
Регламентное
применение
моделей
Основной аналитический кластер
Node 4 Node 5 Node 6
Подготовка и
преобразование
данных
Ускоритель
аналитики: Data
Mining, …
Вычислительный кластер
Аналитика
Управление
преобразованием
данных
Балансировка
нагрузки на
кластере
Публикация
моделей
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Node 1 Node 2 Node 3
ЦЕЛЕВАЯ АРХИТЕКТУРА
Node ..Node 11Node 7 Node 8 Node 9 Node 10
Подкластер
интерактивной
работы
Подкластер кэша
данных и
неинтерактивных
задач
EDW(Enterprise Data Warehouse)
ETL
Основной аналитический кластер
Node 4 Node 5 Node 6
SAS High-Performance
Data Mining,…
SAS Data Loader
SAS Visual Analytics
SAS IM-STAT
SAS Visual Statistics
Вычислительный кластер
SAS Enterprise Miner,
...
SAS Grid Manager
SAS Scoring
Accelerator
SAS Data Management
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Node 1 Node 2 Node 3
ВАРИАНТ ЦЕЛЕВОЙ АРХИТЕКТУРЫ
Node ..Node 11Node 7 Node 8 Node 9 Node 10
EDW(Enterprise Data Warehouse)
ETL
Интерактивная
визуализация
Интерактивный
анализ
закономерностей
Интерактивное
моделирование
Регламентное
применение
моделей
Ускоритель
аналитики: Data
Mining, …
Node 4 Node 5 Node 6
Подготовка и
преобразование
данных
Подкластер ADW/
кэша данных
Подкластер
неинтерактивных
задач
Подкластер
интерактивной
работы
Вычислительный кластерОсновной аналитический
кластер
Аналитика
Управление
преобразованием
данных
Балансировка
нагрузки на
кластере
Публикация
моделей
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Node 1 Node 2 Node 3
ВАРИАНТЫ ЦЕЛЕВОЙ АРХИТЕКТУРЫ SAS
Node ..Node 11Node 7 Node 8 Node 9 Node 10
Подкластер
интерактивной
работы
EDW(Enterprise Data Warehouse)
ETLРегламентное
применение
моделей
Node 4 Node 5 Node 6
SAS High-
Performance Data
Mining,…
SAS Visual Analytics
SAS IM-STAT
SAS Visual Statistics
SAS Data Loader
Cloudera/
Hortonworks/ MPP
Подкластер ADW/
Подкластер кэша
данных
Подкластер
неинтерактивных
задач
Основной аналитический
кластерВычислительный кластер
SAS Enterprise Miner,
...
SAS Grid Manager
SAS Scoring
Accelerator
SAS Data Management
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Node 1 Node 2 Node 3
ВАРИАНТЫ ЦЕЛЕВОЙ АРХИТЕКТУРЫ
Node ..Node 11Node 7 Node 8 Node 9 Node 10
Вычислительный кластер
Подкластер
интерактивной
работы
EDW(Enterprise Data Warehouse)
ETLРегламентное
применение
моделей
Основной аналитический
кластер
Node 4 Node 5 Node 6Node 0
Подкластер
Web
среды
Подкластер
мета-
данных
Интерактивная
визуализация
Интерактивный
анализ
закономерностей
Интерактивное
моделирование
Ускоритель
аналитики: Data
Mining, …
Моделирование
Подготовка и
преобразование
данных
Подкластер ADW/
Подкластер кэша
данных
Подкластер
неинтерактивных
задач
Подкластер
вычислений
Аналитика
Управление
преобразованием данных
Балансировка нагрузки на
кластере
Публикация моделей
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Node 1 Node 2 Node 3
ВАРИАНТЫ ЦЕЛЕВОЙ АРХИТЕКТУРЫ SAS
Node ..Node 11Node 7 Node 8 Node 9 Node 10
Дополнительный вычислительный
кластер
Подкластер
интерактивной
работы
EDW(Enterprise Data Warehouse)
ETLРегламентное
применение
моделей
Основной аналитический
кластер
Node 4 Node 5 Node 6
SAS High-
Performance Data
Mining,…
SAS Visual Analytics
SAS IM-STAT
SAS Visual Statistics
SAS Data Loader
Cloudera/
Hortonworks/
Teradata/ Pivotal/
Exadata
Node 0
Кластер
Mid-tier
Кластер
Metadata
Подкластер ADW/
Подкластер кэша
данных
Подкластер
неинтерактивных
задач
SAS Enterprise Miner, ...
SAS Grid Manager
SAS Scoring Accelerator
SAS Data Management
Кластер
Compute
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
In-Memory
LASR Analytics
Visual Analytics
In Memory Statistics for Hadoop
Visual Statistics
Solutions
HPA
HP Data Mining HP Statistics
HP Text MiningHP Forecasting
(LA)
HP Optimization HP Econometrics
Solutions
IN MEMORY
ANALYTICS
Портфель
продуктов
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ПРОГНОЗНАЯ
АНАЛИТИКА НА
БОЛЬШИХ ДАННЫХ
НЕЗАВИСИМОЕ
ИССЛЕДОВАНИЕ
1 квартал 2013 г.
Forrester Inc.
Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .SAS.com