sas high-performance analytics overview (category) · Итерации при построении...

23
Copyright © 2012, SAS Institute Inc. All rights reserved. Принципы построения современных Big Data архитектур

Upload: others

Post on 17-Jan-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Принципы построения

современных Big Data архитектур

Page 2: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

БАЗОВАЯ АРХИТЕКТУРА

EDW(Enterprise Data Warehouse, корпоративное хранилище)

ETL

Аналитика

Управление

преобразованием

данных

Аналитический сервер

Page 3: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Node 1 Node 2 Node 3

РАЗВИТИЕ АРХИТЕКТУРЫ

EDW(Enterprise Data Warehouse)

ETLРегламентное

применение

моделей

Аналитика

Управление

преобразованием

данных

Аналитический сервер

Балансировка

нагрузки на

кластере

Публикация

моделей

Page 4: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Node 1 Node 2 Node 3

РАЗВИТИЕ АРХИТЕКТУРЫ

EDW(Enterprise Data Warehouse)

ETLРегламентное

применение

моделей

Аналитический сервер

SAS Enterprise Miner,

...

SAS Grid Manager

SAS Scoring

Accelerator

SAS Data Management

ПО SAS

Page 5: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

In-m

em

oryУглубленная Аналитика

Massive Parallel Processing или Hadoop

In-memory аналитика

In-m

em

ory

Page 6: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

HP Optimization

• Распределение

ресурсов

• Расписания

• Объекты на карте

HP Forecasting

• Прогнозирование временных

рядов

• Сценарный анализ

• Планирование

HP Econometrics

• Анализ закономерностей для

временных рядов

• Задачи классификации и

регрессии на временных рядах

SAS in-memory

аналитикаУСКОРИТЕЛИ РАБОТЫ АНАЛИТИКИ

HP Data Mining

• Сегментация объектов

• Задачи классификации

• Вероятность наступления событий

HP Statistics

• Линейные, нелинейные,

смешанные, обобщенные

модели

HP Text Mining

• Неструктурированные

предикторы в моделях

• Кластеризация документовHP SNA

• Взаимосвязи

• Потоки

• Лидеры

Page 7: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2013, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS HIGH

PERFORMANCE

DATA MINING

ПРОВЕРКА В КРУПНОМ ОПЕРАТОРЕ СВЯЗИ

• Увеличение точности модели оттока:

14.6%

• Увеличение точности моделей

увеличения продаж: в несколько раз

• Все кампании (решения) могут

проводиться на основе моделей, а не

30%

• Оценка эффекта: 207 млн. руб./ год

• Оценка эффекта: 153 млн. руб./ год

• Потенциал: 1.6 млрд. руб./ год

Аналитика работает в среднем в 100 раз быстрее:

новые алгоритмы, быстрее разработка моделей

Page 8: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2013, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Ускоритель

работы

аналитики

Пример использования

в крупном

американском банке

До SAS HP DM SAS HP DM

Среднее время

построения нейронной

сети

5 часов 3 минуты

Используемые

алгоритмы

1 вид (NN) > 3 видов(Random Forest, SVM,

логистическая

регрессия)

Итерации при

построении нейронных

сетей

7 5000 (70 мин.)

Model lift 1.6 2.5

Время построения

модели одним

аналитиком

1 день 30 минут

Page 9: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

ИНТЕРАКТИВНАЯ ВИЗУАЛИЗАЦИЯ:

SAS VISUAL ANALYTICS

• Показатели в любых разрезах

• Графики, авто-определение формата

• Показатели на карте

• Инструментальные панели, на мобильных устройствах

Возможности визуализации

• Ознакомление аналитиков с данными

• Визуализация результатов анализа

• Общение с руководством

Решаемые подзадачи

SAS IN-MEMORY

АНАЛИТИКА

Page 10: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS VISUAL STATISTICS

Data Manipulation• Нахождение

выбросов

• Интерактивная

фильтрация

Data Exploration/

Visualization• Исследование

взаимосвязи параметров

• Использование

наиболее релевантных

переменных для

моделирования

• Распределение

переменных и сводные

статистики

Modeling• Предиктивные

модели

• Линейная

регрессия

• Логистическая

регрессия

• Общая линейная

регрессия

• Дерево решений

• Кластеризация

• Group by процессинг

Access & Score• Сравнение моделей

• Выгрузка скоринг код

SAS IN-MEMORY

АНАЛИТИКА

Page 11: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS IN-MEMORY

STATISTICS FOR

HADOOP

Data Manipulation• SAS Data Step

• BALANCE

• COLUMINFO

• COMPUTE

• DELETEROWS

• DISTINCT

• DROPTABLE

• FETCH

• GROUPBY

• PARTITION

• PROMOTE

• PURGETEMPTABLES

• SET

• TABLE

• UPDATE

Data Exploration/

Visualization• BOXPLOT

• CORR

• CROSSTAB

• CONTOURPLOT

• DISTRIBUTIONINFO

• FREQUENCY

• HISTOGRAM

• KDE

• REPLAY

• SUMMARY

• AGGREGATE

Miscellaneous• EXTERNAL (C API)

• FREE

• SAVE

• STORE

Predictive Modeling• DECISIONTREE

• FORECAST

• LOGISTIC

• GENMODEL

• GLM

• RANDOMWOODS

• ASSESMENT

Descriptive Modeling• CLUSTER

• CLUSTER TF-IDF

• ASSOCIATIONS

• SVD

Recommender• CLUSTER

• KNN

• ASSOCIATIONS

• SVD

Text Analytics• PARSING

• SVD

Deployment• SCORE

• CODE

Page 12: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

IN-MEMORY АНАЛИТИКА

EDW(Enterprise Data Warehouse)

Node ..Node 7Node 3 Node 4 Node 5 Node 6

Интерактивная

визуализация

Интерактивный

анализ

закономерностей

Интерактивное

моделирование

ETL

Вычислительный кластер

Подготовка и

преобразование

данных

Ускоритель

аналитики: Data

Mining, …

ADW

Основной аналитический сервер

Подкластер кэша

данных и

неинтерактивных

задач

Подкластер

интерактивной

работы

Аналитика

Управление

преобразованием

данных

Page 13: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS® Data Director User Name

What directive do you want to perform?

Copy Data for VisualizationCopy data from Hadoop and load it

into LASR for visualization. Existing

data in the target table will be

replaced.

Join Tables in HadoopCreate a table in Hadoop from

multiple tables.

Schedule a Directive to RunSchedule a directive to run at

specified dates and times

Copy Data to HadoopCopy data from a source and load it

into Hadoop. Existing data in the

target file will be replaced.

Pivot a Table in HadoopTranspose the columns of a table in

Hadoop.

Saved DirectivesOpen a previously created directive

to run, view, or edit.

Chain Directives TogetherRun a number of directives in a

specific order.

Profile DataCreate a report profiling the data in a

table.

Transform Data in HadoopTransform the data in an Hadoop

data file.

Verify Mailing AddressCheck the validity of the mailing

address data in a table.

Generate Business Rules Send Data for RemediationSelect data to send to the

remediation queue for further action.

Analyze data in a table and generate

business rules.

1 Click

All DirectivesShow:

SAS Data Loader

Page 14: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

IN-MEMORY АНАЛИТИКА SAS

Node ..Node 7Node 3 Node 4 Node 5 Node 6

SAS Visual Analytics

SAS IM-STAT

SAS Visual Statistics

EDW(Enterprise Data Warehouse)

ETL

SAS High-Performance

Data Mining,…

SAS Data Loader

Основной аналитический сервер

Подкластер кэша

данных и

неинтерактивных

задачПодкластер

интерактивной

работы

Вычислительный кластер

SAS Enterprise Miner,

...

SAS Grid Manager

SAS Scoring

Accelerator

SAS Data Management

Page 15: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Node 1 Node 2 Node 3

ЦЕЛЕВАЯ АРХИТЕКТУРА

Node ..Node 11Node 7 Node 8 Node 9 Node 10

Подкластер

интерактивной

работы

Подкластер кэша

данных и

неинтерактивных

задач

EDW(Enterprise Data Warehouse)

ETL

Интерактивная

визуализация

Интерактивный

анализ

закономерностей

Интерактивное

моделирование

Регламентное

применение

моделей

Основной аналитический кластер

Node 4 Node 5 Node 6

Подготовка и

преобразование

данных

Ускоритель

аналитики: Data

Mining, …

Вычислительный кластер

Аналитика

Управление

преобразованием

данных

Балансировка

нагрузки на

кластере

Публикация

моделей

Page 16: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Node 1 Node 2 Node 3

ЦЕЛЕВАЯ АРХИТЕКТУРА

Node ..Node 11Node 7 Node 8 Node 9 Node 10

Подкластер

интерактивной

работы

Подкластер кэша

данных и

неинтерактивных

задач

EDW(Enterprise Data Warehouse)

ETL

Основной аналитический кластер

Node 4 Node 5 Node 6

SAS High-Performance

Data Mining,…

SAS Data Loader

SAS Visual Analytics

SAS IM-STAT

SAS Visual Statistics

Вычислительный кластер

SAS Enterprise Miner,

...

SAS Grid Manager

SAS Scoring

Accelerator

SAS Data Management

Page 17: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Node 1 Node 2 Node 3

ВАРИАНТ ЦЕЛЕВОЙ АРХИТЕКТУРЫ

Node ..Node 11Node 7 Node 8 Node 9 Node 10

EDW(Enterprise Data Warehouse)

ETL

Интерактивная

визуализация

Интерактивный

анализ

закономерностей

Интерактивное

моделирование

Регламентное

применение

моделей

Ускоритель

аналитики: Data

Mining, …

Node 4 Node 5 Node 6

Подготовка и

преобразование

данных

Подкластер ADW/

кэша данных

Подкластер

неинтерактивных

задач

Подкластер

интерактивной

работы

Вычислительный кластерОсновной аналитический

кластер

Аналитика

Управление

преобразованием

данных

Балансировка

нагрузки на

кластере

Публикация

моделей

Page 18: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Node 1 Node 2 Node 3

ВАРИАНТЫ ЦЕЛЕВОЙ АРХИТЕКТУРЫ SAS

Node ..Node 11Node 7 Node 8 Node 9 Node 10

Подкластер

интерактивной

работы

EDW(Enterprise Data Warehouse)

ETLРегламентное

применение

моделей

Node 4 Node 5 Node 6

SAS High-

Performance Data

Mining,…

SAS Visual Analytics

SAS IM-STAT

SAS Visual Statistics

SAS Data Loader

Cloudera/

Hortonworks/ MPP

Подкластер ADW/

Подкластер кэша

данных

Подкластер

неинтерактивных

задач

Основной аналитический

кластерВычислительный кластер

SAS Enterprise Miner,

...

SAS Grid Manager

SAS Scoring

Accelerator

SAS Data Management

Page 19: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Node 1 Node 2 Node 3

ВАРИАНТЫ ЦЕЛЕВОЙ АРХИТЕКТУРЫ

Node ..Node 11Node 7 Node 8 Node 9 Node 10

Вычислительный кластер

Подкластер

интерактивной

работы

EDW(Enterprise Data Warehouse)

ETLРегламентное

применение

моделей

Основной аналитический

кластер

Node 4 Node 5 Node 6Node 0

Подкластер

Web

среды

Подкластер

мета-

данных

Интерактивная

визуализация

Интерактивный

анализ

закономерностей

Интерактивное

моделирование

Ускоритель

аналитики: Data

Mining, …

Моделирование

Подготовка и

преобразование

данных

Подкластер ADW/

Подкластер кэша

данных

Подкластер

неинтерактивных

задач

Подкластер

вычислений

Аналитика

Управление

преобразованием данных

Балансировка нагрузки на

кластере

Публикация моделей

Page 20: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Node 1 Node 2 Node 3

ВАРИАНТЫ ЦЕЛЕВОЙ АРХИТЕКТУРЫ SAS

Node ..Node 11Node 7 Node 8 Node 9 Node 10

Дополнительный вычислительный

кластер

Подкластер

интерактивной

работы

EDW(Enterprise Data Warehouse)

ETLРегламентное

применение

моделей

Основной аналитический

кластер

Node 4 Node 5 Node 6

SAS High-

Performance Data

Mining,…

SAS Visual Analytics

SAS IM-STAT

SAS Visual Statistics

SAS Data Loader

Cloudera/

Hortonworks/

Teradata/ Pivotal/

Exadata

Node 0

Кластер

Mid-tier

Кластер

Metadata

Подкластер ADW/

Подкластер кэша

данных

Подкластер

неинтерактивных

задач

SAS Enterprise Miner, ...

SAS Grid Manager

SAS Scoring Accelerator

SAS Data Management

Кластер

Compute

Page 21: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

In-Memory

LASR Analytics

Visual Analytics

In Memory Statistics for Hadoop

Visual Statistics

Solutions

HPA

HP Data Mining HP Statistics

HP Text MiningHP Forecasting

(LA)

HP Optimization HP Econometrics

Solutions

IN MEMORY

ANALYTICS

Портфель

продуктов

Page 22: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

ПРОГНОЗНАЯ

АНАЛИТИКА НА

БОЛЬШИХ ДАННЫХ

НЕЗАВИСИМОЕ

ИССЛЕДОВАНИЕ

1 квартал 2013 г.

Forrester Inc.

Page 23: SAS High-Performance Analytics Overview (Category) · Итерации при построении нейронных сетей 7 5000 (70 мин.) Model lift 1.6 2.5 Времяпостроения

Copyr i g ht © 2012, SAS Ins t i tu t e Inc . A l l r ights reser ve d .SAS.com