презентация clever data конференция splunk октябрь 2016 v2

15
Make your data clever

Upload: timur-bagirov

Post on 15-Feb-2017

42 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: презентация Clever data конференция splunk октябрь 2016 v2

Make your data clever

Page 2: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

Структура презентации

> Цель работ

> Ограничения

> Прикладные задачи

> Реализация

> Использование

> Возможности splunk> в области Data mining и Machine Learning

Page 3: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

Цель работ

> Цель работ – определить пути расширения функциональных

возможностей splunk> для решения индивидуальных прикладных задач.

При этом:

1. использовать Splunk в качестве источника данных;

2. выводить результаты наших расчетов в интерфейс splunk>.

Page 4: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

Прикладные задачи

1. Классификация клиентов в зависимости от параметров:

- время последнего посещения клиентом торговых точек ритейлера. Назовем этот параметр – R (Recency).- частота покупок клиента в торговых точках ритейлера. Назовем этот параметр - F(Frequency).

Дано:Имеется зависимость (закон распределения) времени последнего визита R(recency) от частоты покупок F(frequency).В соответствии с данным законом распределения, клиенты разделены на три категории: "Перспективные", "Нормальные", "Неперспективные".Задача: Необходимо определить категорию клиента на основании данных о времени его последнего визита R(recency) и частоты покупок F(frequency) для тех клиентов, у которых категория не задана.

2. Классификация состояния платежного шлюза в зависимости от параметров: время суток (периодичность -

1 час), количество запросов в час.Дано:Имеется зависимость (закон распределения) количества запросов на платежный шлюз в час от времени суток (с группировкой по часам).В соответствии с данным законом распределения, состояние может быть: "Спокойное", "Нормальное", "Критическое".Задача: Необходимо определить состояние платежного шлюза на основании информации о времени суток и количестве запросов в час для тех значений, у которых состояние неизвестно.

Page 5: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

Реализация

> Подход к решению

> Настройка системного Python

> Настройка splunk>

> Разработка модулей Python

> Перезагрузка splunk>

[dtree]type = pythonfilename = dtree.pygenerating = falsestreaming = falseretainsevents = false

Page 6: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

Реализация

Модуль-обертка Ваш уникальный алгоритм

Page 7: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

Использование

Page 8: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

Data mining и Machine Learning

Отрасль Пример

IT Прогноз объема интернет-трафика по дням недели.IT Real-time анализ логов proxy-сервера и web-сервера на наличие определенных слов или выражений

для предотвращения SQL injections. Используется наивная байесовская классификация. IT Прогнозирование нагрузки на Службу поддержки на основании активности клиентов (например,

смена/сброс пароля, запрос баланса и т.д.). Планирование активностей по привлечению

дополнительных ресурсов в пиковые периоды.Банки Прогноз нагрузки на платежный шлюз банка (например, запросов в секунду) на основании

имеющейся статистики. Определение пиковых и адаптивных пороговых значений на основании

функционала Splunk по выявлению аномалий (anomaly detection).Банки Real-time анализ ВСЕХ действий клиентов (в т.ч. потенциальных) на сайте банка/на странице с

кредитным калькулятором для принятия решения о выдаче кредита. Использование

дополнительных имеющихся атрибутов (предикторов).Промышлен

ностьОпределение вероятности снижения энергоэффективности оборудования (повышение потребляемой

мощности, снижение КПД) на основании характеристик его работы из логов управляющих систем,

информации с датчиков и сенсоров и выявленной статистики снижения энергоэффективности.

Проведение внеплановых замен/модернизаций оборудования на основании полученного прогноза.

Page 9: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

Data mining и Machine Learning

Отрасль Пример

Маркетинг 1. Прогнозирование объема продаж.

2. Определение ассоциативных правил, приводящих к покупкам на сайте. Динамическое

формирование страниц сайта (контента страниц) для повышения конверсии.

Безопасность Определение транзакций клиентов, которые выполняются со скоростью, значительно

превышающую скорость других клиентов (средняя частота использования карты, идентификатора

клиента и т.д.). Данное поведение может быть идентифицировано как шаблон. Например,

использование интернет-ботов (bot) для перебора паролей/загрузки канала или планирование

DDoS атак. Используется функционал Splunk по выявлению аномалий (anomaly detection).

Безопасность Определение шаблонов аномальной передачи данных. Построение предиктивной модели,

которая будет определять такие шаблоны и уведомлять заинтересованных лиц, используя

механизм alert’ов.

Телеком Predict Customer Churn. Построение модели оттока клиентов.

Page 10: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

> Большая библиотека команд и алгоритмов.

> Возможность использовать R и Python с помощью R Project App и SDK for Python.> Набор дополнительных приложений: Machine Learning Toolkit and Showcase, Predict App, Sentiment analysis App, Prelert.

> Богатые возможности визуализации (в т.ч. использование D3).

Анализ трендов: predict, trendline, autoregress

Выявление аномалий и сегментирование: anomalies,

cluster, kmeans

Data mining и Machine Learning

Page 11: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

Команды и алгоритмы:> корреляция;> кластеризация (k means, cluster);> ассоциативные правила;> классификация и прогнозирование (байесовская классификация, регрессии, SVM);> поиск аномалий;> метод главных компонент (PCA).

Команда Описание

analyzefields Analyze numerical fields for their ability to predict another discrete field.

anomalies Computes an "unexpectedness" score for an event.

anomalousvalue Finds and summarizes irregular, or uncommon, search results.

cluster Clusters similar events together.

kmeans Performs k-means clustering on selected fields.

outlier Removes outlying numerical values.

rare Displays the least common values of a field.

contingency Builds a contingency table, a co-occurrence matrix, for the values of two fields.

correlate Calculates the correlation between different fields.

predict Enables you to use time series algorithms to predict future values of fields.

trendline Computes moving averages of fields.

x11 Enables you to determine the trend in your data by removing the seasonal pattern.

Data mining и Machine Learning

Page 12: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

ML Toolkit and Showcase

> Линейная регрессия > Логистическая регрессия > Определение аномалий

> Кластеризация > Прогнозирование

Page 13: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

Собственные приложения и визуализация с использованием D3

Page 14: презентация Clever data конференция splunk октябрь 2016 v2

cleverdata.ru | [email protected]

Спасибо!

Расширение функциональных возможностей Splunk – это просто

Page 15: презентация Clever data конференция splunk октябрь 2016 v2