cleverdata_oracle cloud bi day 2015

29
Гармония платформы управления данными 1DMP и Oracle Big Data Appliance Сергей Жемжицкий, CTO CleverDATA 09 июля 2015 г.

Upload: cleverdata

Post on 07-Aug-2015

64 views

Category:

Data & Analytics


7 download

TRANSCRIPT

Гармония    платформы  управления  

данными  1DMP  и    Oracle  Big  Data  Appliance  

Сергей  Жемжицкий,  CTO  CleverDATA  09  июля  2015  г.  

Company  Profile  Mechanical  sympathy  of  Oracle  Big  Data  Appliance  &  1DMP  pla]orm  

1DMP:    Платформа  управления  данными  

Сергей  Жемжицкий,    CTO,  CleverDATA,  9  июля,  2015  

cleverdata.ru    |    [email protected]  

Make  your  data  clever  

Развитие    бизнеса    на    международном    рынке  

Входит  в  тройку  лидеров  российских  ИТ  компаний  43  подразделения  в  России  и  за  рубежом  Более  7000  сотрудников  100  тыс.проектов  для  10  тыс.заказчиков  

Решение  для  повышения  эффективности  маркетинговых  

коммуникаций  для  B2C  компаний  «Биржа»  данных  

Разработчик  систем  предиктивной  аналитики  на  больших  данных  

Собственные  центры  разработки  Партнерство  с  мировыми  лидерами  

Центр  экспертизы  по  технологиям  Big  Data  и  Digital  Markebng  

1DMP  

cleverdata.ru    |    [email protected]  

Агенда  

•  Платформа  1DMP;    

•  Задача  построения  профилей;    

•  Результаты  тестирования  на  Oracle  Big  Data  Appliance.  

cleverdata.ru    |    [email protected]  

Платформа  1DMP  

Основные  компоненты  •  Raw  Data  Storage  –  хранение  «сырых»  данных  •  Master  Data  Storage  –  хранение  готовых  аудиторных  

профилей  •  Raw  Data  Loader  –  механизмы  загрузки  данных  из  внешних  

источников  •  User  tracker  –  механизм  трекинга  пользователей,  поддержка  

таблицы  синхронизации,  синхронизация  трафика  с  внешними  поставщиками  

•  Master  Data  Connector  –  API  работы  с  внешними  потребителями  данных  (DSP/SSP)  

•  Web  Crawler  –  обогащение  данных  веб  контентом  из  открытых  источников  

•  Predic|on  Engine  –  механизм  обработки  данных  алгоритмами  машинного  обучения  

•  Rule  Based  Engine  –  механизм  обработки  данных  на  базе  описываемых  правил  

•  Geo  Locator  –  компонент  обогащения  данных  данными  по  геолокации  

•  Profile  builder  –  компонент  сбора  «интегрированного»  профиля  пользователя  

cleverdata.ru    |    [email protected]  

Место  продукта  в  ИТ  инфраструктуре  

Customer  Transacbon  Data    

Web  analybcs  

CRM  

DWH/CM/Call  center  

Company  Data  

Social  Data    

Web  surfing  

�eCommerce  Data  

3th  Party  Data  

�Mobile  Data  

Data  Exchange  

�3th  Party  Offline  Data  

BI  and  reporbng  

Company  Web  Site  

Mobile  Apps  

Company  acbvibes  

Customers  acbvibes  

Web  and  Mobile  

RTB  ecosystem  (DSP)  

Partners  web  and  mobile  

Social  

Web  

Email  

Campaign  Management  

Campaign  

managem

ent  

SMS  

Call  center  

Offline  

1DMP  

Big  Data  storage  

Real  Time  storage  

Predicbve  analybcs  

Scoring  Data    

Собрать  максимальное  количество  данных  

Определить  что,  кому  и  как  следует  предложить  

Донести  маркетинговое  сообщение  до  клиента  

Open  Internet  Data  

cleverdata.ru    |    [email protected]  

cleverdata.ru    |    [email protected]  

Задача  построения  профилей  

cleverdata.ru    |    [email protected]  

Поток  данных  

cleverdata.ru    |    [email protected]  

Протестированные  компоненты  

•  Raw  Data  Storage  –  хранение  «сырых»  данных  •  Master  Data  Storage  –  хранение  готовых  аудиторных  

профилей  •  Raw  Data  Loader  –  механизмы  загрузки  данных  из  внешних  

источников  •  User  tracker  –  механизм  трекинга  пользователей,  поддержка  

таблицы  синхронизации,  синхронизация  трафика  с  внешними  поставщиками  

•  Master  Data  Connector  –  API  работы  с  внешними  потребителями  данных  (DSP/SSP)  

•  Web  Crawler  –  обогащение  данных  веб  контентом  из  открытых  источников  

•  Predic|on  Engine  –  механизм  обработки  данных  алгоритмами  машинного  обучения  

•  Rule  Based  Engine  –  механизм  обработки  данных  на  базе  описываемых  правил  

•  Geo  Locator  –  компонент  обогащения  данных  данными  по  геолокации  

•  Profile  builder  –  компонент  сбора  «интегрированного»  профиля  пользователя  

cleverdata.ru    |    [email protected]  

Топология  развертывания  

cleverdata.ru    |    [email protected]  

Вызовы  visitors   publishers  

adver|sers  

100  ms   50  ms  

20  ms  

10.000+  rps  

cleverdata.ru    |    [email protected]  

Hardware  

Hardware  (12  Nodes)  •  Intel(R)  Xeon(R)  CPU  E5-­‐2699  v3  @  2.30GHz,  36  physical  and  72  virtual  cores    

•  128  GB  RAM  •  12  x  4  TB  HDD  •  20  GBPS  Infiniband  NICs  

cleverdata.ru    |    [email protected]  

So�ware  

So�ware  •  CDH  5.3.0  (Hadoop  2.5.0)  •  Oracle  NoSQL  EE  3.2.5  •  Wrk  (latest)    •  Nmon  14g  &  Analizer  4.0    

Data  •  73  GB  of  raw  gzipped  data  •  6  x  106  of  HTML  pages  •  256  MB  block  size  •  512  bytes  messages  

cleverdata.ru    |    [email protected]  

Построение  профилей  из  6x106    HTML-­‐страниц  

cleverdata.ru    |    [email protected]  

Построение  профиля    

cleverdata.ru    |    [email protected]  

Время  выполнения  от  количества  нод,  с  

cleverdata.ru    |    [email protected]  

CPU-­‐|me  на  ноду,  с  

cleverdata.ru    |    [email protected]  

CPU-­‐|me  на  ядро,  с  

cleverdata.ru    |    [email protected]  

RAM  на  ноду,  GB  

cleverdata.ru    |    [email protected]  

Раздача  пользовательских  профилей  

cleverdata.ru    |    [email protected]  

Раздача  профиля    

cleverdata.ru    |    [email protected]  

Пропускная  способность  от  кол-­‐ва  ядер,  тыс.  

cleverdata.ru    |    [email protected]  

Время  отклика  от  кол-­‐ва  ядер,  90%  и  99%,  мс.    

cleverdata.ru    |    [email protected]  

Утилизация  CPU  от  кол-­‐ва  ядер,  %  

cleverdata.ru    |    [email protected]  

Утилизация  NICs  от  кол-­‐ва  ядер,  тыс.  pps  

cleverdata.ru    |    [email protected]  

Результаты  

cleverdata.ru    |    [email protected]  

•  Раздача  пользовательских  профилей  с  одного  узла  Oracle  Big  Data  Appliance  составила  более  101,5  тысяч  (в  1,45  раз  больше   изначально   ожидаемого   числа)   запросов   в  секунду;  

 

•  Время   отклика   на   запрос   в   99%   случаев   не   превысило  1,17  миллисекунды  (в  1,7  раза  лучше  ожидаемого);  

 

•  Время   классификации   Интернет-­‐страниц   и   построение  пользовательских   профилей   на   6   узлах   Oracle   Big   Data  Appliance   составило   11   минут   17   секунд,   и   оказалось   в  5,43  раза  лучше  ожидаемых  результатов.  

Результаты  

[email protected]     ::   [email protected]  

cleverleaf.co.uk   ::   cleverdata.ru  

1dmp.io   ::   crawler.1dmp.io  

facebook.com/CleverData     ::   +7  (495)  967-­‐66-­‐50