Конференция Юкон. Процессинг данных на лямбда...
TRANSCRIPT
Процессинг данных на lambda-архитектуре
Препарируем Data Management Platform
ЮКОН 2016
Анатолий Никулин
Коротко об AdTech
● Advertiser Technology - технологии для рекламодателей.
● Это $60 B (только в США)
● Это десятки-сотни тысяч событий в секунду
● Как следствие большие объемы данных и нагрузки.
Что нужно рекламодателям, чтобы быть эффективными● Надо продать удочки
● Можно показать рекламу Всему честному люду
● Но лучше выделить определеннуюгруппу - “Рыбаки”
● Их на порядок меньше, экономия на порядок больше
Как им в этом помочь?
● Сбор и анализ пользовательской активности.
● Формирование профиля пользователя (интересы, увлечения,
профессиональная деятельность)*
● Группировка пользователей по заданным критериям, чтобы можно было более точно и эффективно настраивать рекламные кампании.
● Сделать рекламу более релевантной для пользователя, и эффективной для рекламодателя.
*Анонимно
Как следствие требования
● Обработка и хранение больших объемов исторических данных
● Оперативность принятия решений
● Устойчивость к отказам
● Горизонтальная масштабируемость
HDFS как хранилище сырых данных
● Распределенная файловая система
● Поддержка репликации (надежность, ускорение вычислений)
● Файлы в формате Parquet(компактное хранение, эффективный последовательный доступ)
● Храним очень долго
HBase как хранилище консолидированных профилей
● Распределенное колонко-ориентированное хранилище
● Структура не фиксирована. 10 000 колонок - это нормально
● Позволяет обособленно хранить сложные структуры данных. Поддерживает версионность
● Отлично интегрирована с фреймворками распределенных вычислений (Spark, MapReduce)
Внешние поставщики данных (3rd party data providers)● Соц. дем. (возраст, пол, семейное положение,
наличие детей)
● Интересы (хобби, увлечения)
● Профессиональная деятельность. (Организация, отрасль, годовой оборот)
ASE сегментация пользователей. Взять всех, да и поделить!
● Разбить профили на группы (сегменты). Чтобы показывать релевантную рекламу.
● Сегментов может быть произвольное количество
● У сегмента есть Правило и время жизни
Пример:Сегмент: Охотники и рыбакиМужчины, 30-45, Сибирь,Visits: www.hunters.ru
Плюсы● Оперативность принятия решений● Хранение сырых данных ( immutable, append-only)● Возможность анализа всего исторического датасета● Возможность репроцессинга всего исторического датасета● Горизонтальная масштабируемость● Отказоустойчивость
Минусы
● Сложность реализации● Дороговизна реализации и владения