1 20150424 ydf_mlevin_мифы и легенды о больших данных

Мифы и легенды о больших

данных

Михаил Левин

руководитель службы анализа больших данных

Yandex Data Factory

› Создана в 2014 году

› Машинное обучение для

других индустрий

› Вычислительные мощности

› Инфраструктура для

машинного обучения

› Data scientists

› Данные о поведении пользователей (в Интернете,

телекоммуникациях и пр.)

› Данные сенсоров и телеметрии

› Банковские транзакции, кредиты и депозиты

› Эксперименты в ЦЕРНе

› Протоколы плавок стали

› Данные о дорожном движении и ДТП

› Данные о продажах

› …

Откуда берутся большие данные?

4

› Само по себе – нет

› Хранение – затратно

› Некоторые данные обязательно хранить по закону

› Все хотят получать выгоду, а не только тратиться

Большие данные – это выгодно?

5

› Редко

› Нужно самостоятельно ставить гипотезы

› “Know your customer”?

› Нельзя на самом деле «знать» миллион людей

› Итого, это просто сводится к сегментам

› Создать больше сегментов с помощью больших данных?

› Не особенно поможет

“Getting insights from your data”

6

› Получение знаний – полезно, но очень медленно

› То, чего на самом деле хочется – это оптимизация

› Повышение доходов или снижение издержек

› Оптимизировать можно без понимания

› Предсказывающие и предписывающие модели

› Гораздо точнее, чем модели, созданные человеком

Прогнозы и предписания

7

› 100, 1000, 10000 характеристик vs 5-7

› Огромный набор гипотез vs несколько идей

› Быстрая и автоматизированная оптимизация

› Результат – лучше модель

› Хорошо масштабируется

Машинное обучение противаналитики

8

› Рекомендательные системы для upsale/cross-sale

› Предсказание оттока для телекомов, онлайн-игр

› Оптимизация использования химических веществ

› Автоматический мониторинг с распознаванием

изображений

› Размещение дорожных патрулей с использованием

информации о пробках и предсказании ДТП

› Идентификация & верификация лиц

Примеры

9

› Крупный банк с миллионами клиентов

› Кредиты, депозиты, мобильный банкинг, страховка

› Upsale/cross-sale

› Обычные e-mail/sms рассылки

› Используют сегментацию

› При добавлении персонализации -> +13% дохода

Рекомендательная система

10

› Если клиент не пользуется услугой 3 месяца – он потерян

› Хотим это предотвратить

› Кто уйдет на следующей неделе?

› Lift-10%

› Кампания по удержанию топа

› Дольше продолжительность жизни клиента -> выше доходы

Предсказание оттока

11

› Давно известная задача

› Обычно используются простые модели

› Используют только агрегированные данные

› Есть более эффективные методы

› Наш результат: +10-20% в значении метрики Lift-10%

Предсказание оттока

12

› ЛЭП или трубопровод длиной сотни километров

› Рядом с ними не должно быть домов, машин, свалок и пр.

› Непроходимая местность

› Регулярный мониторинг наземными патрулями - дорого

› Фотосъемка беспилотниками

› Автоматическое распознавание нежелательных объектов

› Возможно даже в реальном времени

Автоматический мониторинг

13

› Данные о качестве дорог, размещении дорожных знаков,

пешеходных перекрестков и т.д.

› Данные о движении автомобилей и пробках

› Данные о погоде

› Данные о прошлых ДТП

› Предсказание пробок и ДТП

› Предсказание наиболее опасных сегментов – вероятность ДТП

выше в 30 раз

› В 7 раз больше ДТП, чем модель по статистике

› Можно предотвращать ДТП или быстрее ликвидировать

последствия

Размещение дорожных патрулей

14

› Не обязательно очень большие, иногда достаточно одного

компьютера для их обработки

› More data beats better algorithms

› Хотя бы 10000 объектов и дюжина характеристик

› Можно работать с миллиардами характеристик и

триллионами событий – и выигрывать за счет этого

Обязательно большие данные?

15

› Хорошие алгоритмы на больших данных – еще лучше

› Можно выигрывать у линейных моделей на 10+%

› Классификация изображений близка к уровню человека

› Использование глубоких нейронных сетей

› С большим количеством трюков

› Распознавание мультиканальной речи лучше человека

› Тоже DNN

Нужны ли сложные алгоритмы?

16

› Алгоритмы уже обучают сами себя…

› 20 лет исследований машинного перевода побеждены

DNN…

› DNN “just want to work”…

Нужны ли data scientist’ы?

17

› DNN “just want to work”…

› На самом деле, нет

› Множество хитростей при тренировке модели

› Feature engineering

› Лучшие - совершенствуют алгоритмы и решают новые

задачи

› Обычные DS применяют готовые рецепты – тоже очень

востребованно

› The sexiest job of 21st century по мнению HBR

Нужны ли data scientist’ы?

18

› Правильно поставить задачу

› Добыть все нужные данные

› Выработать метрики и критерии успеха

› Описать эксперимент

› Подобрать модель

› Статистика & вероятность

› Математическая оптимизация

› Алгоритмы

› Параллельные вычисления

Что нужно уметь

19

› Большие данные сами по себе не несут ценности

› Все накапливают данные

› Машинное обучение широко применимо

› Лучше больше данных, чем умные алгоритмы

› Умные алгоритмы на больших данных – еще лучше

› Знание математики, которая за ними стоит – очень важно

› Знание предметной области необязательно, но полезно

› Спрос на data scientist’ов велик и растет, а их мало

Заключение

20

Контакты

[email protected]

Михаил Левин

Chief Data Scientist,

Yandex Data Factory

1 20150424 ydf_mlevin_мифы и легенды о больших данных

Data & Analytics