1 20150424 ydf_mlevin_мифы и легенды о больших данных
TRANSCRIPT
Мифы и легенды о больших
данных
Михаил Левин
руководитель службы анализа больших данных
Yandex Data Factory
› Создана в 2014 году
› Машинное обучение для
других индустрий
› Вычислительные мощности
› Инфраструктура для
машинного обучения
› Data scientists
› Данные о поведении пользователей (в Интернете,
телекоммуникациях и пр.)
› Данные сенсоров и телеметрии
› Банковские транзакции, кредиты и депозиты
› Эксперименты в ЦЕРНе
› Протоколы плавок стали
› Данные о дорожном движении и ДТП
› Данные о продажах
› …
Откуда берутся большие данные?
4
› Само по себе – нет
› Хранение – затратно
› Некоторые данные обязательно хранить по закону
› Все хотят получать выгоду, а не только тратиться
Большие данные – это выгодно?
5
› Редко
› Нужно самостоятельно ставить гипотезы
› “Know your customer”?
› Нельзя на самом деле «знать» миллион людей
› Итого, это просто сводится к сегментам
› Создать больше сегментов с помощью больших данных?
› Не особенно поможет
“Getting insights from your data”
6
› Получение знаний – полезно, но очень медленно
› То, чего на самом деле хочется – это оптимизация
› Повышение доходов или снижение издержек
› Оптимизировать можно без понимания
› Предсказывающие и предписывающие модели
› Гораздо точнее, чем модели, созданные человеком
Прогнозы и предписания
7
› 100, 1000, 10000 характеристик vs 5-7
› Огромный набор гипотез vs несколько идей
› Быстрая и автоматизированная оптимизация
› Результат – лучше модель
› Хорошо масштабируется
Машинное обучение противаналитики
8
› Рекомендательные системы для upsale/cross-sale
› Предсказание оттока для телекомов, онлайн-игр
› Оптимизация использования химических веществ
› Автоматический мониторинг с распознаванием
изображений
› Размещение дорожных патрулей с использованием
информации о пробках и предсказании ДТП
› Идентификация & верификация лиц
Примеры
9
› Крупный банк с миллионами клиентов
› Кредиты, депозиты, мобильный банкинг, страховка
› Upsale/cross-sale
› Обычные e-mail/sms рассылки
› Используют сегментацию
› При добавлении персонализации -> +13% дохода
Рекомендательная система
10
› Если клиент не пользуется услугой 3 месяца – он потерян
› Хотим это предотвратить
› Кто уйдет на следующей неделе?
› Lift-10%
› Кампания по удержанию топа
› Дольше продолжительность жизни клиента -> выше доходы
Предсказание оттока
11
› Давно известная задача
› Обычно используются простые модели
› Используют только агрегированные данные
› Есть более эффективные методы
› Наш результат: +10-20% в значении метрики Lift-10%
Предсказание оттока
12
› ЛЭП или трубопровод длиной сотни километров
› Рядом с ними не должно быть домов, машин, свалок и пр.
› Непроходимая местность
› Регулярный мониторинг наземными патрулями - дорого
› Фотосъемка беспилотниками
› Автоматическое распознавание нежелательных объектов
› Возможно даже в реальном времени
Автоматический мониторинг
13
› Данные о качестве дорог, размещении дорожных знаков,
пешеходных перекрестков и т.д.
› Данные о движении автомобилей и пробках
› Данные о погоде
› Данные о прошлых ДТП
› Предсказание пробок и ДТП
› Предсказание наиболее опасных сегментов – вероятность ДТП
выше в 30 раз
› В 7 раз больше ДТП, чем модель по статистике
› Можно предотвращать ДТП или быстрее ликвидировать
последствия
Размещение дорожных патрулей
14
› Не обязательно очень большие, иногда достаточно одного
компьютера для их обработки
› More data beats better algorithms
› Хотя бы 10000 объектов и дюжина характеристик
› Можно работать с миллиардами характеристик и
триллионами событий – и выигрывать за счет этого
Обязательно большие данные?
15
› Хорошие алгоритмы на больших данных – еще лучше
› Можно выигрывать у линейных моделей на 10+%
› Классификация изображений близка к уровню человека
› Использование глубоких нейронных сетей
› С большим количеством трюков
› Распознавание мультиканальной речи лучше человека
› Тоже DNN
Нужны ли сложные алгоритмы?
16
› Алгоритмы уже обучают сами себя…
› 20 лет исследований машинного перевода побеждены
DNN…
› DNN “just want to work”…
Нужны ли data scientist’ы?
17
› DNN “just want to work”…
› На самом деле, нет
› Множество хитростей при тренировке модели
› Feature engineering
› Лучшие - совершенствуют алгоритмы и решают новые
задачи
› Обычные DS применяют готовые рецепты – тоже очень
востребованно
› The sexiest job of 21st century по мнению HBR
Нужны ли data scientist’ы?
18
› Правильно поставить задачу
› Добыть все нужные данные
› Выработать метрики и критерии успеха
› Описать эксперимент
› Подобрать модель
› Статистика & вероятность
› Математическая оптимизация
› Алгоритмы
› Параллельные вычисления
Что нужно уметь
19
› Большие данные сами по себе не несут ценности
› Все накапливают данные
› Машинное обучение широко применимо
› Лучше больше данных, чем умные алгоритмы
› Умные алгоритмы на больших данных – еще лучше
› Знание математики, которая за ними стоит – очень важно
› Знание предметной области необязательно, но полезно
› Спрос на data scientist’ов велик и растет, а их мало
Заключение
20