secon'2014 - Андрей Устюжанин - Маленькие секреты больших...
DESCRIPTION
Для эффективной борьбы с большими данными одних технологий недостаточно. Необходим правильный настрой по отношению к ним, позволяющий видеть перспективы и особенности их использования. В данном рассказе предлагается точка зрения на совокупность проблем больших данных и их возможные пути разрешения. Рассказ построен на конкретных примерах из личной практики. Целевая аудитория доклада, ее примерный уровень: аналитики, менеджеры ИТ, CTO.TRANSCRIPT
![Page 1: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/1.jpg)
![Page 2: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/2.jpg)
Маленькие «секреты» больших данных
Андрей УстюжанинРуководитель совместных проектов Яндекс-ЦЕРН
![Page 3: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/3.jpg)
3
![Page 4: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/4.jpg)
4
Case: супермаркет Target и беременая девушка
![Page 5: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/5.jpg)
Оцифрованная романтика: eHarmony
![Page 6: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/6.jpg)
Оцифрованная романтика: eHarmony
![Page 8: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/8.jpg)
8
Jawbone: браслеты никогда не спят
http://bit.ly/1ikwePV
![Page 9: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/9.jpg)
9
Atom будущего
Стратегия выбора стиля кнопки
Дремучая:«Я так сказал»
Продвинутая:«Мы провели A/B тест»
Технологичная и современная:«Мы знаем, какую ты любишь»
![Page 10: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/10.jpg)
Самые продвинутые отрасли
10
В мире:
Финансы
Медицина
Государство
Hi-tech и интернет-компании
![Page 11: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/11.jpg)
![Page 12: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/12.jpg)
12
Объем
пользователей Internet: 2 млрдcайтов Internet: 0.5 млрдcтраниц: 10 трлнроликов YouTube: 0.5 трлн часовфотки Facebook: 10 Pbаккаунтов Twitter: 200 млн
листьев на дереве: 1 млнтравинок на футбольном поле: 100 млнстраниц в Ленинской библиотеке, песчинок на пляже, байт в геноме, ...
~
~
~
![Page 13: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/13.jpg)
13
Объем + cкорость + разнообразие
ТекстФото
АудиоВидеоне только Internet!в день:
– лайков Facebook: 1 млрд– твитов: 100 млн
![Page 14: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/14.jpg)
Технологии Big Data
![Page 15: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/15.jpg)
![Page 16: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/16.jpg)
Мир глазами аналитика
Реальный мирМетапереход: от статистикик инженерии данных
![Page 17: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/17.jpg)
17
«Как построить компьютерные системы, которые автоматически улучшаютсяс накопленным опытом, и каким законам подчиняются все процессы обучения?»
Tom Mitchell, CMU
![Page 18: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/18.jpg)
Обучающаяся программа
Примеры данных с закономерностями
Модель закономерности
Поиск закономерностей в новых данных
![Page 19: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/19.jpg)
0
50
100
150
200
250
50 100 150
?
200 250
![Page 20: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/20.jpg)
0
50
100
150
200
250
50 100 150 200 2500
50
100
150
200
250
50 100 150 200 250
![Page 21: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/21.jpg)
0
50
100
150
200
250
50 100 150 200 2500
50
100
150
200
250
50 100 150 200 250
![Page 22: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/22.jpg)
![Page 23: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/23.jpg)
Недообученная (слабая) модель
Переобученная модель
Оптимальная модель
![Page 24: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/24.jpg)
Реализации машинного обученияTMVA http://tmva.sf.net
word2vec by Google http://code.google.com/p/word2vec
h2o by 0xdata http://0xdata.com/h2O
‘The Berkeley Stack’ by AMPLab http://amplab.cs.berkeley.edu
Vorpal Wabbit by John Langford http://github.com/JohnLangford/vowpal_wabbit
KNIME http://knime.org
PMML – Predictive Model Markup Language http://ibm.com/developerworks/industry/library/ind-PMML2/
scikit-learn for Python http://scikit-learn.org
![Page 25: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/25.jpg)
iPython notebookLiteration programmingLiterate computation
![Page 26: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/26.jpg)
Метапереход: Информационные системы
Экзоскелет Нервная система
![Page 27: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/27.jpg)
Показ рекламы
![Page 28: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/28.jpg)
Ранжирование
![Page 29: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/29.jpg)
Размер «формулы» (модели)
2006 2007 2008 2009 2010 2011 2012
разм
ер ф
орму
лы
0.02 kB
1 kB
14 kB
220 kB
1 MB
7 MB
40 MB
![Page 30: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/30.jpg)
Приложения машинного обученияПоиск
Реклама
Маркет
Предсказание дорожных пробок
Перевод
Распознавание музыки, изображений, видео
Фильтрация спама
Кластеризация новостей
Определение аномалий
![Page 31: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/31.jpg)
Deathly Ones
![Page 32: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/32.jpg)
LHCb Events
![Page 33: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/33.jpg)
Event Filtering (Bs→µ+µ-)
![Page 34: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/34.jpg)
Data Value Chain (начисление стоимости)
![Page 35: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/35.jpg)
Data Value Chain (начисление стоимости)
1. Получить данные2. Выбрать пространство признаков
3. Выбрать меры оценки качества4. Выбрать параметры классификатора5. Обучить модель6. Оценка качества7. Повторить
![Page 36: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/36.jpg)
Кто управляет кораблем?
![Page 37: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/37.jpg)
Что такое матрица?
![Page 38: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/38.jpg)
Метапереход
«Как автоматизировать производство обучение машин?»
![Page 39: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/39.jpg)
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
Data Acquisition
![Page 40: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/40.jpg)
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
Data Acquisition
Web Search
Search Quality
Engine
Matrixnet/Tensornet
Logs, ...
Map, Reduce, Join
![Page 41: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/41.jpg)
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
CERN
Publications
LHC
Filtering and Stripping
TMVA
Fitting
Data Acquisition
Web Search
Search Quality
Engine
Matrixnet/Tensornet
Logs, ...
Map, Reduce, Join
![Page 42: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/42.jpg)
Data Science
Results
Конвейер исследований
Aggregation, Transforming
Model Training/Machine Learning
Application
CERN
Publications
LHC
Filtering and Stripping
TMVA
Fitting
Data Acquisition
Web Search
Search Quality
Engine
Matrixnet/Tensornet
Logs, ...
Map, Reduce, Join
![Page 43: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/43.jpg)
Workflow model «A»
![Page 44: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/44.jpg)
Workflow model «YDF»
LHCb PhysicsCoordinator
![Page 45: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/45.jpg)
Workflow scalability
LHCb PhysicsCoordinator
![Page 46: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/46.jpg)
Навыки инженера данных
SubstantiveExpertise
HackingSkills
Math &Statistics
Knowledge
TraditionalResearch
DangerZone!
DataScience
MachineLearning
![Page 47: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/47.jpg)
Программирование
Алгоритмы и структуры данных
Базы данных
Статистика
Анализ данных
Машинное обучение
Компьютерная обработка текста
Распределенные системы
Инструменты Big Data
Визуализация данныхFrom: Swami Chandrasekaran, Executive Architect
![Page 48: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/48.jpg)
45
Учебные программы от индустрии
![Page 49: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/49.jpg)
Международные курсыУниверситетские программы:
– University of Washington: CertiUcate in Data Science
– UC Berkeley: Master of information and data science program
– New York University: Data Science at NYU
– Columbia University: Institute for Data Sciences and Engineering
– University of Southern California (UCS) : Master of Science in Data Science
46
Онлайн курсы обучения:
– Coursera
– edX
– Udacity
Ускоренные образовательные программы (компании):
– ZipUan Academy (12 weeks intensive program)
– Insight Data Science Fellows program(6 weeks post doc training)
![Page 50: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/50.jpg)
Чему учат в ШАД Отделение Computer ScienceСеместр 1Алгоритмы и структуры данных поиска, IДискретный анализ и теория вероятностейКурс по выбору (из 5)
Семестр 2Алгоритмы и структуры данных поиска, IIМашинное обучение, IКурс по выбору (из 5)
Семестр 3Машинное обучение, IIАвтоматическая обработка текстовКурс по выбору (из 5)
Семестр 4Информационный поиск или Машинный перевод2 курса по выбору (из 5)
Отделение анализа данныхСеместр 1Алгоритмы и структуры данных поиска, IВосстановление зависимостей из эмпирических данныхОсновы стохастики. Стохастические модели
Семестр 2Алгоритмы и структуры данных поиска, IIТеория обучения машинВероятностно-статистические модели и анализ данных в задачах скорейшего обнаружения
Семестр 3Выпуклый анализ и оптимизацияМашинное обучение, IIКурс по выбору (из 5)
Семестр 4Анализ символьных последовательностей с т. з. биоинформатики2 курса по выбору (из 5)
![Page 51: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/51.jpg)
Яндекс.ШАД
![Page 52: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/52.jpg)
49
Вакансии «data science»
![Page 53: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/53.jpg)
50
Интерактивная инфографика
![Page 54: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/54.jpg)
51
![Page 55: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/55.jpg)
52
Открытые данные
http://открытыеданные.большоеправительство.рф/
http://opengovdata.ru/
http://data.gov.uk/
http://en.wikipedia.org/wiki/Open_data
![Page 56: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/56.jpg)
53
Data-journalism
STORY
VISUALIZE
FILTER
DATA
value to public
![Page 57: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/57.jpg)
54
Демография РФдефолт приближается
причина жизни
причина дефолта
![Page 58: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/58.jpg)
55
Численные эксперименты/исследования
Измеримость
Воспроизводимость
Читаемость/прозрачность
Совместная работа
Модульность
Автоматизируемость
![Page 59: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/59.jpg)
56
Gartner Hype Cycle
![Page 60: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/60.jpg)
57
![Page 61: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/61.jpg)
57
«Данные – это новая нефть!»
![Page 62: SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных](https://reader036.vdocuments.pub/reader036/viewer/2022081404/557fd6f9d8b42aab088b51ea/html5/thumbnails/62.jpg)
58
ЗаключениеМашинное обучение
– Большие данные: скорость + размер + разнообразие + ценность
«Секреты»:
– метапереход от статистики к модельному описанию (инженерия данных, машинное обучение)
– алгоритмы и библиотеки построения моделей – инфраструктура для встраивания моделей– конвейрная обработка
Новые подходы в естественных и гуманитарных науках:
– инфографика– заказная аналитика данных– журналистика данных