big data: вызовы и возможности
TRANSCRIPT
![Page 1: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/1.jpg)
15 июня, 2016, Россия, Москва, Mercure Москва Павелецкая
КонференцияBIGDATA И BI DAY 2016Модератор – Станислав Макаров
![Page 2: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/2.jpg)
BI & Big Data: Вызовы и возможностиСтанислав Макаров
![Page 3: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/3.jpg)
4V Больших Данных
![Page 4: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/4.jpg)
1. Volume: как много у вас данных?
![Page 5: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/5.jpg)
Откуда взялся термин Big DataВ 1997 году на 8-й конференции IEEE по визуализации Майкл Кокс и Дэвид Эллсворс (Michael Coxand David Ellsworth) из NASA делали доклад о своей работе по вычислительной гидродинамике. Им нужно было показывать результаты расчетов на экране, для чего приходилось идти на различные ухищрения – об этом и была их статья “Application-controlled demand paging for out-of-corevisualization” («Управляемый приложением спрос на подкачку данных вне ядра визуализации»).
Вот что они писали: «Визуализация представляет интересный вызов для компьютерных систем: наборы данных в основном настолько велики, что они превосходят емкость основной памяти, локального диска и даже удаленного диска. Мы называем это проблемой больших данных.»
100-500 ГБ
![Page 6: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/6.jpg)
Large Synoptic Survey TelescopeOpening a Window of Discovery on the Dynamic Universe
Телескоп способен заснять всю доступную площадь неба всего за несколько ночей.
• Основное зеркало диаметром 8,4 метра • Камера 3.3 Гигапикселя• 30 ТБ данных за ночь• Объем архива более чем 200 ПБ
Merriam-Webster definition of SYNOPTIC 1: affording a general view of a whole. 2: manifesting or characterized by comprehensiveness or breadth of view.
![Page 7: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/7.jpg)
https://docushare.lsstcorp.org/docushare/dsweb/Get/Document-18403
![Page 8: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/8.jpg)
![Page 9: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/9.jpg)
Телескопов много!
![Page 10: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/10.jpg)
Собственных данных у организаций пока мало
2009 г.
http://www.b-eye-network.com/blogs/madsen/archives/2009/04/size_of_data_wa.php
Предположим, к 2015, то есть за 6 лет, объемы данных выросли в 100 раз.Все равно мало для Big Data.
![Page 11: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/11.jpg)
Библиотека Конгресса
• 130 million items (books, photographs, maps, etc)
• 29 million books• 10,000 new items added each
day• 530 miles of shelves• 5 million digital documents• 20 terabytes of text data
2010 г
![Page 12: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/12.jpg)
VOLUME – не проблема!
https://www.thatdatadude.com/interactive-chart-hard-drive-prices-1950-2010/
Стоимость гигабайта на жестком диске с 1956 до 2010 года.
Стоимость хранения упала – стало можно хранить все подряд, не задумываясь о ценности и порядке.
![Page 13: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/13.jpg)
2V – Velocity (скорость поступления данных)
Одно событие (то есть, столкновение частиц) дает нам примерно 25 МБ данных. Вроде немного, да? Но событий этих – 40 миллионов в секунду! Итого мы имеем 1 ПБ сырых данных в секунду.
ATLAS (A Toroidal LHC ApparatuS)
![Page 14: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/14.jpg)
2V – Velocity (скорость обработки)Аналитика в реальном времени in-Memory Database
http://blog.memsql.com/in-memory-database-survey-real-time-analytics/
![Page 15: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/15.jpg)
2V – Velocity (скорость обработки)Аналитика в реальном времени in-Memory Database
Forrester Wave, Q3 2015
Выбор есть!
Не проблема – были б деньги
![Page 16: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/16.jpg)
3V – Variety (многообразие)
![Page 17: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/17.jpg)
80-90% полезной для бизнеса информации хранится в неструктурированном виде.
Взрывной рост объемов данных вызван, прежде всего, ростом неструктурированной информации.
Big Data = Big Content
При этом широко используются только традиционные инструменты Business Intelligence – для работы с числовыми данными.
![Page 18: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/18.jpg)
Контентная аналитика, семантика, онтология, анализ тональности, и т.д.
![Page 19: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/19.jpg)
4V - Veracity (можно ли верить)1.Доверие к самим данным2.Доверие к выводам
Верить, в наше время, нельзя никому, даже себе.Мне – можно!
Риски:• Происхождение данных• Статистика вместо теории
![Page 20: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/20.jpg)
Люди, процессы, данные
Big
![Page 21: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/21.jpg)
Data Scientist – самая сексуальная работа 21 века
Средняя зарплата «ученого по данным», согласно исследованию Glassdoor, составляет $114,8 тыс., тогда как средняя зарплата обычного статистика находится на уровне $75 тыс.
McKinsey предсказывает, что к
2018 году США столкнутся с
нехваткой 190 тыс. data scientists и 1.5 млн. менеджеров с
навыками использования аналитических
данных для принятия
бизнес-решений.
Сегодня дефицит этих специалистов так велик, что на
работу берут и без профильного образования
по математике и программированию.
![Page 22: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/22.jpg)
Без математики ничего не получится
«Мы говорили о нехватке программистов,но неожиданно сейчас мы столкнулись с нехваткой математиков.
То есть, управление бизнесом сейчас, из-за внедрения аналитики, потребовало высшей математики в гораздо большем объеме. И дефицит профессии, которую условно можно назвать «аналитик» (или data scientist), сейчас налицо.
А математика это вам не экраны пальчиком на планшете двигать, математику учить надо. Тут время понадобится – поэтому эффект от внедрения аналитики будет нарастать довольно долго.»
Кирилл Корнильев, IBM:
![Page 23: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/23.jpg)
Математизация всего«Общая тенденция математизации наук (в том числе и таких, которые до сих пор по традиции не использовали математических средств), охватив биологию, психологию и медицину, постепенно проникает даже в гуманитарные области — правда, пока еще скорее в виде отдельных «партизанских налетов»; это можно заметить, например, в области языкознания (теоретическая лингвистика) или теории литературы (применение теории информации к исследованию литературных, в частности поэтических, текстов).»
Станислав ЛемСумма технологии, 1962
![Page 24: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/24.jpg)
Спрос на специалистов по Big Data в МосквеПараметры запроса:• “Big Data” в описании вакансии• Регион – Москва• Профобласть - любая• Опыт – не имеет значения• Занятость – любая• Период – за месяц
Найдено 139 вакансий
![Page 25: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/25.jpg)
Разброс огромный – у рынка нет понимания
и до:
От:
![Page 26: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/26.jpg)
Для сравнения – предложение вакансий
1C – 9643SAP – 1189Java – 1299Hadoop – 111Data Scientist – 38Аналитик – 4044 Программист – 3866
![Page 27: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/27.jpg)
Процессы: Принятие решений на основе данных
Адекватные показатели
Нельзя управлять тем, что нельзя измерить
Их понимание и культура использования
Интуиция, опыт и здравый смысл
Не цифрой единой!
![Page 28: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/28.jpg)
Больше данных – не всегда лучшеК 2018 году 90% внедренных озер данных будут бесполезны потому что они будут переполнены информацией, собранной неизвестно с какой целью. (Gartner, Strategic Planning Assumption, Gartner BI Summit, 2015).
Данные в озере могут быть неконсистентны и не иметь метаданных, поэтому реально только очень опытные аналитики, хорошо знающие контекст, смогут сливать и согласовывать данные из разных источников.
![Page 29: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/29.jpg)
Михаил Эпштейн. Информационный взрыв и травма постмодерна
Информационный взрыв таит в себе не меньшую опасность, чем демографический. .... Как выясняется к началу третьего тысячелетия, основные ресурсы общества — не промышленные или сельскохозяйственные, но информационные. Если материальное производство человечества отстает от его же материальных потребностей, то еще более отстает информационное потребление индивида от информационного производства человечества.
Это кризис не перенаселенности, а недопонимания, кризис родовой идентичности. Человечество может себя прокормить — но может ли оно себя понять, охватить разумом индивида то, что создано видовым разумом? Хватит ли человеку биологически отмеренного срока жизни, чтобы стать человеком?
Осмысление феномена Больших данных
![Page 30: Big Data: вызовы и возможности](https://reader031.vdocuments.pub/reader031/viewer/2022030307/58e986cf1a28aba6498b5dab/html5/thumbnails/30.jpg)
Контакты
Станислав Макаров
https://www.facebook.com/s.makarov15
http://www.linkedin.com/profile/view?id=1048153&trk=tab_pro
https://twitter.com/Stas_Makarov
Skype: Stanislav.Makarov