Андрей Устюжанин - Технологии обработки данных из...

51
Андрей Устюжанин Обработка больших данных БАК 18 октября 2014

Upload: yandex

Post on 30-Nov-2014

216 views

Category:

Documents


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Андрей Устюжанин

Обработка больших данных БАК

18 октября 2014

Page 2: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Из чего сделана наша вселенная?

Универсальные законы?

Что такое антиматерия? темная материя?

Как происходит переход от законов микро-мирак законам макро-мира?

2

Вопросы «на миллион»

Page 3: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Гипотезы => Эксперименты => Законы

3

F=ma

E=mc2

Стандартная модель

Суперсимметричная модель частиц

Гравитоны?

Page 4: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Экспериментальная наука «тогда»

4

Page 5: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Эксперименты «сегодня»

5

Page 6: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Открытие бозона Хиггса

6

Page 7: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Заголовок (не длинней одной строки)

7

Page 8: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Заголовок (не длинней одной строки)

8

Page 9: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Заголовок (не длинней одной строки)

9

Page 10: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

A simulated SUSY event in ATLAS

10

high pT muons

high pT jets of hadrons

missing transverse energy

p p

Page 11: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Background events

11

This event from Standard Model ttbar production also has high pT jets and muons, and some missing transverse energy.

→ can easily mimic a SUSY event.

Page 12: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Event (событие)

12

Basic unit of data: an ‘event’.

Ideally, an event is a list of momentum vectors & particle types.

In practice, particles ‘reconstructed’ as tracks, clusters of energy, deposited in calorimeters, etc.

Resolution, angular coverage, particle id, etc. imperfect.

Page 13: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

«In Monte-Carlo we trust!»

13

Page 14: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

14

1 событие - 150 Kb

1 год ~ 10 Pb

Генерация событий

Page 15: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Выбор событий для проверки гипотез

15

For each event we measure a set of numbers: ( )nx,,x=x …1!

x1 = jet pT x2 = missing energy x3 = particle i.d. measure, ...

x follows some n-dimensional joint probability density, which depends on the type of event produced, i.e., was it ,ttpp→ …→ ,g~g~pp

xi

x jE.g. hypotheses H0, H1, ... Often simply �signal� (s), �background� (b)

( )1H|xp!

( )0H|xp!

Page 16: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Выбор оптимальных ограничений

16

In particle physics usually start by making simple �cuts�:

xi < ci xj < cj

Maybe later try some other type of decision boundary:

H0 H0

H0

H1

H1 H1

Page 17: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Выборка событий

17

To search for events of a given type (H0: ‘signal’), need discriminating variable(s) distributed as differently as possible relative to unwanted event types (H1: ‘background’)

Count number of events in acceptance region defined by ‘cuts’

Expected number of signal events: s = !s !s L

Expected number of background events: b = ! b !b L

!s, !b = cross section for signal, background

‘Efficiencies’: !s = P( accept | s ), !b = P( accept | b )

L = integrated luminosity (related to beam intensity, data taking time)

Page 18: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Фоновые события

18

Count n events, e.g., in fixed time or integrated luminosity.

s = expected number of signal events

b = expected number of background events

n ~ Poisson(s+b):

Sometimes b known, other times it is in some way uncertain.

Goals: (i) convince people that s ≠ 0 (discovery); (ii) measure or place limits on s, taking into consideration the uncertainty in b.

Widely discussed in HEP community, see e.g. proceedings of PHYSTAT meetings, Durham, Fermilab, CERN workshops...

Page 19: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Открытия

19

Often compute p-value of the ‘background only’ hypothesis H0 using test variable related to a characteristic of the signal.

p-value = Probability to see data as incompatible with H0, or more so, relative to the data observed.

Requires definition of ‘incompatible with H0’

HEP folklore: claim discovery if p-value equivalent to a 5! fluctuation of Gaussian variable (one-sided)

Actual p-value at which discovery becomes believable will depend on signal in question (subjective)

Why not do Bayesian analysis?

Usually don’t know how to assign meaningful prior probabilities подробнее на

http://www.pp.rhul.ac.uk/~cowan

Page 20: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

20

Analysis Value Chain

Get datasets (Real, MC, ...)

Pre-selection

testtrain

Pre-processing (e.g., add variables)

Event selection

cut-based

MVA-based

Counting/fitting

Systematics Estimation

Signifiсance Estimation

В поисках лучшей выборки…

Page 21: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Возможности улучшения

21

more powerful algorithms (e.g. BDT, Deep Neural Networks)

improved features (e.g. «isolation» variables or particle identification)

complex training scenarios (e.g. n-folding, ensembling, blending, cascading)

Саша Фонарёв: https://tech.yandex.ru/education/m/shad/talks/1423/ Максим Мусин: https://tech.yandex.ru/education/m/shad/talks/1878/

Page 22: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Возможности улучшения

22

more powerful algorithms (e.g. BDT, Deep Neural Networks)

improved features (e.g. «isolation» variables or particle identification)

complex training scenarios (e.g. n-folding, ensembling, blending, cascading)

Саша Фонарёв: https://tech.yandex.ru/education/m/shad/talks/1423/ Максим Мусин: https://tech.yandex.ru/education/m/shad/talks/1878/

Page 23: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

23

OverfittingDecision Tree Underfitting RandomForest

Number of iterations

Training set accuracy

Test set accuracy

Performance (ROC, Learning curve)

Page 24: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

24

Алгоритмы, реализацииFamilies:

– Boosted Decision Trees (BDT)

– Artificial Neural Network (ANN)

– Support Vector Machine (SVM)

– Clustering, Bayesian Networks, ...

Implementations

– TMVA (60+ algorithms)

– NeuroBayes

– python scikit-learn

– R packages

– Private (Matrixnet, predict.io)

– XGBoost, …

Page 25: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Price for sensitivity

How do I check quality of event discriminating function?

– Overfitting?

– Correlations?

– Relevance of figure of merit to analysis significance?

How do I deal with complexity?

– Estimate influence of model parameters

– Extra computation

– Organization (cross-checks, collaboration)

25

Page 26: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Переобучение

26

training sample independent validation sample

If decision boundary is too flexible it will conform too closely to the training points → overtraining. Monitor by applying classifier to independent validation sample.

Page 27: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Figure-of-Merits Land

Area under ROC

Likelihood

Misclassification

False Positive, False Negative

Punzi measure

27

SpS+B

, SpB, · · ·

Efficiency flatness?

Page 28: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

28

Page 29: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Не только физика

29

Online triggers and DAQ

Offline simulation and processing

Data storage architectures

Resource management and provisioning

Data analytics

Networks and connectivity

Page 30: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Page 31: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Page 32: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Page 33: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Page 34: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Skynet

Page 35: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Использование ресурсов GRID

Page 36: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

«Узкие» места GRID

Сложность (высокая стоимость) перенастройки

Фиксированные настройки окружения

Дорогое масштабирование

Опалата времени, а не фактических вычислений

36

Page 37: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Облачные технологии

Предоставление вычислительной инфраструктуры как сервиса

Виртуализация аппаратных ресурсов

Динамическое выделение ресурсов под конкретные нужды

Оплата только за фактическое использование

Широка поддержка open-source & commercial (Amazon EC2, Rackspace OpenStack, T-Systems, Helix Nebula, …)

37

Page 38: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Облачные технологии

38

Applica'ons+Run+Na'vely+in#Hadoop+

HDFS2+(Redundant,*Reliable*Storage)*

YARN+(Cluster*Resource*Management)***

BATCH+(MapReduce)+

INTERACTIVE+(Tez)+

STREAMING+(Storm,+S4,…)+

GRAPH+(Giraph)+

INLMEMORY+(Spark)+

HPC+MPI+(OpenMPI)+

ONLINE+(HBase)+

OTHER+(Search)+(Weave…)+

Page 39: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

YARN

39

Page 41: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Пример Panda & ATLAS (http://bit.ly/UtlQxM)

41

Page 42: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Примеры задач

Симуляция событий (MC)

Поиск реальных и MC-событий

Онлайн анализ

Офлайн анализ

Сохранение данных (интерфейс доступа)

Сохранение кода и структуры анализа

42

Page 43: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Анализ данных

Page 44: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Индикаторы сложности

‘Каким способом я сгененировал график 13?’

‘Новый студент хочет воспользоваться моделью, опубликованной мной 3 года назад, но я не могу воспроизвести ни одного графика’

‘Я думал, что использую те же параметры, но у меня получаются другие результаты!?I’

‘Где взять события, отобранные предыдущей версией моих скриптов?’

‘Оно работало еще вчера!’

‘Зачем я это сделал?’

44

Page 45: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Источники сложности

Физика

Работа с данными

Стратегия анализа (http://bit.ly/SqDDE4)

Шаги анализа

Командное взаимодействие

45

Page 46: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Экосистема для экспериментов

Программная среда для поддержки экосистемы совместной исследовательской работы над общими задачами, позволяющая:

выполнять численные эксперименты над большими объемами данных

получать воспроизводимые результаты,

использовать единообразные критерии качества.

46

Page 47: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

ROOT PyROOT

Plotly, D3s

Matplotlib SciKit-Learn

EF Python Wrapper

!!!!!

EF0

47

MN

Page 48: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Основные компоненты

48

Page 49: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Текст перед кодом:

self.rsp.removeHeader("Transfer-Encoding");

Заголовок (не длинней одной строки)

49

Page 50: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Заключение

50

Page 51: Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

Заключение Вместо заключения

совместные исследовательские работы с ЦЕРНом

развитие нового направления

практика в Яндексе

[email protected]

51

Bs ! µ+µ�

Bs ! 4µ⌧ ! 3µB ! K⇤µ+µ�

· · ·

http://arxiv.org/abs/1410.4140v1