데이터 분석 방법론

72
데데데 데데 데데데 2002. 6. 25 경경경경경 경경경경경경경경경 경경경 2 2 데 데데데데데데 데데데데 데 데데데데데데 데데데데

Upload: villette-leclerc

Post on 30-Dec-2015

47 views

Category:

Documents


0 download

DESCRIPTION

제 2 회 고에너지물리 여름학교. 데이터 분석 방법론. 2002. 6. 25 경북대학교 고에너지물리연구소 조기현. 목 차. 고에너지물리 데이터 처리 방법론 Fitting 결론. 고에너지 물리. Goal. 물질의 궁극적구조의 그사이 상호작용의 연구로 우주의 기원에 대한 이해. 고에너지 물리. 방향. What is World Made of?. Atom Electron Nucleus Proton, neutron quarks. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 데이터 분석 방법론

데이터 분석 방법론

2002. 6. 25경북대학교

고에너지물리연구소 조기현

제 제 2 2 회 고에너지물리 여름학교회 고에너지물리 여름학교

Page 2: 데이터 분석 방법론

2고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

고에너지물리

데이터 처리 방법론

Fitting

결론

목 차

Page 3: 데이터 분석 방법론

고에너지 물리고에너지 물리

Page 4: 데이터 분석 방법론

4고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

고에너지 물리

물질의 궁극적구조의 그사이 상호작용의 연구로 우주의 기원에 대한 이해Goal

High Energy Physics

Unsolved Problems

Antimatter in SpaceDark Matter

Unsolved Problems

Higgs partic le(s)Q uark M ixing

etc .

Unsolved Problems

Leptoquarks

Unsolved Problems

SUSY P artic les

Symmetry and C onservation Laws

C harge C onjugation- P arity Vio lation

Existence of New Interac tions

Standard M odel(quark - lepton,

Interactions)

Unification ofInteractions

Supersym m etry

Extended M odelsCom posite M odels

방향

Page 5: 데이터 분석 방법론

5고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

What is World Made of?What is World Made of?

– Atom• Electron• Nucleus

– Proton, neutron• quarks

Page 6: 데이터 분석 방법론

6고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

How to know any of this?How to know any of this?(Testing Theory)(Testing Theory)

Page 7: 데이터 분석 방법론

7고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

How to detect?How to detect?

Page 8: 데이터 분석 방법론

8고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

How do we experiment How do we experiment with tiny particles? with tiny particles?

(Accelerators)(Accelerators) Accelerators solve two problems:

– High energy gives small wavelength to detect small particles.

– The high energy create the massive particles that the physicist want to study.

Page 9: 데이터 분석 방법론

9고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Europe - In 2007, the LHC will b

e completed at CERN - Two big experiments (A

TLAS, CMS) in collab. of HEP institutes and physicists all over the world

- CERN, IN2P3(France), and INFN(Italy) are preparing HEP Grid for it.

USA- The BaBar Exp at SLAC- The Run II of the Tevatr

on at Fermilab (CDF and D0)

- The CLEO at Cornell - The LHC experiments at

CERN (ATLAS, CMS)- The RHIC exp at BNL- The Super-K in Japan- The HEP Grid in the ES

NET program

Japan- Belle at KEK- Super-K, Kamiok

a- LHC at CERN (A

TLAS)- The RHIC at BNL

(USA)- They are now wor

king for it.

World-wide High Energy Physics Experiment

Korea We have most of these world-wide experimental programs…

한국이 국제 공동연구로 참여 중

Page 10: 데이터 분석 방법론

10고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Europe CERN

Germany DESY

US FNAL

US BNL

Space Station (ISS)

Japan KEK

China IHEP

Korea CHEP

연구내용

Page 11: 데이터 분석 방법론

11고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Where is Fermilab?Where is Fermilab?

20 mile west of Chicago

U.S.A

Fermilab

Page 12: 데이터 분석 방법론

12고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Overview of FermilabOverview of Fermilab

Main Injectorand Recycler

p source

Booster

CDF

D0

Fixed Target

Experiment

Page 13: 데이터 분석 방법론

13고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Fermi National Accelerator Laboratory

Highest Energy Accelerator in theWorld

Energy Frontier: CDF, D0 Search for New Physics (Higgs, SUSY, quark composites,…

Precision Frontier: charm, kaon, neutrino physics(FOCUS, KTeV, NUMI/MINOS,BOONE,…etc.

Connection to Cosmology: Sloan Digital sky survey, Pierre Auger,…

Largest HEP Laboratory in USA

2200 employees2300 users (researchers from univ.)Budget is >$300 million

Page 14: 데이터 분석 방법론

Data Data 처리 방법론처리 방법론

Page 15: 데이터 분석 방법론

15고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Why do we do Why do we do experiments?experiments?

Parameter determination– To set the numerical values of some physical quantities– Ex) To measure velocity of light

Hypothesis testing– To test whether a particular theory is consistent with our

data– Ex) To check whether velocity of light has suddenly

increased by several percent since beginning of this year

Page 16: 데이터 분석 방법론

16고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Type of DataType of Data

Real Data (on-site)– Raw Data : Detector Information– Reconstructed Data : Physics Information– Stream (Skim) Data : Selected interested physics

Simulated Data (on-site or off-site)– Physics generation : pythia, QQ, bgenerator, …– Detector Simulation : Fastsim, GEANT, …

Page 17: 데이터 분석 방법론

17고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

HEPKnowledge

ReactionSimulation

= EventGeneration

DetectorSimulation

Simulated Data

RealData

DataReduction

On-sites (Experimental sites)

Remote-sites (CHEP + participating institutions)

DataAnalysis

연구 방법

Page 18: 데이터 분석 방법론

18고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

오차 오차 (Error)(Error)

오차 (error)– 오차 : 계산치 또는 실제 값 사이의 차이– 실제값 (true value)

• 대체적으로 모름– 통계오차 (statistical error)

• 데이터의 통계적 요동에 의한 의한 오차– 계통오차 (systematic error)

• 장치를 옳 바로 보정하지 못하거나 관측자의 편견에 의한 오차

실험치의 표시 : 측정값 통계오차 계통오차Example ) m(top) = 175.9 4.8 5.3 GeV/c2 (CDF, 1998)

Page 19: 데이터 분석 방법론

19고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Why estimate errors?Why estimate errors? To know how accuracy of the measurement Example

– 현재의 빛의 속도 측정값 c=2.998 X 108 m/sec – 새로운 빛의 속도 측정값 c=(3.09 0.15) X 108 m/sec– Case 1. If the error is 0.15, then it is consistent.

• Conventional physics is in good shape. • 3.09 0.15 is consistent with 2.998 X 108 m/sec

– Case 2 . If the error is 0.01, then it is not consistent.• 3.09 0.01 is world shattering discovery.

– Case 3. If the error is 2, then it is consistent.• However, the accuracy of 3.09 2 is too low. • Useless measurement

Whenever you determine a parameter, estimate the error or your experiment is useless.

Page 20: 데이터 분석 방법론

20고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

How to reduce errors?How to reduce errors?

통계오차 (statistical error)– 같은 측정을 반복한다 .– N : the expected number of observation = Sqrt(N) : the spread

계통오차 (systematic error)– No exact formulae– Ideal case : All such effects should be absent.– Real world : An attempt to be made to reduce it

Page 21: 데이터 분석 방법론

21고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

How to solve systematic How to solve systematic errors?errors?

Use constraint condition– Ex) Triangle

Calibrations Energy and momentum conservation

– E(after) – E(before) = 0– |P(after)| - |P(before)| = 0

How small of the systematic error?– Systematic errors should be smaller than statistical

errors

Page 22: 데이터 분석 방법론

22고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

The meaning of The meaning of (error) (error)

분포 (distributions) x -> n(x)– Discrete

• ex) # of times n(x) you met a girl at age x– Continuous :

• ex) Hours sleep each night (x), # of people sleeping for time.

=> For an even larger number of observation and with small bin size, the histogram approach a continuous distribution.

평균 (Mean) 과 분산 (Variance)

가우스 분포 (Gaussian distribution) – Data 양이 많을 때– Error 계산에서 중요

Page 23: 데이터 분석 방법론

23고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Tracking PerformanceTracking Performance

Ks

Hit Resolution~200 m

Goal : 180 m

p

COT tracksResidual distance (cm)

Page 24: 데이터 분석 방법론

24고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

평균평균 (Mean)(Mean) 과 분산과 분산(Variance)(Variance)

실제값(True Value)

측정값(Measuremen

t)평균

(Mean) 분산

(variance) 2 s2 표준편차

(standard deviation)

s

실제로는 참값을 알 수 없는 경우가 대부분임

x

Page 25: 데이터 분석 방법론

25고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

평균평균 (Mean)(Mean) 과 분산과 분산(Variance)(Variance)

평균– N 개의 데이터가 (x1, x2, x3,… xN) 값을 가질때

분산

– 실제값을 모르므로

N

xx i

N

xs i

22 )(

1

)( 22

N

xxs i

Page 26: 데이터 분석 방법론

26고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Accuracy (Accuracy (

측정의 정확도를 나타냄

N

s

Page 27: 데이터 분석 방법론

27고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Gaussian DistributionGaussian Distribution

• 대부분 실험의 경우 Data 양이 많을 때• Gaussian distribution is the fundamental in error treatment.

Page 28: 데이터 분석 방법론

28고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

The normalized function

Mean () Width () Width () is smaller, distribution is narrower. Properties

Gaussian Distribution (cont’d)Gaussian Distribution (cont’d)

}2/)(exp{2

1 22

xy

68.0)(

dxxf

Page 29: 데이터 분석 방법론

29고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Gaussian Distribution (cont’d)Gaussian Distribution (cont’d)

• Mean () is same as zero.

• However width ( ) is different.

Page 30: 데이터 분석 방법론

30고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

CDF Secondary CDF Secondary Vertex TriggerVertex Trigger

NEW for Run 2 -- level 2 impact parameter trigger Provides access to hadronic B decays

Data from commissioning run

COT defines track SVX measures (no alignment or calibrations) at level 1 impact parameter

~ 87 m

d (cm)

Page 31: 데이터 분석 방법론

31고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Mn_fit 을 이용한

Gaussian fitting

- +

68.0)(

dxxf

Page 32: 데이터 분석 방법론

32고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

유효숫자 유효숫자 (Significant Figure)(Significant Figure)

측정값은 실험적으로 불확실한 범위 이내서만 의미를 갖는 값

유효 숫자 – 첫번째 불확실한 자리까지 포함 – LSD (least significant digit) 와 MSD(Most significant

digit) 사이의 모든 숫자• LSD

– 소수점이 없을 때 : 가장 오른쪽이 0 이 아닌 숫자 ex)23000– 소수점이 있을 때 : 가장 오른쪽 숫자 ex) 0.2300

• MSD : 가장 왼쪽의 0 이 아닌 숫자

Page 33: 데이터 분석 방법론

33고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

유효숫자 유효숫자 (Example)(Example)

•유효숫자 네 자리 : 1234, 123400, 123.4, 1000.

•유효숫자 네 자리 : 10.10, 0.0001010, 100.0, 1.010X103

•유효숫자 세 자리 : 1010 cf) 1010. ( 유효숫자 네 자리 )

Page 34: 데이터 분석 방법론

34고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

유효숫자 연산유효숫자 연산

덧셈 또는 뺄셈 – 마지막 결과의 소수부분의 자릿수는 셈에 포함된 측정값

중 가장 작은 소수점 아래– Example)

123+ 5.35-------- 128.35

1.0001 ( 유효숫자 5 자리 )

+ 0.0003 ( 유효숫자 1 자리 )

--------

1.0004 ( 유효숫자 5 자리 )

Page 35: 데이터 분석 방법론

35고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

유효숫자 연산 유효숫자 연산 (cont’d)(cont’d)

곱셈 및 나눗셈– 가장 적은 유효 숫자와 같게 – Example)

16.3 X 4.5 = 73.35 => 73

Page 36: 데이터 분석 방법론

36고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

오차의 전파 오차의 전파 II(Propagation of Errors)(Propagation of Errors)

두개 이상의 확률변수 (x1,x2, …) 로 된 함수 F(x1, x2, …) 표준편차는 다음과 같이 나타낼수 있다 . – 단 , 변수사이에 correlation 이 없을 때

...)()( )( 23

2

3

22

2

2

21

2

1

2 x

F

x

F

x

FF

Page 37: 데이터 분석 방법론

37고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

오차의 전파 오차의 전파 IIII(Propagation of Errors)(Propagation of Errors)

두개 이상의 확률변수 (x1,x2, …) 로 된 함수 F(x1, x2, …) 표준편차는 다음과 같이 나타낼수 있다 . – 단 , 변수사이에 correlation 이 있을 때

=> 앞으로 correlation 이 없는 경우만 고려

jijiji

F x

F

x

F )()(,

2

Page 38: 데이터 분석 방법론

38고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Combining ErrorsCombining Errors

덧셈 또는 뺄셈 (F=x1+x2 or F= x1-x2)

Example) x1 = 100. 10.

+ x2 = 400. 20. ----------- F = 500. 22.

Example) 측정값의 오차

22

21 F

22sysstat

Page 39: 데이터 분석 방법론

39고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Combining Errors (cont’d)Combining Errors (cont’d)

F=ax ( 단 , a 는 상수 )

Example) x =100. 10. a = 5 ------------ F = 500. 50.

aF

Page 40: 데이터 분석 방법론

40고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Combining Errors (cont’d)Combining Errors (cont’d)

곱셈 (F=x1 • x2)

Example) x1 = 100. 10.

x2 = 400. 20. ----------- F = (400. 45. ) X 102

222

22121 )/()/( xxxxF

Page 41: 데이터 분석 방법론

41고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Combining Errors (cont’d)Combining Errors (cont’d)

나눗셈 (F= x1 / x2)

Example) x1 = 100. 10.

x2 = 400. 20. ----------- F = 0.250 0.028

222

22121 )/()/()/( xxxxF

Page 42: 데이터 분석 방법론

42고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Combining results Combining results Using weighting factorUsing weighting factor

Cases– With different detection efficiencies– With different parts of apparatus– With different experiment

Page 43: 데이터 분석 방법론

43고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Combining results Combining results Using weighting factor Using weighting factor

(cont’d)(cont’d)

평균– N 개의 데이터가 (x1, x2,. ..xk,… xN) 값을 가지고– Xk 에 대한 error 가 k 라고 하면

where weighting factor

Error :

kk

kk

w

xwx

2/1 kkw

kw/12

Page 44: 데이터 분석 방법론

44고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Ex) World Average of sin(2Ex) World Average of sin(2) )

Page 45: 데이터 분석 방법론

45고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Ex) BEx) B00 lifetime summary lifetime summary

Page 46: 데이터 분석 방법론

46고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Ex) CDF BEx) CDF Bdd Mixing Mixing

Page 47: 데이터 분석 방법론

47고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Upper LimitUpper Limit

Measurement (B = Bm )

Observation (Bm> 5)

– Signal is greater than 5 sigma of error. Evidence ( 3 < Bm < 5 )

– Signal is greater than 3 sigma of error, however less than 5 sigma.

Upper Limit (3 < Bm )– Signal is less than 3 sigma.

Page 48: 데이터 분석 방법론

48고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Upper Limit BUpper Limit Bll (cont’d) (cont’d)

Method I. General Case

Measurement B = Bm Bl < Bm + 1.28 (90% CL) 1.64 (95% CL) 2.33 (99% CL)

Measurement B = Bm

Ex) Bl =(3 5) X 10-9 Bl < (3+1.28X5) X 10-9 at 90% CL

Page 49: 데이터 분석 방법론

49고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Upper Limit BUpper Limit Bll (cont’d) (cont’d)

Method 2. Negative Bm – Background Subtracted– Example)

• Bm = (-1 1) X 10-9

• Bm = ( 0 1) X 10-9

– Upper Limit at 90 % CL Level • g is Gaussian (Mean is Bm , width is )

9.0

0

0

gdB

gdBlB

Page 50: 데이터 분석 방법론

50고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Compare Upper Limit (90% Compare Upper Limit (90% CL) CL)

Bm Method 1 Method 24 5.3 5.33 4.3 4.32 3.3 3.31 2.3 2.4

0.5 1.8 2.00 1.3 1.6

-0.5 0.8 1.4-1 0.3 1.2-2 -0.7 0.8-3 -1.7 0.6-4 -2.7 0.5

Assume =1

Page 51: 데이터 분석 방법론

51고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Ex) CP Asymmetry in CharmEx) CP Asymmetry in Charm(D(D++ K K--KK++))

Cabibbo Suppressed mode

Cabbibo Favored mode

D+ KK++

D KK+

D+ K ++

D K+

( ) ( )

( ) ( )CP

D DA

D D

)(

)()(

KDN

KKDND

)(

)()(

0

0

KDN

KKDND C.F.

A=0.0060.011 0.005

A < 0.025 at 95 %CL

Page 52: 데이터 분석 방법론

Fitting Fitting

Page 53: 데이터 분석 방법론

53고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Fitting Methods Fitting Methods

Moment– Simple, but inefficiency

Maximum likelihood Method– More general case

Least Square Method– In case of statistical error

Example) (xi, yi) 인 n 개의 데이터가 y=ax+b 인 일차식으로 가정하여 fitting 하는 방법

Page 54: 데이터 분석 방법론

54고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

MomentMoment

Method is to calculate the average Simplicity Example

– 일차식

• Parameter a is

ii axy

nx

ya

i

in

i

/)(1

Page 55: 데이터 분석 방법론

55고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Maximum likelihood Maximum likelihood MethodMethod

The likelihood L

Where is the parameter to find yi is the function given variable xi

To find maximize L To maximize l= log L Normalization is essential. Ex) 일차식

n

iiyL

1

)()(

baxy ii

n

ii baybaL

1

),(),(

Page 56: 데이터 분석 방법론

56고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Maximum likelihood Maximum likelihood Method (cont’d)Method (cont’d)

The most powerful one for finding the values of unknown parameters

No histogram needed (event by event)

Efficient Method -> Most case works

We can transform one variable to anotherEx)

00 /1

Page 57: 데이터 분석 방법론

57고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Least Square Method ILeast Square Method I(( 최소자승법 최소자승법 - - 직선회귀법직선회귀법 ))

(xi, yi) 인 n 개의 데이터가 y=ax+b 인 일차식으로 가정하여 fitting 하는 방법

가정하는 직선과 데이터가 최소가 되도록 a 와 b 를 구한다 . 즉 Q를 아래처럼 두면

다음식을 만족하는 a 와 b 를 구한다 .

i

ii ybxaQ 2)(

0 & 0

b

Q

a

Q

Page 58: 데이터 분석 방법론

58고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Least Square Method IILeast Square Method II(( 최소자승법최소자승법 -- 일반적 경우일반적 경우 ))

선형 최소자승법– m 개의 미지변수 (a1, a2, a3,… am)

– F(x)=a1f1(x)+a2f2(x)+ + am fm(x)– 직선 최소 자승법과 같음– m 개의 연립방정식의 해

비선형 최소자승법– Taylor 시리즈로 전개하여 선형으로 바꾸어서 계산

Page 59: 데이터 분석 방법론

59고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Least Square Method Least Square Method (Example)(Example)

Mn_fit used Least Square Method

Signal is gaussian. Background is Chebyshe

v polynomial.

Page 60: 데이터 분석 방법론

60고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Maximum Likelihood vs.Maximum Likelihood vs. Least Square Method Least Square Method

Maximum like. Least Square

How easy Normalization and maximization can be

messy

Needs minimization

Efficiency Usually most efficient Sometime equivalent to max.

like.Input data Individual events HistogramsEstimate of

goodness of fitVery difficult Easy

Zero event Cover well Troublesome

Page 61: 데이터 분석 방법론

61고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

X-Y plane Errors in y-direction are Gaussian X-values are precisely determined

The maximum likelihood and the least square methods are equivalent.

Example) Mass distributions

Maximum Likelihood =Maximum Likelihood = Least Square Method Least Square Method

Page 62: 데이터 분석 방법론

62고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Fitting PackageFitting Package

PAW

Mn_fit

Root

……

Page 63: 데이터 분석 방법론

63고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

PAW PAW

Physics Analysis Workstation Inside of CERN library Ntuple – n dimensional variables Good to make histogram Include some fitting

Page 64: 데이터 분석 방법론

64고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Page 65: 데이터 분석 방법론

65고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Mn_fitMn_fit

Using fitting program in minuit at CERN library Powerful for fitting Easily check the results whether the fitting resul

ts are good or not.

Page 66: 데이터 분석 방법론

66고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Page 67: 데이터 분석 방법론

67고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

mn_fit (example)mn_fit (example)

Signal is Gaussian

Maximum likelihood is same as least square method

Page 68: 데이터 분석 방법론

68고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

ROOT ROOT

To Handle large data

An object oriented HEP analysis Framework

ROOT was created by Rene Brun and Fons Rademakers in CERN

The ROOT system website is at http://root.cern.ch/

KimJieun

Page 69: 데이터 분석 방법론

69고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

Differences from PAW Differences from PAW

Regular grammar (C++) on command line Single language (compiled and interpreted) Object Oriented (use your class in the interpreter) Advanced Interactive User Interface Well Documented code. HTML class descriptions for every

class. Object I/O including Schema Evolution 3-d interfaces with OpenGL and X3D.

Page 70: 데이터 분석 방법론

70고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

ROOT exampleROOT example

Page 71: 데이터 분석 방법론

71고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

결론

자료처리 방법론은 중요 물리학에서 중요

Welcome to KNU! Go Final!

Ref.– Louis Lyons, Statistics for nuclear and particle physicists (Cambridge Press)

Page 72: 데이터 분석 방법론

72고에너지물리연구센터 2002. 6. 25. CENTER FOR HIGH ENERGY PHYSICS

도움말

PAW 와 ROOT 는 아래에서 프로그램 , 매뉴얼 그리고 예제를 배포하고 있읍니다 .

PAW : http://wwwinfo.cern.ch/asd/paw/ ROOT : http://root.cern.ch