bayesian and likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · •...

59
: داده مدلسازی کارگاهBayesian and Likelihood analysis موحدصادقحمد سیدم بهشتی شهیدنشگاه دا- زیک فیانشکده د(IPM) ادی بنینشهای داشگاه پژوهزیک، فیشکده پژوه(GCC-SBU) محاسباتی شناسی کیهان گروه سینا ابن ای رشته میان آزمایشگاهhttp://facultymembers.sbu.ac.ir/movahed/ (۱ شماره) داده مدلسازی کارگاه۹۷/۲/۲۶ 1

Upload: others

Post on 25-May-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

کارگاه مدلسازی داده:

Bayesian and Likelihood analysis

سیدمحمدصادق موحددانشکده فیزیک - دانشگاه شهید بهشتی

(IPM‌) پژوهشکده فیزیک، پژوهشگاه دانشهای بنیادی(GCC-SBU) گروه کیهان شناسی محاسباتی

آزمایشگاه میان رشته ای ابن سیناhttp://facultymembers.sbu.ac.ir/movahed/

کارگاه مدلسازی داده ( شماره ۱)‌۹۷/۲/۲۶

1

Page 2: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

مهمترین منابع مورد استفاده

Books:

2

• Data analysis: A Bayesian Tutorial, by D.S. Sivia & J. Skilling, Oxford science Publication, 2010

• Data reduction and error analysis for the physical sciences, P. R. Bevington & D. K. Robinson, McGrawHill, 2003

• Error of Observations and their Treatment, J. Topping, 1972.

• Practical Physics, G. L. Squires, 1985.

• Data analysis in cosmology, “Lecture notes in physics 665”

• Mathematical statistics with applications, J.E. Freund’s, Pearson education, 2005,

• All of Statistics, L. Wasserman, Springer, 2004

• Statistics, R.J. Barlow, Wiley, 2002.

• Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech, 2010.

• Statistics, Data Mining, and Machine Learning in Astronomy: A Practical Python Guide for the Analysis of Survey Data (Princeton Series in Modern Observational Astronomy), Željko Ivezic ,́ Andrew J. Connolly,Jacob T. VanderPlas, and Alexander Gray, PRINCETON UNIVERSITY PRESS, 2014

• Algebraic Topology of Random Fields and Complexes, Research thesis, Omer Bobrowski, 2012

• Random Fields and Geometry, Adler, R. J., Taylor, Jonathan E., Springer 2007.

• The Geometry of Random fields, Adler, 1981.

• GEOMETRY, TOPOLOGY and Physics, M. Nakahara, 2003

• Topological Complexity of Smooth Random Functions, Robert J. Adler, Jonathan E. Taylor, Springer 2009.

Page 3: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

مهمترین منابع مورد استفاده

• Verde, Licia. "A practical guide to basic statistical techniques for data analysis in cosmology." arXiv preprint arXiv:0712.3028 (2007).

• Verde, Licia. "Statistical methods in cosmology." Lectures on Cosmology. Springer, Berlin, Heidelberg, 2010. 147-177.

• Liddle, Andrew R. "How many cosmological parameters." Monthly Notices of the Royal Astronomical Society 351.3 (2004): L49-L53.

• Heavens, Alan. "Statistical techniques in cosmology." arXiv preprint arXiv:0906.0664 (2009).

• Efron, Bradley. "Bayesians, frequentists, and physicists." PHYSTAT2003: Statistical Problems in Particle Physics, Astrophysics, and Cosmology, SLAC, Stanford CA (2003): 17-24

• arXiv:physics/0406120

• http://facultymembers.sbu.ac.ir/movahed/

Papers and Lectures:

3

Page 4: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

مهمترین منابع مورد استفاده

4

Page 5: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

۱) مقدمه ۲) روش بیزی و تکراری مبتنی بر مفهوم کالسیک احتمال

۳)‌ بیشینه سازی تابع درست نمایی ۴) بررسی میزان کیفیت مدل در مقایسه با داده ها

۵)‌ تراز تطابق۶)‌ رهیافت هایی برای یافنت بیشینه مطلق تابع درست نمایی

-MCMC-HMC- Gradian

۷)‌ جمع بندی

Page 6: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

6

مقدمه

Page 7: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

مدل کردن داده های حاصل از اندازه گیری Data modeling

۱) منشاء و ماهیت۲) چگونگی تحول

۳) احتماالً پیش بینی..

از داده ها چه چیزهایی یاد می گیریم؟

7

Page 8: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

مدل کردن داده های حاصل از اندازه گیری Data modeling

8

Page 9: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

مراحل مدل کردن داده ها( Measurment ) (مستقیم یا شبیه سازی ) ۱) اندازه گیری

Error) ۲) برآورد خطا و ارزیابی انتشار خطا بر روی کمیت های ثانویه(estimation and error propagation

۳) تدوین مدل با توجه به تابع مناسب (model selection) (Merit function)۴) انتخاب بینش تعیین مقادیر آزاد مدل

(Bayesian or Frequentist) ۵) استفاده از روشهای تعیین مقادیر کمیت های آزاد مدل و البته حوزه

اعتبار آنها(Parameter estimation and confidence interval)

Goodness of fit ۶) تعیین خوبی مدل

9

Page 10: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

تعیین مقدار برای کمیتهای آزاد Bayesian رهیافت

۱) در این روش داده ها و نتایج بخشی از یک آنسامبل هستند

۲) کمیت های آزاد مدل مجهول هستند که ما تنها به صورت احتمالی می توانیم مقدار آنها را تعیین کنیم

۳) هر گونه اطالعات اولیه در این رهیافت قابل استفاده هستند

۴) سازوکاری برای رهایی از کمیتهای اضافی (Nuisance) دارد

Frequentist رهیافت۱) در این روش داده ها و نتایج

ریزحالت یک پیکربندی به حساب می آیند و داده ها تکرار پذیرند

۲) کمیت های مدل مجهول ولی ثابت هستند

۳) هیچ گونه اطالعی از مدل مورد استفاده نیست

۴) سازوکاری برای رهایی از کمیتهای اضافی (Nuisance) ندارد

10

Page 11: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

منطق قیاسیDeductive logic: Frequentist

منطق استقراییInductive logic: Bayesian

مقادیر ممکنمشاهدات برای پارامترهای

مدل مقدار ثابتبرای مدل

مشاهدات

11

مشاهده مبتنی بر واقعیت های شناخته شده که در کنار هم قرار می گیرند و نهایتا به

نتیجه می رسند. انسانها فانی هستند سقراط انسان است لذا سقراط فانی است

مشاهده رفتار تک تک اجزا منجر به قانون کلی می شود. تمام

انسانهای مشاهده شده فانی بودند در نتیجه انسان فانی است

Page 12: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

x

Rela

tive

Lik

eli

hood

0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

frequentist بر اساس نگرشبرای مثال ۹۰ درصد

x مشاهدات به مقدار ثابتمنجر شده است

بر اساس نگرش Bayesian با احتمال ۹۰ درصد مقدار دقیق کمیت x دراین بازه قرار می گیرد

12

Page 13: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

A history about Bayesian strategy

By Thomas Bayes (1702-1761)

Pierre Simon Laplace (1812)

Fisher, Neyman, Wald,...

Gelfand and Smith (1990)

Now

13

Page 14: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

هرچند که این ایده بسیار قدیمی است اما استفاده کاربردی از آن در دو دهه اخیر آغاز شده است چرا؟

با توجه به روشها می توان دریافت در روش Bayesian میزان و حجم محاسبات به مراتب بیشتر است بنابراین تا گسترش سخت افزار ها این ایده به تعویق افتاد

14

Page 15: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

D : {xi , yi} i = 1,..., N

Θ : {θ j} j = 1,..., M → Y (x,Θ) = θ j f j (x)

j=1

M

p(Θ | D)

p(D |Θ)

p(Θ)

Bayesian approach

برای مثالیک مدل

مشاهدات: داده ها

احتمال یافنت مدل به شرطی که داده ها به دست آمده باشند. با چه احتمالی Posterior مشاهدات به مدل منجر میشود

احتمال به دست آمدن مشاهدات به شرطی که مدل مشخص باشد. مدل مشخص با Likelihood .چه احتمالی مشاهدات را به دست می دهد

هر گونه اطالعات اولیه در مورد مقادیر کمیتهای مدل در این تابع توزیع وجود دارد. Prior

15

Page 16: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

p(Θ | D) =p(Θ, D)

p(D)=

p(D,Θ)

p(D)=

p(D |Θ)p(Θ)

p(D)

p(D) = dΘ p(D,Θ) =∫ dΘ p(D |Θ)p(Θ)∫

p(Θ | D) =p(D |Θ)p(Θ)

dΘ p(D |Θ)p(Θ)∫

در حالتی که اطالعات اولیه ای برای کمیت های مدل نداشته باشیمPosterior=Likelihood

16

Page 17: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

مثال: فرض کنید که برای یک دسته مشاهده داده شده، دو مدل داریم . کدامیک بامثال احتمال بیشتری انتخاب می شوند؟

17

ویژگی های رهیافت بیزی

Page 18: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

D : {xi , yi}

Θ1

Θ2

p(Θ1| D) =

p(D |Θ1)p(Θ

1)

dΘ p(D |Θ1)p(Θ

1)∫

p(Θ2

| D) =p(D |Θ

2)p(Θ

2)

dΘ p(D |Θ2)p(Θ

2)∫

p(Θ1| D)

p(Θ2

| D)=

p(D |Θ1)p(Θ

1)

dΘ p(D |Θ1)p(Θ

1)∫

p(D |Θ2)p(Θ

2)

dΘ p(D |Θ2)p(Θ

2)∫

=p(D |Θ

1)p(Θ

1)

p(D |Θ2)p(Θ

2)

if p(Θ1) = p(Θ

2)

مدلی که درست نمایی بزرگتری داشته باشد با احتمال بیشتری توسط داده ها انتخاب می شود

18

مــثال: فــرض کــنید کــه بــرای یــک دســته مــشاهــده داده شــده، دو مــدل داریــم . کــدامــیک بامثال احتمال بیشتری انتخاب می شوند؟

(I) ویژگی های رهیافت بیزی

Page 19: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

بهبود توزیع احتمال پارامترهای مدل

D1 : {xi , yi}

Θ : {θ j}

p(Θ | D1) =

p(D1|Θ)p(Θ)

dΘ p(D1|Θ)p(Θ)∫

p(Θ | D1)

p(ΘD1| D

2) =

p(D2

|ΘD1)p(Θ | D

1)

p(D2

| D1)

p(D2

|ΘD1) =

p(D2,D

1|Θ)

p(D1|Θ)

p(ΘD1| D

2) =

p(D2,D

1|Θ)

p(D1|Θ)

×p(D

1|Θ)p(Θ)

p(D1)

×1

p(D2

| D1)

=p(D

2,D

1|Θ)p(Θ)

p(D1,D2 )

به عنوان تابع اطالعات اولیه در تحلیل جدید به حساب می آید

یعنی مشاهدات جدید را برای نتایج به دست آمده با مشاهدات قدیمی به کار برده تا نهایتاً مقادیر کمیت ها به دست آیند

19

(II) ویژگی های رهیافت بیزی

Page 20: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

بیسکویت و شکالتفرض کنید دو کاسه کامالً شبیه به هم داریم. کاسه A دارای ۱۰ شکالت و ۳۰ بیسکویت است

و کاسه B شامل ۲۰ عدد از هر کدام است.سوال : با چه احتمالی بیسکویت از کاسه A انتخاب می شود؟

P(θA | x) =P(x |θA )P(θA )

p(x)=

P(x |θA )P(θA )

p(x |θA )p(θA ) + p(x |θB )p(θB )

p(θA ) = p(θB ) = 1 / 2

p(x |θA ) =30

40

p(x |θB ) =20

40

P(θA | x) = 0.6

P(θB | x) = 0.4

چون دو کاسه (مدل) شبیه به هم هستند

احتمال مشاهده شدن بیسکویت از کاسه A بیشتر است

20

Page 21: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

کاسه B زیباتر از A است پس مشاهده گر بیشتر گرایش به انتخاب کاسه B دارد پس:

P(θA | x) =P(x |θA )P(θA )

p(x)=

P(x |θA )P(θA )

p(x |θA )p(θA ) + p(x |θB )p(θB )

p(θA ) =1

4

p(θB ) =3

4

p(x |θA ) =30

40

p(x |θB ) =20

40

P(θA | x) = 0.34

P(θB | x) = 0.66 احتمال مشاهده شدن بیسکویت از کاسه B بیشتر است21

Page 22: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

اکنون به دنبال این هستیم کهPosterior

را بیشینه کنیم

این رهیافت دقیقاً معادل یافنتBest value for free parameters

22

Page 23: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

Posterior بیشینه سازی تابع

D : {xi , yi} i = 1,..., N

Θ : {θ j} Y (x;{Θ}) = θk fk (x)

k=1

M

p(Θ | D) =p(D |Θ)p(Θ)

dΘ p(D |Θ)p(Θ)∫if p(Θ) = ctsp(Θ | D) : p(D |Θ)

p(D |Θ) ≡ Pi =i=1

N

∏1

2πσ i2

exp −yi −Y (xi;{Θ})[ ]2

2σ i2

⎝⎜

⎠⎟

i=1

N

χ 2({Θ}) ≡

yi −Y (xi;{Θ})[ ]2

σ i2

i=1

N

∑ =

yi − θk fk (xi )

k=1

M

∑⎡

⎣⎢

⎦⎥

2

σ i2

i=1

N

p(D |Θ) : e−χ2

({Θ})

2

در صورتی که تابع prior وجود نداشته باشد در نتیجه تحلیل posterior به تحلیل Likelihood تبدیل می شود

بیشینه شدن Likelihood معادل با کمینه شدن chi^2 است

۱) با فرض اینکه اندازه گیری ها از یکدیگر مستقل باشند

۲) با توجه به قضیه حد مرکزی می توان در نظر گرفت که هر نقطه اندازه گیری حول مقدار

بهینه اش به صورت گوسی توزیع شده است

23

Page 24: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

χ 2({Θ}) ≡

yi − θk fk (xi )

k=1

M

∑⎡

⎣⎢

⎦⎥

2

σ i2

i=1

N

bi ≡yi

σ i

Aik ≡fk (xi )

σ i

Min b − AΘ →ΘBest

Normal EquationsSingular Value Decomposition(SVD)

24

Page 25: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

chi^2 کمینه کردن

χ 2({Θ}) =

yi − θk fk (xi )

k=1

M

∑⎡

⎣⎢

⎦⎥

2

σ i2

i=1

N

∑ → χ 2({Θ} = {Θ}Best ) = χ

min

2

∂χ 2({Θ})

∂θ j{Θ}={ΘBest }

= 0

= yi − θk fk (xi )

k=1

M

∑⎡

⎣⎢

⎦⎥

i=1

N

∑ ×f j (xi )

σ i2

yi f j (xi )

σ i2

i=1

N

∑ =θk fk (xi ) f j (xi )

σ i2

k=1

M

∑i=1

N

β j ≡yi f j (xi )

σ i2

i=1

N

α jk ≡f j (xi ) fk (xi )

σ i2

i=1

N

β j = α jkθkk=1

M

Θ[ ] = α[ ]−1 β[ ]25

Page 26: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

اکنون سوال این است که حوزه اعتبار کمیت Θ چقدر است؟

β j ≡yi f j (xi )

σ i2

i=1

N

α jk ≡f j (xi ) fk (xi )

σ i2

i=1

N

Θ[ ] = α[ ]−1 β[ ]

σ 2(θi ) = σ j

2∂θi

∂yj

⎝⎜

⎠⎟

2

+∂θi

∂yj

⎝⎜

⎠⎟∂θi

∂yl

⎝⎜⎞

⎠⎟Cov yj yl( )

l≠ j

N

∑j=1

N

∑j=1

N

∑ →∂θi

∂yj

⎝⎜

⎠⎟ = α ik[ ]−1 ∂βk

∂yjk=1

M

∂θi

∂yj

⎝⎜

⎠⎟

2

= α ik[ ]−1α il[ ]−1 ∂βk

∂yj

∂βl

∂yjk=1

M

∑l=1

M

σ 2(θi ) = α ik[ ]−1

α il[ ]−1σ j

2∂βk

∂yj

∂βl

∂yjj=1

N

∑k=1

M

∑l=1

M

∑ → σ 2(θi ) = α ik[ ]−1

α il[ ]−1α kl[ ]

k=1

M

∑l=1

M

→ α il[ ]−1α kl[ ]

k=1

M

∑ = δ ik

σ 2(θi ) = α ii[ ]−1

26

Page 27: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

polynomial function

D : {xi , yi}→ i = 1,..., NΘ : {θk} → k = 1,..., M → Y (x;Θ) = θ

1+θ

2x1 + ...+θM xM −1

P(D |Θ) = P(Di |Θ) =i=1

N

∏1

σ i 2π

⎝⎜⎞

⎠⎟exp −

1

2

yi − θk xik−1

k=1

M

∑⎡

⎣⎢

⎦⎥

2

σ i2

i=1

N

⎜⎜⎜⎜

⎟⎟⎟⎟

i=1

N

for M = 3 χ 2(θ

1,θ

3,θ

3) =

yi − θk xik−1

k=1

3

∑⎡

⎣⎢

⎦⎥

2

σ i2

i=1

N

0 =∂χ 2

(θ1,θ

2,θ

3)

∂θ1

= −2

yi − θk xik−1

k=1

3

∑⎡

⎣⎢

⎦⎥

σ i2

i=1

N

0 =∂χ 2

(θ1,θ

2,θ

3)

∂θ2

= −2 xi

yi − θk xik−1

k=1

3

∑⎡

⎣⎢

⎦⎥

σ i2

i=1

N

0 =∂χ 2

(θ1,θ

2,θ

3)

∂θ3

= −2 xi2

yi − θk xik−1

k=1

3

∑⎡

⎣⎢

⎦⎥

σ i2

i=1

N

∑27

Page 28: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

θ1

=1

Δ

yi

σ i2

i=1

N

∑xi

σ i2

xi2

σ i2

i=1

N

∑i=1

N

yixi

σ i2

i=1

N

∑xi

2

σ i2

xi3

σ i2

i=1

N

∑i=1

N

yixi

2

σ i2

i=1

N

∑xi

3

σ i2

xi4

σ i2

i=1

N

∑i=1

N

θ2

=1

Δ

1

σ i2

i=1

N

∑yi

σ i2

xi2

σ i2

i=1

N

∑i=1

N

xi

σ i2

i=1

N

∑ yixi

σ i2

xi3

σ i2

i=1

N

∑i=1

N

xi2

σ i2

i=1

N

∑ yixi

2

σ i2

xi4

σ i2

i=1

N

∑i=1

N

θ3

=1

Δ

1

σ i2

i=1

N

∑xi

σ i2

yi

σ i2

i=1

N

∑i=1

N

xi

σ i2

i=1

N

∑xi

2

σ i2

yixi

σ i2

i=1

N

∑i=1

N

xi2

σ i2

i=1

N

∑xi

3

σ i2

yixi

2

σ i2

i=1

N

∑i=1

N

Δ =

1

σ i2

i=1

N

∑xi

σ i2

xi2

σ i2

i=1

N

∑i=1

N

xi

σ i2

i=1

N

∑xi

2

σ i2

xi3

σ i2

i=1

N

∑i=1

N

xi2

σ i2

i=1

N

∑xi

3

σ i2

xi4

σ i2

i=1

N

∑i=1

N

28

Page 29: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

29

Goodness of fitکیفیت برازش

Page 30: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

یک سوال مهم: برای مقدار مشخص به دست آمده برای chi^2 احتمال اینکه مشاهده ای داشته باشیم که به تطابق بدتر منجر شود چقدر است؟

P(χ 2;ν)

χ 2

χobs2

P<Pobs: P

χ2 >χobs2 = P(χ 2

;ν)dχ 2

χobs2

+∞

∫ =1

2Q −

ν − 2

2,χ 2

2

⎝⎜⎞

⎠⎟

ν = N − M

تابع بتای ناکامل

30

Page 31: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

۱) در تحلیل ها یک مقدار برای احتمال بدتر بودن در نظر گرفته می شود . بعد اگر داشته باشیم:

در آن صورت ادعا می شود که با احتمال اندازه گیری هایی خواهیم داشت که با این مدل به  chi^2 ای بیشتر منجر می شود. به بیانی دیگر این مدل با

احتمال مشاهده و اندازه گیری ها را تو صیف نمی کند.

۲) اگر داشته باشیم در آن صورت مدل به خوبی مشاهدات را توصیف کرده است. یعنی تفاوت مدل و مشاهدات معنا دار نیست.

۳) اگر داشته باشیم در آن صورت یا خطاهای مشاهدات خیلی بزرگتر از مقدار واقعی اش محاسبه شده اند یا که داده سازی شده است

χobs2 ≈ χα

2

α ×100

χobs2 > χα

2

برای رهایی از حالت ۳ بهتر است رهیافت دیگری را مد نظر بگیریم

31

(1−α ) ×100

!" #$L&' ()* F8- ./ .@52 .@+ 7$$-&B 75+3 7I 3 ,- !<8 7*=/-/ ,- .7<58- #-&* #7$0.2.txt '

0. .txt!" =/7:6C-.7$52

2 2obs αχ χ≪

Page 32: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

32

وقتی بخواهیم که یک مدلی را تا احتمال ۹۵ درصد تایید کنیم یعنی اینکه با احتمال ۹۵ درصد با همین مدل به chi^2 بزرگتر برسیم

وقتی بخواهیم که یک مدلی را تا احتمال ۹۵ رد کنیم یعنی اینکه با احتمال ۵ درصد باید با همین مدل به chi^2 بزرگتر برسیم

Page 33: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

در نظر می گیریم که وضعیت بهینه موقعی است که درصورتی اندازه گیری را دوباره تکرار کنیم به مقدار chi^2 محتمل برسیم بنابراین عالقه مندیم که احتمال برابر با ۵۰ درصد باشد بنابراین نه احتمال کم نه

احتمال زیاد (معادل داده سازی یا غلط بودن واریانسها)

P(χ 2;ν)

χ 2

χobs2

P<Pobs: 2P

χ2 >χobs2 = 2 P(χ 2

;ν)dχ 2

χobs2

+∞

∫ = Q −ν − 2

2,χ 2

2

⎝⎜⎞

⎠⎟

ν = N − M تابع بتایناکامل

33

Page 34: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

یک قاعده سرانگشتی برای بررسی میزان تطابق مدل با اندازه گیری

P(χ 2;ν) =(χ 2

)−

(ν −2)

2 exp(−χ 2/ 2)

2ν /2Γ(ν / 2)

for ν >> 1

P(χ 2;ν)→ PGaussian : exp[χ 2 −ν]

2

2(2ν)

⎝⎜⎞

⎠⎟

χ 2 = ν ± 2ν → χν2 ≡

χ 2

ν= 1 ±

2

ν

34

Page 35: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

W.-M. Yao et al., Journal of Physics G 33, 1 (2006)

35

Page 36: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

W.-M. Yao et al., Journal of Physics G 33, 1 (2006)36

Page 37: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

محدویت توضیحات قبلی وقتی خواهد بود که تابع توزیع هر اندازه گیری گوسی نباشد بنابراین با تابع توزیع chi^2 مواجه نیستیم. نه اینکه نمی توانیم از chi^2 استفاده کنیم بلکه بحث در خصوص تابع توزیع است بنابراین باید ابتدا با کمک تبدیل تابع توزیع شکل تابع توزیع مانده را

بدست آوریم و بعد مانند قبل به محاسبه بپردازیم

37

Page 38: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

تراز تطابق (Confidence interval)

۱) دیدیم که اگر مشاهدات مستقل و حول مقدار بهینه کمیت های مدل به صورت گوسی توزیع شده باشند نهایتاً به کمیت chi^2 می رسیم. با کمینه کردن این کمیت تابع

Likelihood بیشینه می شود. ۲)‌ بیشینه شدن تابع درست نمایی معادل یافنت بهترین مقادیر برای پارامترهای آزاد

مدل خواهد بود.

۳) حال سوال این است که در منطق بیزی ناحیه ای که با احتمال مشخص مثالً ۶۸ درصد می توان بهترین مقادیر را برای پارامترهای آزاد به دست آورد؟

P(D |Θ) : exp −

χ 2

2

⎝⎜⎞

⎠⎟

38

Page 39: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

:Relative Likelihood ۴) اکنون کمیت جدیدی تعریف می کنیم به نام

Γ(D |Θ) ≡P(D |Θ)

PMax (D |Θ*)

= exp −χ 2

(Θ) − χmin

2⎡⎣ ⎤⎦2

⎝⎜

⎠⎟

log(P(D |Θ)) = log(P(D |Θ = ΘBest )) + (θk −θkBest

)∂ log(P(D |Θ))

∂θkk=1

M

+1

2

∂2log(P(D |Θ))

∂θk∂θl

(θk −θkBest

)(θl −θlBest

) +Ο(δΘ3) + ...

k ,l

M

۵) از سویی دیگر از آنجا که به ازای مقدار بهینه کمیت های آزاد در مدل تابع Likelihood بیشینه می شود میتوان این تابع را بسط داد:

39

Page 40: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

Γ(D |Θ) = exp −χ 2

(Θ) − χmin

2⎡⎣ ⎤⎦2

⎝⎜

⎠⎟ =

det[F]

(2π )M exp −

δΘT • F[ ]•δΘ

2

⎝⎜⎞

⎠⎟

Θ : {θk} k = 1,..., MδΘ ≡ Θ −ΘBest

χmin

2 = χ 2(Θ = ΘBest )

Γ(D |Θ) : exp −δΘT • F[ ]•δΘ

2

⎝⎜⎞

⎠⎟

۶) جمله دوم سمت راست معادله باال صفر است با صرف نظر کردن از جمالت مرتبه باالتر داریم:

40

Page 41: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

تعیین تراز تطابق با کمک تغییرات chi^2 به صورت عددی

Γ(D |Θ) = exp −χ 2

(Θ) − χmin

2⎡⎣ ⎤⎦2

⎝⎜

⎠⎟ =

det[F]

(2π )M exp −

δΘT • F[ ]•δΘ

2

⎝⎜⎞

⎠⎟

Γ(D |θ1) = dθ2...dθMΓ(D |Θ)∫ : exp −(θ −θBest )

2

2σθ2

⎝⎜⎞

⎠⎟

Δχ 2 = χ 2(Θ) − χ

min

2 =(θ −θBest )

2

σθ2

n(θ −θBest ) ≤ nσθ → Δχ 2 ≤ n2

Γ(D |θ1) = exp −n2

2⎛

⎝⎜⎞

⎠⎟→

n = 1→ Γ(D |θ1) = 0.606n = 2→ Γ(D |θ1) = 0.135⎧⎨⎩

دیدیم که می توان نوشت:

بنابراین اگر chi^2 مربوط به Marginalized Posterior از مقدار کمینه اش به اندازه تغییر کند ناحیه nσاحتمال برای کمیت مورد نظر به دست می آید

n

41

Page 42: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

تراز تطابق در فضای M بُعدیبرای اینکار سوال میکنیم که تابع توزیع مربوط به chi^2 چگونه است؟ باز هم از تبدیل بین

تابع توزیع ها استفاده می کنیم

Γ(D |Θ) = exp −χ 2

(Θ) − χmin

2⎡⎣ ⎤⎦2

⎝⎜

⎠⎟ =

det[F]

(2π )M exp −

δΘT • F[ ]•δΘ

2

⎝⎜⎞

⎠⎟

: exp −1

2

yi − f ({θi}, xi )

k=1

M

∑⎡

⎣⎢

⎦⎥

2

σ i2

⎜⎜⎜⎜

⎟⎟⎟⎟

i=1

N

⎜⎜⎜⎜

⎟⎟⎟⎟

D : {xi , yi} → i = 1,..., NΘ : {θM } k = 1,..., M

if i = 1 → Δy = y − f ({θi}, x)

k=1

M

∑⎡

⎣⎢

⎦⎥ → χ 2 = Δy2

P(Δy)dΔy = P(χ 2)dχ 2 → P(χ 2

) =(χ 2

)−1/2

exp(−χ 2/ 2)

68.3% = P(θ)dθσ−

σ +

∫ = P(χ 2)dχ 2 → Δχ 2 = 1

χmin

2

χ2

∫ مانند قبل است42

Page 43: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

Γ(D |Θ) = exp −χ 2

(Θ) − χmin

2⎡⎣ ⎤⎦2

⎝⎜

⎠⎟ =

det[F]

(2π )M exp −

δΘT • F[ ]•δΘ

2

⎝⎜⎞

⎠⎟

: exp −1

2

yi − f ({θi}, xi )

k=1

M

∑⎡

⎣⎢

⎦⎥

2

σ i2

⎜⎜⎜⎜

⎟⎟⎟⎟

i=1

N

⎜⎜⎜⎜

⎟⎟⎟⎟

D : {xi , yi} → i = 1,..., NΘ : {θM } k = 1,..., M

P(Δy)dΔy = P(χ 2)dχ 2 → P(χ 2;ν) =

(χ 2)−

(ν −2)

2 exp(−χ 2/ 2)

2ν /2Γ(ν / 2)

68.3% = P(θ1,θ

2)dθ

1dθ

2σ2

σ2

+

∫σ1

σ1

+

∫ = P(χ 2;2)dχ 2 → Δχ 2 = 2.3

χmin

2

χ2

به لحاظ محاسباتی باید پس از یافنت مقدار بهینه کمیت ها اجازه دهیم که کمیت ها از مقدار بهینه اشان تغییر

کنند به طوری که chi^2 از مقدار کمینه اش به اندازه مشخص شده

جابجا شود در این وضعیت بیضی گون تراز تطابق در ۲ بُعد را به دست

می آوریم

43

Page 44: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

B

!( π)ν/

"det[α]−

# /× exp{−

ν$

i,j

δai.αij .δaj}dδa ...dδaν = P (ν

,∆χ

)

P (ν

,∆χ

) =Γ(ν/ )

! ∆χ /

tν/ − e−tdt

P ν

∆χ B ∆χ

ν

B

M

∆χ ∆χ ∆χ ∆χ ∆χ ∆χ p%

. . . . . . . %

. . . . . . %

. . . . . . . %

. . . . . . %

. . . . . . . %

. . . . . . . %

χmin

M ν

χloc

∆χ = χloc − χmin . % . %

B

44

Page 45: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

θ2

θ1

θ3,θ

4,θ

5= fixed

θ3,θ

4,θ

5= free

45

Page 46: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

Chi^2 versus Median analysis

46

The χ2 analysis assumes that:

(i) The experimental results are statistically independent;

(ii) There are no systematic errors;

(iii) The statistical errors follow a Gaussian distribution;

(iv) The standard deviation of the statistical errors is equal to the observational uncertainty.

The median analysis considers only following assumptions

(i) The experimental results are statistically independent;

(ii) There are no systematic errors;

the median statistic is not very sensitive to the presence of a few “outlier” SNIa objects.

In [9], it has been shown how the presence of one or very few “ill” data points could severely

distort a χ2 analysis, while the median results remained approximately the same.

In median statistics we search for those theoretical values for which, the half part of observed data points are located above and the rest is located below or equal theoretical prediction.

A. Barreira, P. P. Avelino, arXiv:1107.3971J. R. Gott, III, M. S. Vogeley, S. Podariu, and B. Ratra, Astrophys. J. 549, 1 (2001), astro-ph/0006103

Page 47: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

یافنت مقادیر کمیت ها به صورت عددی

1) Grid search Methods - Deterministic approach - Markov chain Monte Carlo MCMC - Hamiltonian Monte Carlo HMC 2) Gradient Method3) Expansion Method...

47

Page 48: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

در رهیافت تعینی با حرکت در فضای پارامتری و مقایسه تا جایی جلو می رویم تا تابع  Posterior بیشینه شود.

برای فضای پارامتری در بُعد های کم توصیه می شود

48

Page 49: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

MCMCهدف یافنت دسته مقادیری که posterior را بیشینه می کنند

۱) ابتدا از یک سری مقادیر دلخواه برای کمیت های مدل

شروع می کنیم

۲) با توجه به ماتریس پیشنهادی جهشی به مقادیر جدید می کنیم

۳) برای تصمیم به اینکه این جهش مورد قبول باشد یا نه آزمون مربوطه بررسی میشود

۴) این فرایند تکرار می شود تا جواب همگرا شود

1)Θ0

: {θ0}

2) g(Θ0→Θ)

3)η = min 1,P(Θ | D)g(Θ

0→Θ)

P(Θ0

| D)g(Θ→Θ0)

⎣⎢

⎦⎥

4) u : Uniform[0,1]

5) If u ≤ η→Θ1

= Θ

elseΘ

1= Θ

0

6) Iterate

معموالً گوسی انتخاب می شود. هر چه که واریانسآن بزرگ باشد آهنگ پذیرش کمتر می شود

49

Page 50: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

50

در واقع در اینجا داریم داده هایی تولید می کنیم که دارای تابع توزیع

Chi^2 هستند

Page 51: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

A. Hajian, PRD (75),083525 (2007) 51

Page 52: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

Hamiltonian MC (HMC)

در این روش با توجه به تعریف یک هامیلتونی مسیر حرکت بر روی انرژی ثابت انجام می گیرد.این امر باعث می شود آهنگ پذیرش باال رفته و مدت زمان محاسبات به طور قابل توجهی کاهش

یابد.

برای این منظور یک انرژی پتانسیل و یک انرژی جنبشی تعریف می کنیم.

A. Hajian, PRD (75),083525 (2007) 52

Page 53: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

Hamiltonian MC (HMC)

1) Θ0

: {θ0} ; u

0: N(u,0,1)[ ],

Η(Θ,u) = U(Θ) + K(u) U(Θ) = − ln P(Θ | D), K(u) =uTu2

Γ(Θ | D;u) : exp −Η(Θ,u)( ) = P(Θ | D) × N(u,0,1)

2) Make a leapfrog move {Θ( j−1)

;u( j−1)

}→ {Θ( j );u( j )}

3) {Θ*;u*

} = {Θ(s);u(s)}

4)η = min 1,e Η(Θ,u )−Η(Θ*,u*

)( )⎡⎣⎢

⎤⎦⎥

5)α : Uniform[0,1]

6) If α ≤ η→Θ

1= Θ*

u = u*

⎧⎨⎪

⎩⎪

elseΘ

1= Θ

0

7) Iterate A. Hajian, PRD (75),083525 (2007)53

Page 54: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

θk

ukشروع

s پرش قورباغه ای به تعدادپذیرش

عدم پذیرش

با انتخاب مقدار دیگری دوباره u برای شروع می

کنیم

54

Page 55: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

55

Page 56: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

56

یا الگوریتم پرش قورباغه ای به صورت زیر

Page 57: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

chi^2 روش حرکت مبتنی بر گرادیان

∇χ 2 =∂χ 2

∂θkk=1

M

∑ θ̂k

∇χ 2( )k=∂χ 2

∂θk

: χ 2(θk + Δθk ) − χ 2

(θk )

Δθk

bk ≡θk

Δθk

∂χ 2

∂bk

=∂χ 2

∂θk

Δθk

γ i =

∂χ 2

∂bk

∂χ 2

∂bk

⎝⎜⎞

⎠⎟k=1

M

θk (i +1) = θk (i) − γ iΔθk

مولفه بردار یکه گرادیان

عالمت منفی تضمین می کند که در جهتی حرکت کنیم که chi^2  به سمت کمینه پیش رود

بدون بُعد کردن

57

Page 58: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

جمع بندی۱)‌ رهیافت بیزی و تکراری

Likelihood ۲)‌ تحلیل chi^2 ۳) کمینه کردن

۴) کیفیت برازشFisher ۵)‌ تراز تطابق و ماتریس

۶) یافنت مقادیر بهینه کمیت ها به صورت عددیMCMC ۷) رهیافت

HMC ۸) رهیافت۹) رهیافت گرادیان

58

Page 59: Bayesian and Likelihood analysisfacultymembers.sbu.ac.ir/movahed/attachments/slide... · • Introduction to statistics and Data analysis for Physicist, Gerhard Bohm, Günter Zech,

5959