prml reading 1.1 - 1.2

PATTERN RECOGNITIONand MACHINE LEARNING

READING1.1 Example: Polynomial Curve Fitting

1.2 Probability Theory

GSIS Tohoku Univ. Tokuyama Lab. M1 Yu Ohori

1 Introduction

手書き数字 ( 𝟐𝟖 × 𝟐𝟖 px ) の認識

• 入力 𝐱 ∈ ℝ784

• 出力 𝑡 ∈ 0,1, … , 9訓練データ集合を用いてモデルを学習することで適切な分類が可能となる

2015/04/20 PRML Reading 2

Fig. 1.1 ( p. 1 )

1 Introduction

教師あり学習

• 訓練データ…入力ベクトルと目標ベクトル• クラス分類（目標ベクトル：離散）

• 回帰（目標ベクトル：連続）

教師なし学習

• 訓練データ…入力ベクトルのみ• クラスタリング

• 密度推定

強化学習

• ある状況下で報酬を最大にする適当な行動を見つける問題


1.1 Example: Polynomial Curve Fitting

Given

• 入力 𝑥 ∈ ℝ

• 入力データ集合 𝐱 = 𝑥1, … , 𝑥𝑁T

• 目標データ集合 𝐭 = 𝑡1, … , 𝑡𝑁T

Goal

• 目標変数 𝑡 を予測する

Approach

• 多項式曲線フィッティング

• 𝑦 𝑥, 𝐰 = 𝑗=0𝑀 𝜔𝑗𝑥

𝑗input variable 𝑥

targ

et

vari

ab

le 𝑡

model 𝑦 𝑥, 𝐰


最小二乗法

• 二乗和誤差関数を最小化してパラメータ𝐰を推定

𝐸 𝐰 =1

2

𝑛=1

𝑁

𝑦 𝑥𝑛, 𝐰 − 𝑡𝑛2



Fig. 1.3 ( p. 6 )

過学習

• モデルの次数 𝑀を変化

• データ集合のサイズ 𝑁を固定



Fig. 1.4 ( p. 6 )

ノイズに強く影響される（過学習）

sin 2𝜋𝑥 に最もよく当てはまる


過学習

• モデルの次数 𝑀 を固定

• データ集合のサイズ 𝑁を変化


データ集合のサイズを増やすと過学習を

抑制できる

Fig. 1.6 ( p. 9 )

過学習の回避方法 ( 1 ) …正則化

• 誤差関数に罰金項を付加

𝐸 𝐰 =1

2

𝑛=1

𝑁

𝑦 𝑥𝑛, 𝐰 − 𝑡𝑛2 +

𝜆

2𝐰 2



Fig. 1.7 ( p. 10 )


過学習の回避方法 ( 2 ) …ベイズ的アプローチ

• 有効パラメータ数はデータ集合のサイズに自動的に適合


Fig. 1.17 ( p. 31 )


オレンジを選び出したとしてそれが青い箱から取り出されたものである確率は？


Fig. 1.9 ( p. 12 )

40% 60%

同時確率

𝑝 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 =𝑛𝑖𝑗

𝑁


𝑛𝑖𝑗

𝑐𝑖

𝑟𝑗

𝑥𝑖

𝑦𝑗

Fig. 1.10 ( p. 13 )


周辺確率

𝑝 𝑋 = 𝑥𝑖 =𝑐𝑖

𝑁


𝑛𝑖𝑗

𝑐𝑖

𝑟𝑗

𝑥𝑖

𝑦𝑗

Fig. 1.10 ( p. 13 )


条件付確率

𝑝 𝑌 = 𝑦𝑗 𝑋 = 𝑥𝑖 =𝑛𝑖𝑗

𝑐𝑖


𝑛𝑖𝑗

𝑐𝑖

𝑟𝑗

𝑥𝑖

𝑦𝑗

Fig. 1.10 ( p. 13 )


加法定理

𝑝 𝑋 = 𝑌𝑝 𝑋, 𝑌

乗法定理𝑝 𝑋, 𝑌 = 𝑝 𝑌 𝑋 𝑝 𝑋

ベイズの定理

𝑝 𝑌 𝑋 =𝑝 𝑋 𝑌 𝑝 𝑌

𝑝 𝑋

• 𝑝 𝑌 : 事前確率

• 𝑝 𝑌 𝑋 : 事後確率

• 𝑝 𝑋 𝑌 : 尤度関数

• 𝑝 𝑋 = 𝑌 𝑝 𝑋 𝑌 𝑝 𝑌 : 規格化定数




オレンジを選び出したとしてそれが青い箱から取り出されたものである確率は？

𝑝 𝑏 𝑜 =𝑝 𝑜 𝑏 𝑝 𝑏

𝑝 𝑜=

14

∙610

34

∙410

+14

∙610

=1

3


𝐵 = 𝑟𝑏

𝐹 = 𝑎𝑜

Fig. 1.9 ( p. 12 )

40% 60%

1.2.1 Probability density

確率密度

• 連続変数に関する確率記述

• 𝑝 𝑥 ∈ 𝑎, 𝑏 = 𝑎

𝑏𝑝 𝑥 ⅆ𝑥

• 非負条件 𝑝 𝑥 ≥ 0

• 規格化条件 −∞

∞𝑝 𝑥 ⅆ𝑥 = 1

累積分布関数

• 𝑃 𝑧 = −∞

𝑧𝑝 𝑥 ⅆ𝑥


Fig. 1.12 ( p. 17 )

1.2.2 Expectations and covariances

期待値

• ある関数 𝑓 𝑥 の確率分布 𝑝 𝑥 の下での平均値

• 離散変数の場合 𝔼 𝑓 = 𝑥 𝑝 𝑥 𝑓 𝑥

• 連続変数の場合 𝔼 𝑓 = 𝑝 𝑥 𝑓 𝑥 ⅆ𝑥

• 有限個の 𝑁 点を用いて近似 𝔼 𝑓 ≃1

𝑁 𝑛=1

𝑁 𝑓 𝑥𝑛

• 多変数関数の場合

• 𝔼𝑥 𝑓 𝑥, 𝑦 = 𝑥 𝑝 𝑥, 𝑦 𝑓 𝑥, 𝑦

• 𝔼𝑥,𝑦 𝑓 𝑥, 𝑦 = 𝑥 𝑦 𝑝 𝑥, 𝑦 𝑓 𝑥, 𝑦

• 𝔼𝑥 𝑓|𝑦 = 𝑥 𝑝 𝑥 𝑦 𝑓 𝑥


1.2.2 Expectations and covariances

分散

• 𝑓 𝑥 の期待値の周りでのばらつきの尺度

var 𝑓 = 𝔼 𝑓 𝑥 − 𝔼 𝑓 𝑥 2 = 𝔼 𝑓 𝑥 2 − 𝔼 𝑓 𝑥 2

共分散

• 一変量の場合

cov 𝑥, 𝑦 = 𝔼𝑥,𝑦 𝑥 − 𝔼 𝑥 𝑦 − 𝔼 𝑦 = 𝔼𝑥,𝑦 𝑥𝑦 − 𝔼 𝑥 𝔼 𝑦

• 多変量の場合

cov 𝐱, 𝐲 = 𝔼𝐱,𝐲 𝐱 − 𝔼 𝐱 𝐲T − 𝔼 𝐲T = 𝔼𝐱,𝐲 𝐱𝐲T − 𝔼 𝐱 𝔼 𝐲T


頻度主義的視点

• 確率＝ランダムな繰返し試行の頻度

• 無限回の試行を前提

ベイズ的視点

• 確率＝不確実性の度合い

• 新たな証拠が得られる度修正

𝑝 𝐰 𝒟 =𝑝 𝒟 𝐰 𝑝 𝐰

𝑝 𝒟• 𝑦 𝑥, 𝐰 = 𝑗=0

𝑀 𝜔𝑗𝑥𝑗 : 曲線

• 𝒟 = 𝑡1, … , 𝑡𝑁 : 観測データ

1.2.3 Bayesian probabilities


Thomas Bayes

1701 - 1761

一変量ガウス分布

𝒩 𝑥 𝜇, 𝜎2 = 2𝜋𝜎2 −12exp −

1

2𝜎2𝑥 − 𝜇 2

• 𝜇 = 𝔼 𝑥 : 平均

• 𝜎2 = var 𝑥 : 分散

• 𝜎 : 標準偏差

• 𝛽 =1

𝜎2 : 精度パラメータ

多変量ガウス分布

𝒩 𝐱 𝝁, 𝚺 = 2𝜋 𝐷 𝚺−

12exp −

1

2𝐱 − 𝝁 𝑇𝚺−1 𝒙 − 𝝁

• 𝝁 = 𝔼 𝐱 : 平均

• 𝚺 = cov 𝐱 : 共分散

1.2.4 The Gaussian distribution


Fig. 1.13 ( p. 25 )

© 2002 – 2003 NAKAGAWA Masao


最尤推定

• 観測データ集合 𝐱 = 𝑥1, … , 𝑥𝑁𝑇 をi.d.d と仮定

• 尤度関数 𝑝 𝐱 𝜇, 𝜎2 = 𝑛=1𝑁 𝒩 𝑥𝑛 𝜇, 𝜎2

• 対数尤度関数 ln 𝑝 𝐱 𝜇, 𝜎2 = −1

2𝜎2 𝑛=1

𝑁 ln 𝑥𝑛 − 𝜇 2 −𝑁

2ln 𝜎2 −

𝑁

2ln 2𝜋

• データ集合を生成したガウス分布のパラメータ 𝜇, 𝜎2 を推定


Fig. 1.14 ( p. 26 )


最尤推定

• 対数尤度関数を 𝜇 に関して最大化

• 𝜕

𝜕𝜇ln 𝑝 𝐱 𝜇, 𝜎2

𝜇=𝜇ML,𝜎=𝜎ML

= 0を解くと

• 𝜇ML =1

𝑁 𝑛=1

𝑁 𝑥𝑛 : サンプル平均

• 対数尤度関数を 𝜎2 に関して最大化

• 𝜕

𝜕𝜎ln 𝑝 𝐱 𝜇, 𝜎2

𝜇=𝜇ML,𝜎=𝜎ML

= 0を解くと

• 𝜎ML2 =

1

𝑁 𝑛=1

𝑁 ln 𝑥𝑛 − 𝜇ML2 : サンプル分散


1.2.5 Curve fitting re-visited

Given

• 入力 𝑥 ∈ ℝ• 入力データ集合 𝐱 = 𝑥1, … , 𝑥𝑁

T

• 目標データ集合 𝐭 = 𝑡1, … , 𝑡𝑁T

Goal

• 目標変数 𝑡 を予測する

Approach

• 多項式曲線フィッティング

• 𝑦 𝑥, 𝐰 = 𝑗=0𝑀 𝜔𝑗𝑥

𝑗

• 𝑝 𝑡 𝑥, 𝐰, 𝛽 = 𝒩 𝑡 𝑦 𝑥, 𝐰 , 𝛽−1


Fig. 1.16 ( p. 29 )

最尤推定（最小二乗法）

• 尤度関数を最大化してパラメータ 𝐰,𝛽 を推定

𝑝 𝐭 𝐗, 𝐰, 𝛽 = 𝑛=1

𝑁

𝒩 𝑡𝑛 𝑦 𝑥𝑛, 𝐰 , 𝛽−1

MAP 推定（正則化最小二乗法）

• 事前分布を導入

𝑝 𝐰 𝛼 = 𝒩 𝐰 𝟎, α−1𝐈 =𝛼

2𝜋

𝑀+1 2

exp −𝛼

2𝐰𝑇𝐰

• 事後分布を最大化してパラメータ 𝐰,𝛽 を推定

𝑝 𝐰 𝐱, 𝐭, 𝛼, 𝛽 ∝ 𝑝 𝐭 𝐱, 𝐰, 𝛽 𝑝 𝐰 𝛼

1.2.5 Curve fitting re-visited


ベイズ推定

• パラメータ 𝐰に関して周辺化

𝑝 𝑡 𝑥, 𝐱, 𝐭 = 𝑝 𝑡 𝑥, 𝐰 𝑝 𝐰 𝐱, 𝐭 ⅆ𝐰 = 𝒩 𝑡 𝑚 𝑥 , 𝑠2 𝑥

• 𝑚 𝑥 = 𝛽𝝓 𝑥 T𝐒 𝑛=1𝑁 𝝓 𝑥𝑛 𝑡𝑛

• 𝐒−1 = 𝛼𝐈 + 𝑛=1𝑁 𝝓 𝑥𝑛 𝝓 𝑥𝑛

T

• 𝝓 𝑥 = 1, 𝑥, … , 𝑥𝑀

• 𝑠2 𝑥 = 𝛽−1 + 𝝓 𝑥 T𝐒𝝓 𝑥

1.2.6 Bayesian curve fitting


パラメータ 𝐰に対する不確実性

モデル事後分布予測分布

Fig. 1.17 ( p. 31 )

Reference

Pattern Recognition and Machine Learning [ Christopher M. Bishop, 2006 ]

• English

• pp. 1 – 32

• Japanese ( vol. 1 )

• pp. 1 – 31

• Web site

• http://research.microsoft.com/en-us/um/people/cmbishop/prml/


http://research.microsoft.com/en-us/um/people/cmbishop/prml/

prml reading 1.1 - 1.2

Data & Analytics