分かりやすいパターン認識第8章 学習アルゴリズムの一般化

26
分かりやすいパターン認識 第 8 学習アルゴリズムの一般化 yokkuns: 洋平 パターン認識勉強会 2010/06/29 yokkuns: 洋平 (パターン認識勉強会) 分かりやすいパターン認識 第 8 章 学習アルゴリズムの一般化 2010/06/29 1 / 26

Upload: yohei-sato

Post on 20-Aug-2015

2.418 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

.

.

. ..

.

.

分かりやすいパターン認識第 8章学習アルゴリズムの一般化

yokkuns: 里 洋平

パターン認識勉強会

2010/06/29

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 1 / 26

Page 2: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

AGENDA

本章の目的

期待損失最小化学習

種々の損失

平均二乗誤差最小基準

0-1損失基準連続損失基準

確率的降下法

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 2 / 26

Page 3: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

AGENDA

本章の目的

期待損失最小化学習

種々の損失

平均二乗誤差最小基準

0-1損失基準連続損失基準

確率的降下法

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 3 / 26

Page 4: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

本章の目的

損失関数を導入し、期待損失最小化の枠組みでアルゴリズムを考察

本章は、以下の二つを明らかにするための準備

これまで述べてきた学習アルゴリズムの相互関係

ベイズ決定則との関係

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 4 / 26

Page 5: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

AGENDA

本章の目的

期待損失最小化学習

種々の損失

平均二乗誤差最小基準

0-1損失基準連続損失基準

確率的降下法

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 5 / 26

Page 6: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

期待損失最小化学習

平均損失

L(ω j|x) = Eωi|x{l(ω j|ωi)|x} (1)

=

c∑i=1

l(ω j|ωi)P(ωi|x) (2)

入力 xに対して、あるクラスを出力することを定めた決定規則をψ(x)で表すと、式 (2)は、次式のように書き換えられる

L(ψ(x)|x) = Eωi|x{l(ψ(x))|x} (3)

=

c∑i=1

l(ψ(x)|ωi)P(ωi|x) (4)

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 6 / 26

Page 7: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

期待損失最小化学習

したがって、全ての可能な入力 xに対する損失 L(ψ)は、

L(ψ) = Ex{L(ψ(x)|x)} = E

x,ωi{l(ψ(x)|ωi)} (5)

=

∫L(ψ(x)|x)P(x)dx (6)

=

c∑i=1

∫l(ψ(x)|ωi)P(ωi|x)p(x)dx (7)

=

c∑i=1

P(ωi)∫

l(ψ(x)|ωi)p(x|ωi)dx (8)

上式の L(ψ)は期待損失と呼ばれ、L(ψ)を最小化する決定則を学習パターンから求める手続きを期待損失最小化学習と呼ぶ

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 7 / 26

Page 8: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

AGENDA

本章の目的

期待損失最小化学習

種々の損失

平均二乗誤差最小基準

0-1損失基準連続損失基準

確率的降下法

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 8 / 26

Page 9: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

平均二乗誤差最小基準

決定規則 ψが xに対し c次元ベクトル

y = ψ(x) = (y1, ..., yi, ..., yc)t (9)

を出力し、

yk > y j (∀ j , k) (10)

であれば、パターン xをクラス ωkと識別することとする。

入力パターン xと、その所属クラスωiを示す c次元の教師ベクトルt iとがペアで与えられる教師あり学習では、xに対し識別結果であるy(= ψ(x))が出来るだけ t iに一致するように ψを決定することになる

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 9 / 26

Page 10: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

平均二乗誤差最小基準

損失関数として二乗誤差

l(ψ(x)|ωi) = ||ψ(x) − t i||2 (11)

を用いると、式 (8)は以下のようになる。

L(ψ) =c∑

i=1

P(ωi)∫||ψ(x) − t i||2 p(x|ωi)dx (12)

上式は平均二乗誤差(MSE)を表している。

式 (12)を最小化する決定規則 ψを平均二乗誤差最小基準に基づく決定、あるいは単に最小二乗法に基づく決定と呼ぶ

ψを任意の非線形関数とすると最小二乗法に基づく決定はベイズ決定と密接な関係がある。

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 10 / 26

Page 11: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

0-1損失基準

最も単純かつ自然な損失関数として、以下を考える

l(ω j|ωi) ={

0 if j = i1 otherwise

(13)

クラスωiのパターンを誤識別したときに損失 1を与え、それ以外は損失 0を与える。

2値の評価誤差は 0-1損失基準による学習とみなせる。

このとき、式 (2)は

L(ω j|x) =∑i, j

P(ωi|x) = 1 − P(ω j|x) (14)

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 11 / 26

Page 12: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

0-1損失基準

L(ψ)の最小化は L(ψ(x)|x)の最小化と等価であるから、以下の決定規則が導かれる。

ψ(x) = ωk if P(ωk|x) = maxi{P(ωi|x)} (15)

0-1損失基準による決定則と呼ばれ、これはベイズ決定則にほかならない

”期待損失最小化 ≡事後確率最大化”の関係が成立するこのとき得られる損失をベイズリスクと呼ぶ

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 12 / 26

Page 13: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

連続損失基準

識別結果だけでなく、誤り度合いを示す誤分類尺度を考慮した連続損失基準が提案されている

0-1損失基準では、識別結果が”正しい”か”誤り”かの 2値で判断

クラスωiに対する識別関数を gi(x; θ)とする. 識別関数法による決定規則では、c次元ベクトル

ψ(x; θ) = (g1(x; θ), g2(x; θ), ..., gc(x; θ)) (16)

に対し、最大の要素のインデックスが xのクラスとなる.

maxi{gi(x; θ)} = gk(x; θ) =⇒ x ∈ ωk (17)

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 13 / 26

Page 14: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

甘利の提案

x ∈ ωiのパターンに対する誤分類尺度として、以下を提案

di(x) =∑j∈Si

1mi

(g j(x; θ) − gi(x; θ)) (18)

Si : ωi の識別関数の値より大きな識別関数のクラスインデックスの

集合

Si = { j|gi(x; θ) > gi(x; θ)} (19)

mi : Si の要素数

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 14 / 26

Page 15: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

Juang & katagiriの提案

式(18)は、パラメータに対して連続である保証が無いため、最小化の手法として勾配型のアルゴリズムとの親和性がよくない

そこで、Juangと katagiriは、以下の誤分類尺度を提案

di(x) = −gi(x; θ) +

1

c − 1

∑j,i

gi(x; θ)η

(20)

η : 正定数ηが大きくなれるにつれ、右辺第 2項は gi(x; θ), ∀ j , i中最も値の大きなものが支配的となる

η → ∞のとき

di(x; θ) = −gi(x; θ) + gk(x; θ) (21)

gk(x; θ) = maxj,i{g j(x; θ)} (22)

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 15 / 26

Page 16: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

損失の例

誤分類尺度を導入することにより、xの識別の良さ、悪さの度合いが得られ、損失に反映させることが出来る

損失として、次式に示す関数が提案されている

l(ψ(x)|ωi) =1

1 + exp(−ξdi)(23)

di(x) →大 : 損失→ 1di(x) →小 : 損失→ 0di(x) →0近辺 : 損失→ 1

2

クラス境界付近に位置し暮らすラベルがベイズ決定と異なる学習パ

ターンにも適切な損失が与えられ、0-1損失より滑らかな識別境界が得られる

滑らかさの度合いは問題に対して適切に設計する必要がある

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 16 / 26

Page 17: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

AGENDA

本章の目的

期待損失最小化学習

種々の損失

平均二乗誤差最小基準

0-1損失基準連続損失基準

確率的降下法

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 17 / 26

Page 18: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

確率的降下法

本節では、ψがパラメータ θを用いて ψ(x; θ)で表されているとき、期待損失最小化を実現するための ψの設計法、すなわち θの推定法について述べる

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 18 / 26

Page 19: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

損失 L

損失 l(ψ(x; θ)|ωi)を、簡単のため、li(x; θ)と書く。

L(θ) = Ex,ωi{li(x; θ)} (24)

=

c∑i=1

∫li(x; θ)P(ωi|x)p(x)dx (25)

最適な θは、∂L/∂θ = 0の解として得られるが、nこのパターンのみが与えられる実際の応用では、p(x)や P(ωi|x)が道のため、直接計算することは出来ない。

そこで、nこのパターン x1, ..., xnで定義される経験損失の最小化を

考える

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 19 / 26

Page 20: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

経験損失の最小化 1

式(25)の p(x)を経験分布で近似

p(x) =1n

n∑p=1

δ(x − xp) (26)

P(ωi|x)を、与えられたクラスラベルに基づき、以下のように置く

P(ωi|x) ={

1 if x ∈ ωi

0 otherwise(27)

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 20 / 26

Page 21: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

経験損失の最小化 2

経験損失 Le(θ)は、

Le(θ) =1n

c∑i=1

n∑p=1

∫li(x; θ)1(x ∈ ωi)δ(x − xp)dx (28)

=1n

n∑p=1

c∑i=1

li(xp; θ)1(xp ∈ ωi) (29)

1(x ∈ ωi)は、以下のような関数

1(x ∈ ωi) =

{1 if x ∈ ωi

0 otherwise(30)

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 21 / 26

Page 22: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

経験損失の最小化 3

liが微分可能と仮定すると、Leの θに関する微分は、

∂Le

∂θ=

1n

n∑p=1

c∑i=1

∂li(xp; θ)

∂θ1(xp ∈ ωi) (31)

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 22 / 26

Page 23: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

経験損失の最小化 4

Le(θ)を最小にする θは、∂Le/∂θ = 0が統計的に解けない場合でも、最急降下法により逐次推定できる。

θ(t + 1) = θ(t) − ρ(t)∂Le

∂θ(32)

= θ(t) − ρ(t)1n

n∑p=1

c∑i=1

∇li(xp; θ(t))1(xp ∈ ωi) (33)

∇li(xp; θ(t))は、

∇li(xp; θ(t))def=

∂li(xp; θ)

∂θ

∣∣∣∣∣∣θ=θ(t)

(34)

とする

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 23 / 26

Page 24: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

確率的降下法

パターンが逐次的に与えられる元での適応的学習

パラメータ θの修正 δθが Leの減少方向へ修正されるのではなく、

Leに関する期待値 E{Le}の減少方向に修正される以下のステップ

.

.

.

1 θ(0)を適当に定める t ← 0(初期化)

.

.

.

2 適当な収束条件を満たすまで以下を反復

θ(t + 1) = θ(t) − ρ(t)Cc∑

i=1

∇li(x(t); θ(t))1(x(t) ∈ ωi) (35)

t ← t + 1 (36)

ρ(t)が以下の条件を満たすとき、θは Leの局所最小値を与える θに収束することが保証される

∞∑t=0

ρ(t) = ∞,∞∑

t=0

ρ(t)2 < ∞ (37)

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 24 / 26

Page 25: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

確率的降下法と確率的近似法

確率的降下法は、確率的近似法を期待損失最小化学習の枠組みで定

式化したものと解釈できる。

確率的近似法の基本的な考え方は、Robbins-Monro(RM)アルゴリズムに集約される

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 25 / 26

Page 26: 分かりやすいパターン認識第8章 学習アルゴリズムの一般化

RMアルゴリズム

ωの関数 f (ω), h(ω)があったとし、 f (ω) = 0の根を求める場合を考える。

(ω, h(ω))の対集合が与えられ、以下が成り立つと仮定

E{h(ω)} = f (ω) (38)

また、h(ω)の値は求まるが、 f (ω)の値は未知とするf (ω)は、h(ω)の回帰関数と呼ばれ、RMアルゴリズムに従えば、f (ω) = 0の根は、以下の反復により推定され、式(37)を満たせばアルゴリズムの収束性が保証される

ω(t + 1) = ω(t) − ρ(t)h(ω(t)) (39)

RMアルゴリズムでは、 f (ω)の値が分からなくても、h(ω)の値さえわかれば f (ω) = 0の根を求めることが出来る

yokkuns: 里 洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章 学習アルゴリズムの一般化 2010/06/29 26 / 26