prml 5.2.1,5.2.2section

13
PRML 5.2.1,5.2.2

Upload: shj

Post on 12-Jun-2015

186 views

Category:

Documents


2 download

DESCRIPTION

PRML 5.2.1,5.2.2section

TRANSCRIPT

PRML 5.2.1節,5.2.2節

5.2.1パラメータ最適化(1)

• 誤差関数E(w)を最小化する重みベクトルwを探す

• この場合、誤差関数の幾何的なイメージをつくのは役に立つ

• 重み空間において、場合、誤差関数値は

程度変化する。ベクトル は誤差関数が最速に増加する方向を指している

∇E(w) 図5.5 E(w)は重み空間にある曲面である。wAは極小値、wBは最小値。任意の点wcにおいて、

曲面の局所勾配をとする∇E(w)

±E ≃±wT∇E(w)

w→ w +±w

5.2.1パラメータ最適化(2)

• 誤差関数E(w)はwに関する連続関数であるため、その最小値は重み空間の中の誤差関数の勾配が消える点のところ発生する。つまり以下の式(5.26)が成り立つ。

そうじゃないと 方向に小さいステップで誤差関数をもっと減少することができる

• 勾配が消える点は停留点という。停留点は極大値点、極小値点、鞍点に分けられる。

∇E(w) = 0 (5.26)

−∇E(w)

図5.5

5.2.1パラメータ最適化(3)

• 私たちの目標は E(w)が最小値をとる場合のベクトルwを探す

• しかし、誤差関数は重みそしてバイアスパラメータについて複雑な非線形であるため、重み空間において数多くの点の勾配が消える(あるいは非常に小さい値をとる)場合は多い

• 5.1.1節の議論からわかるように、もしある点wは極小値点である場合、重み空間において等しい極小値をとる点が必ず存在する。例えば図5.1のようなM個の隠れユニットを持つ2層ネットワークの場合、重み空間においての任意の点は 個の等価する点の中の一つである

M!2M

5.2.1パラメータ最適化(4)

• そのほか、通常では複数の等価でない停留点、特に複数の等価でない最小値点が存在している

• すべての重みベクトルにおいて、誤差関数が最小値をとる場合の値を最小値と呼ばれ、そのほかのより大きい値に対応する最小値は極小値と呼ぶ

• 良いニューラルネットワークのアプリケーションに関しては、必ず最小値を見つからなくでも(一般的では、最小値であるかどうかについて判断できない)、十分にいい解を見つけるため、いくつの極小値を比べる必要がある

5.2.1パラメータ最適化(5)

• 式 について解析的な解を求める方法が明らかに難しいであるため、私たちは繰り返し計算に頼る。

• 連続非線形関数の最適化は広く研究された問題で、どうやって効率的に解くことついては大量な文献が存在している。

• 多くの手法では、まず重みベクトルに初期値 を与え、そして重み空間において、相続な式(5.27)のようなステップで移動する。その中に は繰り返しの回数を示す。

異なるアルゴリズムは異なる重みベクトルの変化量 を利用している。多くのアルゴリズムは勾配の情報を利用するため、一回の更新のあと、勾配の値 が新しい重みベクトル を用いて計算する。勾配情報の重要さを理解するため、誤差関数をテーラー展開基づいて近似するのを考えることが役に立つ

∇E(w) = 0

w(τ+1) = w(τ) +∆w(τ) (5.27)

w(0)

τ

∆w(τ)

∇E(w)

∆w(τ+1)

5.2.2 局所二次近似(1)• 誤差関数の局所二次近似をすることで最適化問題そして最適化問題を解くための色んな手法を深く理解することができる

• 重み空間の中の点 においてE(w)をテーラー展開する場合を考える

この場合三次そしてもっと高次の項を省略した。

式(5.28)から対応する勾配の局所近似は式(5.31)になる。特にに近い点wについてはこれらの式は誤差とその勾配に関する合理的な近似を与える

E(w) ≃ E(w) + (w − w)Tb+1

2(w − w)TH(w − w) (5.28)

w

w

∇E ≃ b+H(w − w) (5.31)

b ´ ∇E|w=w (5.29)

(H)ij ´∂E

∂wi∂wj

∣∣∣∣w=w

(5.30)

局所二次近似(2)

• 局所近似を誤差関数の最小値点 において行ったという特殊な場合を考える。この場合、点 において ため、線形の部分は無い、つまり式(5.28)は式(5.32)になる

その中ヘッセ行列は点 において計算される。

E(w) ≃ E(w⋆) +1

2(w −w⋆)TH(w −w⋆) (5.32)

w⋆

w⋆

∇E = 0

w⋆

局所二次近似(3)

• 幾何的な解釈をするため、ヘッセ行列の固有式を考える。

その中固有ベクトルは正規直交セットを生成するため、つまり式(5.34)が成り立つ。

• そして を固有ベクトルの線形結合であらわす(式(5.35))

Hui = λiui (5.33)

w −w⋆ =∑

i

αiui (5.35)

(w −w⋆)

uTi uj =±ij (5.34)

局所二次近似(4)

• 式(5.35)を座標系変換と見ることが出来る。詳しくは付録Cに参照

–原点が に移動され

–軸の方向は固有ベクトルの方向になる

• 式(5.35)を式(5.32)に代入し、式(5.33),(5.34)を利用して、誤差関数を式(5.36)のように書くこ

とができる

E(w) = E(w⋆) +1

2

i

λiα2i (5.36)

w⋆

w −w⋆ =∑

i

αiui (5.35)

局所二次近似(5)

• 行列Hは正定値である場合、任意のベクトルv

について、以下の式のみが成り立つ

• 固有ベクトル{ui}は完全セットになるため、任意のベクトルvを式(5.38)のように書くことがで

きる

vTHv > 0 (5.37)

v =∑

i

ciui (5.38)

局所二次近似(6)

• 式(5.33),(5.34)から、式(5.39)を導きことができ

• もしHは正定値であれば、固有値はすべて正

でなければならない

vTHv =

i

c2iλi (5.39)

Hui = λiui (5.33)

uTi uj =±ij (5.34)

局所二次近似(7)• 新しい座標系(図5.6)の中に

– 基底ベクトルは固有ベクトル{ui}

– Eが同じ値をとるときの等高線は原点を

中心とする楕円である

• 一次元の重み空間の場合、停留点は最小値点になるためには式(5.40)

が成立する必要がある。

∂2E

∂w2

∣∣∣∣w⋆

> 0 (5.40)

対してD次元の場合の条件は 点で計算された

ヘッセ行列は正定値である

w⋆

図5.6最小値点 の周囲誤差関数

を二次形式で近似できる。等高線は楕円で、その軸はヘッセ行列の固有ベクトルである。軸の長さは固有ベクトルのルートの逆数に比例する

w⋆