prml 5.2.1,5.2.2section

PRML 5.2.1節,5.2.2節

5.2.1パラメータ最適化(1)

• 誤差関数E(w)を最小化する重みベクトルwを探す

• この場合、誤差関数の幾何的なイメージをつくのは役に立つ

• 重み空間において、場合、誤差関数値は

程度変化する。ベクトルは誤差関数が最速に増加する方向を指している

∇E(w) 図5.5 E(w)は重み空間にある曲面である。wAは極小値、wBは最小値。任意の点wcにおいて、

曲面の局所勾配をとする∇E(w)

±E ≃±wT∇E(w)

w→ w +±w


• 誤差関数E(w)はwに関する連続関数であるため、その最小値は重み空間の中の誤差関数の勾配が消える点のところ発生する。つまり以下の式(5.26)が成り立つ。

そうじゃないと方向に小さいステップで誤差関数をもっと減少することができる

• 勾配が消える点は停留点という。停留点は極大値点、極小値点、鞍点に分けられる。

∇E(w) = 0 (5.26)

−∇E(w)

図5.5


• 私たちの目標は E(w)が最小値をとる場合のベクトルwを探す

• しかし、誤差関数は重みそしてバイアスパラメータについて複雑な非線形であるため、重み空間において数多くの点の勾配が消える（あるいは非常に小さい値をとる）場合は多い

• 5.1.1節の議論からわかるように、もしある点wは極小値点である場合、重み空間において等しい極小値をとる点が必ず存在する。例えば図5.1のようなM個の隠れユニットを持つ２層ネットワークの場合、重み空間においての任意の点は個の等価する点の中の一つである

M!2M


• そのほか、通常では複数の等価でない停留点、特に複数の等価でない最小値点が存在している

• すべての重みベクトルにおいて、誤差関数が最小値をとる場合の値を最小値と呼ばれ、そのほかのより大きい値に対応する最小値は極小値と呼ぶ

• 良いニューラルネットワークのアプリケーションに関しては、必ず最小値を見つからなくでも（一般的では、最小値であるかどうかについて判断できない）、十分にいい解を見つけるため、いくつの極小値を比べる必要がある


• 式について解析的な解を求める方法が明らかに難しいであるため、私たちは繰り返し計算に頼る。

• 連続非線形関数の最適化は広く研究された問題で、どうやって効率的に解くことついては大量な文献が存在している。

• 多くの手法では、まず重みベクトルに初期値を与え、そして重み空間において、相続な式(5.27)のようなステップで移動する。その中には繰り返しの回数を示す。

異なるアルゴリズムは異なる重みベクトルの変化量を利用している。多くのアルゴリズムは勾配の情報を利用するため、一回の更新のあと、勾配の値が新しい重みベクトルを用いて計算する。勾配情報の重要さを理解するため、誤差関数をテーラー展開基づいて近似するのを考えることが役に立つ

∇E(w) = 0

w(τ+1) = w(τ) +∆w(τ) (5.27)

w(0)

τ

∆w(τ)

∇E(w)

∆w(τ+1)

5.2.2 局所二次近似(1)• 誤差関数の局所二次近似をすることで最適化問題そして最適化問題を解くための色んな手法を深く理解することができる

• 重み空間の中の点においてE(w)をテーラー展開する場合を考える

この場合三次そしてもっと高次の項を省略した。

式(5.28)から対応する勾配の局所近似は式(5.31)になる。特にに近い点wについてはこれらの式は誤差とその勾配に関する合理的な近似を与える

E(w) ≃ E(w) + (w − w)Tb+1

2(w − w)TH(w − w) (5.28)

w

w

∇E ≃ b+H(w − w) (5.31)

b ´ ∇E|w=w (5.29)

(H)ij ´∂E

∂wi∂wj

∣∣∣∣w=w

(5.30)

局所二次近似(2)

• 局所近似を誤差関数の最小値点において行ったという特殊な場合を考える。この場合、点においてため、線形の部分は無い、つまり式(5.28)は式(5.32)になる

その中ヘッセ行列は点において計算される。

E(w) ≃ E(w⋆) +1

2(w −w⋆)TH(w −w⋆) (5.32)

w⋆

w⋆

∇E = 0

w⋆


• 幾何的な解釈をするため、ヘッセ行列の固有式を考える。

その中固有ベクトルは正規直交セットを生成するため、つまり式(5.34)が成り立つ。

• そしてを固有ベクトルの線形結合であらわす(式(5.35))

Hui = λiui (5.33)

w −w⋆ =∑

i

αiui (5.35)

(w −w⋆)

uTi uj =±ij (5.34)


• 式(5.35)を座標系変換と見ることが出来る。詳しくは付録Cに参照

–原点がに移動され

–軸の方向は固有ベクトルの方向になる

• 式(5.35)を式(5.32)に代入し、式(5.33),(5.34)を利用して、誤差関数を式(5.36)のように書くこ

とができる

E(w) = E(w⋆) +1

2

∑

i

λiα2i (5.36)

w⋆

w −w⋆ =∑

i

αiui (5.35)


• 行列Hは正定値である場合、任意のベクトルv

について、以下の式のみが成り立つ

• 固有ベクトル{ui}は完全セットになるため、任意のベクトルvを式(5.38)のように書くことがで

きる

vTHv > 0 (5.37)

v =∑

i

ciui (5.38)


• 式(5.33),(5.34)から、式(5.39)を導きことができ

る

• もしHは正定値であれば、固有値はすべて正

でなければならない

vTHv =

∑

i

c2iλi (5.39)

Hui = λiui (5.33)

uTi uj =±ij (5.34)

局所二次近似(7)• 新しい座標系(図5.6)の中に

– 基底ベクトルは固有ベクトル{ui}

– Eが同じ値をとるときの等高線は原点を

中心とする楕円である

• 一次元の重み空間の場合、停留点は最小値点になるためには式(5.40)

が成立する必要がある。

∂2E

∂w2

∣∣∣∣w⋆

> 0 (5.40)

対してD次元の場合の条件は点で計算された

ヘッセ行列は正定値である

w⋆

図5.6最小値点の周囲誤差関数

を二次形式で近似できる。等高線は楕円で、その軸はヘッセ行列の固有ベクトルである。軸の長さは固有ベクトルのルートの逆数に比例する

w⋆

prml 5.2.1,5.2.2section

Documents