mathematical foundation of statistical learningwatanabe- · ②グレブナー基底 = ③. v...

初めての代数幾何学 ⑤

東京工業大学渡辺澄夫

復習

① {V; 代数多様体} ⇔ {I(V);定義イデアル} は全単射。

② グレブナー基底 <LT(I)>=<LT(f1), LT(f2), ・・・,LT(fK)>

③ V の特異点は I(V) のヤコービ行列を使って判定できる。

④ 射影空間とブローアップ

⑤ 最終回特異点解消定理と学習理論への応用

3

１特異点解消定理

一般の代数多様体

１アフィン空間の中の代数多様体

２射影空間の中の代数多様体

３ブローアップしてできる空間の中の代数多様体

→ アフィン空間の代数多様体の貼りあわせでできるものを一般の代数多様体という。

問題各局所座標ではアフィン代数多様体であるものを貼り合わせてできるが、できあがった全体のものはどんなぐあいになっているのだろうか？

一般のブローアップ

代数多様体 V ⊂ Rn とし、W=V(x1,x2,…,xr) ⊂V とする。V の W を中心としたブローアップは

BW(W)= {(x,(x1:x2:…:xr)) ; (x,y)∈ V - W}

これは第 Uj 座標で代入

x1=xj’x1’x2=xj’x2’xj=xj’xr=xj’xr

を行うことと等価になっている。

特異点解消定理

代数多様体 V ⊂ Rn について、V の特異点の集合Sing(V) に含まれる非特異集合 W を見つけて、（微分同相な）変数変換により W を W=V(x1,x2,…,xr) に変換して、V を W でブローアップし BW(V) を求める

ことを繰り返していくと、その有限回の繰り返しの手続きの中に特異点が解消されるものが存在する。

(注意）ブローアップの定義では、例外集合が取り除かれてしまうが、応用上は例外集合も大切である。

特異点がなくなるまでブローアップする

x = x1y1y = y1

x=x2y=x2y2もともと

の空間これらを貼りあわせたもの

K(w)

0 ∞

w = g(u)

プロパー

K(g(u))= u12k1 u2

2k2 ・・ud2kd

特異点解消定理 (広中の定理,1964)

貼りあわせたものもともとの空間

|g(u)’| = | u1h1 u2

h2 ・・udhd |

9

例 K(a,b,c) = a2b2+b2c2+c2a2

K(a1,b1,c1) = a14(b1

2+b12c1

2+c12)

a = a1b = a1b1c = a1c1

ブローアップ

b1 = b2c1 = b2c2

ブローアップ

K(a2,b2,c2) = a24 b2

2(1+b24c2

2+c22)

全部で３個のアフィン空間になるが対称性から他の座標も同じ

２個のアフィン空間になるが対称性から他の座標も同じ

６個のアフィン空間の貼り合わせで特異点解消できた。

10

ヤコービ行列式を計算する

a = a1b = a1b1c = a1c1

b1 = b2c1 = b2c2

a = a1b = a1b２

c = a1b2c2

を合成すると

ふたつのブローアップ

ヤコービ行列式は |g’(u)| = |a12b2|

11

２学習理論への応用

12

学習理論とは

パラメータ (a1,…,ak) を持つ条件つき確率

p(y|x,a1,…,ak) がデータ {Xi,Yi;i=1,2,…,n} から

真の条件つき確率を推測する。

データが多くなれば推測は少しずつ正確に

なっていくが、それはどの程度だろうか。という

問題は、学習モデルの何によって決まるのか。

14

古典的な誤差関数

(a1,…,ak)

現代の学習モデル

Y = a1 sin(b1x) + a2sin(b2x)+ 雑音

[ {a1 =0} ∩ {a２ =0}] ∪

条件つき確率 p(y|x,a1,a2,b1,b 2)

p(y|x,a1,a2,b1,b 2) = p(y|x,0,0,0,0)

[ {a1 =0} ∩ {b２ =0}]

∪ [ {a2 =0} ∩ {a1 =0}] ∪ [ {b1 =0} ∩ {b２ =0}]

∪ [ {a1 = a2 } ∩ {b1 = - b２}]

∪ [ {a1 = -a2 } ∩ {b1 = b２}]

⇔

深層学習のネットワーク

パラメータ wij, wjk, wkm , θk , θj , θi がパラメータ

x1 xm xM

o1 oi oN

oj

ok

H2

H1

N

M

oj=σ(∑wjkok+θj)H1

k=1

oi =σ(∑wijoj+θi)H2

j=1

中間層２から出力へ

中間層１から中間層２へ

ok=σ(∑wkmxm+θk)M

m=1

入力から中間層１へ

二つの深層学習がほぼ同じ推論でもパラメータはまったく違う

17

学習曲線

学習したデータの個数 n

予測時における誤差 G の平均

G = λ / n

古典的なケースではλ＝パラメータ数/2.

現代のケースではわかっていなかった

18

学習曲線

K(g(u))= u12k1 u2

2k2 ・・ud2kd

|g(u)’| = | u1h1 u2

h2 ・・udhd |

現代的なモデルにおいては

のときには学習曲線の係数は下記のものになる。

λ = minj=1d [ ( hj+1) / (2kj ) ]

特異点解消により学習曲線を求めることができた。

19

3 具体例

x1

x2

x3

x1

x2

x3

y

a

b

c真

モデルp(x1,x2,x3|a,b,c)

ボルツマンマシン

p(x1,x2,x3|a,b,c)= Σ exp(ax1y+bx2y+cx3y) y=±1

1Z

真の分布が独立、１個の隠れユニットを持つボルツマンマシンで学習したとき

ボルツマンマシン

p(x1,x2,x3|a,b,c)

＝(1/8){1+t(a)t(b)x1x2+t(b)t(c)x2x3+t(c)t(a)x3x1}

t(a)=tanh(a) とおくと

Σx1,x2,x3=±1 { p(x1,x2,x3|a,b,c) - p(x1,x2,x3|0,0,0) }2

∝ (t(a)t(b))2 + (t(b)t(c))2 +(t(c)t(a))2

= a2b2+b2c2+c2a2 +・・・

22

例 K(a,b,c) = a2b2+b2c2+c2a2 +・・・

K(a1,b1,c1) = a14(b1

2+b12c1

2+c12)

a = a1b = a1b1c = a1c1

b1 = b2c1 = b2c2

K(a2,b2,c2) = a24 b2

2(1+b24c2

2+c22)

λ=min(3/4,2/2,1/0)=3/4

ヤコービ行列式は |g’(u)| = |a12b2|

学習曲線は G= 3/4n

23

４まとめ

まとめ

① 現代の学習モデルは特異点があるため学習曲線がわからなかった。

② 特異点解消定理に基づいて学習曲線を求められる。

③ ブローアップの繰り返しで特異点を解消しそのときのヤコービ行列式を求めればよい。

mathematical foundation of statistical learningwatanabe- · ②グレブナー基底 = ③. v...

Documents