mathematical foundation of statistical learningwatanabe- · ②グレブナー基底 = ③. v...

24
初めての代数幾何学 ⑤ 東京工業大学 渡辺澄夫

Upload: others

Post on 25-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

初めての代数幾何学 ⑤

東京工業大学 渡辺澄夫

Page 2: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

復習

① {V; 代数多様体} ⇔ {I(V);定義イデアル} は全単射。

② グレブナー基底 <LT(I)>=<LT(f1), LT(f2), ・・・,LT(fK)>

③ V の特異点は I(V) のヤコービ行列を使って判定できる。

④ 射影空間とブローアップ

⑤ 最終回 特異点解消定理と学習理論への応用

Page 3: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

3

1 特異点解消定理

Page 4: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

一般の代数多様体

1 アフィン空間の中の代数多様体

2 射影空間の中の代数多様体

3 ブローアップしてできる空間の中の代数多様体

→ アフィン空間の代数多様体の貼りあわせでできるものを一般の代数多様体という。

問題 各局所座標ではアフィン代数多様体であるものを貼り合わせてできるが、できあがった全体のものはどんなぐあいになっているのだろうか?

Page 5: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

一般のブローアップ

代数多様体 V ⊂ Rn とし、W=V(x1,x2,…,xr) ⊂V とする。V の W を中心としたブローアップは

BW(W)= {(x,(x1:x2:…:xr)) ; (x,y)∈ V - W}

これは第 Uj 座標で代入

x1=xj’x1’x2=xj’x2’xj=xj’xr=xj’xr

を行うことと等価になっている。

Page 6: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

特異点解消定理

代数多様体 V ⊂ Rn について、V の特異点の集合Sing(V) に含まれる非特異集合 W を見つけて、(微分同相な)変数変換により W を W=V(x1,x2,…,xr) に変換して、V を W でブローアップし BW(V) を求める

ことを繰り返していくと、その有限回の繰り返しの手続きの中に特異点が解消されるものが存在する。

(注意)ブローアップの定義では、例外集合が取り除かれてしまうが、応用上は例外集合も大切である。

Page 7: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

特異点がなくなるまでブローアップする

x = x1y1y = y1

x=x2y=x2y2もともと

の空間 これらを貼りあわせたもの

Page 8: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

K(w)

0 ∞

w = g(u)

プロパー

K(g(u))= u12k1 u2

2k2 ・・ud2kd

特異点解消定理 (広中の定理,1964)

貼りあわせたものもともとの空間

|g(u)’| = | u1h1 u2

h2 ・・udhd |

Page 9: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

9

例 K(a,b,c) = a2b2+b2c2+c2a2

K(a1,b1,c1) = a14(b1

2+b12c1

2+c12)

a = a1b = a1b1c = a1c1

ブローアップ

b1 = b2c1 = b2c2

ブローアップ

K(a2,b2,c2) = a24 b2

2(1+b24c2

2+c22)

全部で3個のアフィン空間になるが対称性から他の座標も同じ

2個のアフィン空間になるが対称性から他の座標も同じ

6個のアフィン空間の貼り合わせで特異点解消できた。

Page 10: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

10

ヤコービ行列式を計算する

a = a1b = a1b1c = a1c1

b1 = b2c1 = b2c2

a = a1b = a1b2

c = a1b2c2

を合成すると

ふたつのブローアップ

ヤコービ行列式は |g’(u)| = |a12b2|

Page 11: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

11

2 学習理論への応用

Page 12: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

12

学習理論とは

パラメータ (a1,…,ak) を持つ条件つき確率

p(y|x,a1,…,ak) がデータ {Xi,Yi;i=1,2,…,n} から

真の条件つき確率を推測する。

データが多くなれば推測は少しずつ正確に

なっていくが、それはどの程度だろうか。という

問題は、学習モデルの何によって決まるのか。

Page 13: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

13

古典的な学習モデル

Y = a1+a2 X+a3 X2+・・・+ aKXK-1 + 雑音

条件つき確率 p(y|x,a1,…,ak)

パラメータとモデルは1対1に対応する

p(y|x,a1,…,ak) = p(y|x,b1,…,bk) ⇔ (a1,…,ak) = (b1,…,bk)

p(y|x,a1,…,ak) と p(y|x,b1,…,bk) の違いは局所的に2次式で近似できる。

Page 14: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

14

古典的な誤差関数

(a1,…,ak)

Page 15: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

現代の学習モデル

Y = a1 sin(b1x) + a2sin(b2x)+ 雑音

[ {a1 =0} ∩ {a2 =0}] ∪

条件つき確率 p(y|x,a1,a2,b1,b 2)

p(y|x,a1,a2,b1,b 2) = p(y|x,0,0,0,0)

[ {a1 =0} ∩ {b2 =0}]

∪ [ {a2 =0} ∩ {a1 =0}] ∪ [ {b1 =0} ∩ {b2 =0}]

∪ [ {a1 = a2 } ∩ {b1 = - b2}]

∪ [ {a1 = -a2 } ∩ {b1 = b2}]

Page 16: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

深層学習のネットワーク

パラメータ wij, wjk, wkm , θk , θj , θi がパラメータ

x1 xm xM

o1 oi oN

oj

ok

H2

H1

N

M

oj=σ(∑wjkok+θj)H1

k=1

oi =σ(∑wijoj+θi)H2

j=1

中間層2から出力へ

中間層1から中間層2へ

ok=σ(∑wkmxm+θk)M

m=1

入力から中間層1へ

二つの深層学習がほぼ同じ推論でもパラメータはまったく違う

Page 17: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

17

学習曲線

学習したデータの個数 n

予測時における誤差 G の平均

G = λ / n

古典的なケースではλ=パラメータ数/2.

現代のケースではわかっていなかった

Page 18: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

18

学習曲線

K(g(u))= u12k1 u2

2k2 ・・ud2kd

|g(u)’| = | u1h1 u2

h2 ・・udhd |

現代的なモデルにおいては

のときには 学習曲線の係数は下記のものになる。

λ = minj=1d [ ( hj+1) / (2kj ) ]

特異点解消により 学習曲線を求めることができた。

Page 19: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

19

3 具体例

Page 20: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

x1

x2

x3

x1

x2

x3

y

a

b

c真

モデルp(x1,x2,x3|a,b,c)

ボルツマンマシン

p(x1,x2,x3|a,b,c)= Σ exp(ax1y+bx2y+cx3y) y=±1

1Z

真の分布が独立、1個の隠れユニットを持つボルツマンマシンで学習したとき

Page 21: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

ボルツマンマシン

p(x1,x2,x3|a,b,c)

=(1/8){1+t(a)t(b)x1x2+t(b)t(c)x2x3+t(c)t(a)x3x1}

t(a)=tanh(a) とおくと

Σx1,x2,x3=±1 { p(x1,x2,x3|a,b,c) - p(x1,x2,x3|0,0,0) }2

∝ (t(a)t(b))2 + (t(b)t(c))2 +(t(c)t(a))2

= a2b2+b2c2+c2a2 +・・・

Page 22: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

22

例 K(a,b,c) = a2b2+b2c2+c2a2 +・・・

K(a1,b1,c1) = a14(b1

2+b12c1

2+c12)

a = a1b = a1b1c = a1c1

b1 = b2c1 = b2c2

K(a2,b2,c2) = a24 b2

2(1+b24c2

2+c22)

λ=min(3/4,2/2,1/0)=3/4

ヤコービ行列式は |g’(u)| = |a12b2|

学習曲線は G= 3/4n

Page 23: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

23

4 まとめ

Page 24: Mathematical Foundation of Statistical Learningwatanabe- · ②グレブナー基底 = ③. v の特異点は i (v) のヤコービ行列を使って判定できる。

まとめ

① 現代の学習モデルは特異点があるため学習曲線がわからなかった。

② 特異点解消定理に基づいて学習曲線を求められる。

③ ブローアップの繰り返しで特異点を解消しそのときのヤコービ行列式を求めればよい。