mathematical foundation of statistical learningwatanabe- · ②グレブナー基底 = ③. v...
TRANSCRIPT
初めての代数幾何学 ⑤
東京工業大学 渡辺澄夫
復習
① {V; 代数多様体} ⇔ {I(V);定義イデアル} は全単射。
② グレブナー基底 <LT(I)>=<LT(f1), LT(f2), ・・・,LT(fK)>
③ V の特異点は I(V) のヤコービ行列を使って判定できる。
④ 射影空間とブローアップ
⑤ 最終回 特異点解消定理と学習理論への応用
3
1 特異点解消定理
一般の代数多様体
1 アフィン空間の中の代数多様体
2 射影空間の中の代数多様体
3 ブローアップしてできる空間の中の代数多様体
→ アフィン空間の代数多様体の貼りあわせでできるものを一般の代数多様体という。
問題 各局所座標ではアフィン代数多様体であるものを貼り合わせてできるが、できあがった全体のものはどんなぐあいになっているのだろうか?
一般のブローアップ
代数多様体 V ⊂ Rn とし、W=V(x1,x2,…,xr) ⊂V とする。V の W を中心としたブローアップは
BW(W)= {(x,(x1:x2:…:xr)) ; (x,y)∈ V - W}
これは第 Uj 座標で代入
x1=xj’x1’x2=xj’x2’xj=xj’xr=xj’xr
を行うことと等価になっている。
特異点解消定理
代数多様体 V ⊂ Rn について、V の特異点の集合Sing(V) に含まれる非特異集合 W を見つけて、(微分同相な)変数変換により W を W=V(x1,x2,…,xr) に変換して、V を W でブローアップし BW(V) を求める
ことを繰り返していくと、その有限回の繰り返しの手続きの中に特異点が解消されるものが存在する。
(注意)ブローアップの定義では、例外集合が取り除かれてしまうが、応用上は例外集合も大切である。
特異点がなくなるまでブローアップする
x = x1y1y = y1
x=x2y=x2y2もともと
の空間 これらを貼りあわせたもの
K(w)
0 ∞
w = g(u)
プロパー
K(g(u))= u12k1 u2
2k2 ・・ud2kd
特異点解消定理 (広中の定理,1964)
貼りあわせたものもともとの空間
|g(u)’| = | u1h1 u2
h2 ・・udhd |
9
例 K(a,b,c) = a2b2+b2c2+c2a2
K(a1,b1,c1) = a14(b1
2+b12c1
2+c12)
a = a1b = a1b1c = a1c1
ブローアップ
b1 = b2c1 = b2c2
ブローアップ
K(a2,b2,c2) = a24 b2
2(1+b24c2
2+c22)
全部で3個のアフィン空間になるが対称性から他の座標も同じ
2個のアフィン空間になるが対称性から他の座標も同じ
6個のアフィン空間の貼り合わせで特異点解消できた。
10
ヤコービ行列式を計算する
a = a1b = a1b1c = a1c1
b1 = b2c1 = b2c2
a = a1b = a1b2
c = a1b2c2
を合成すると
ふたつのブローアップ
ヤコービ行列式は |g’(u)| = |a12b2|
11
2 学習理論への応用
12
学習理論とは
パラメータ (a1,…,ak) を持つ条件つき確率
p(y|x,a1,…,ak) がデータ {Xi,Yi;i=1,2,…,n} から
真の条件つき確率を推測する。
データが多くなれば推測は少しずつ正確に
なっていくが、それはどの程度だろうか。という
問題は、学習モデルの何によって決まるのか。
13
古典的な学習モデル
Y = a1+a2 X+a3 X2+・・・+ aKXK-1 + 雑音
条件つき確率 p(y|x,a1,…,ak)
パラメータとモデルは1対1に対応する
p(y|x,a1,…,ak) = p(y|x,b1,…,bk) ⇔ (a1,…,ak) = (b1,…,bk)
p(y|x,a1,…,ak) と p(y|x,b1,…,bk) の違いは局所的に2次式で近似できる。
14
古典的な誤差関数
(a1,…,ak)
現代の学習モデル
Y = a1 sin(b1x) + a2sin(b2x)+ 雑音
[ {a1 =0} ∩ {a2 =0}] ∪
条件つき確率 p(y|x,a1,a2,b1,b 2)
p(y|x,a1,a2,b1,b 2) = p(y|x,0,0,0,0)
[ {a1 =0} ∩ {b2 =0}]
∪ [ {a2 =0} ∩ {a1 =0}] ∪ [ {b1 =0} ∩ {b2 =0}]
∪ [ {a1 = a2 } ∩ {b1 = - b2}]
∪ [ {a1 = -a2 } ∩ {b1 = b2}]
⇔
深層学習のネットワーク
パラメータ wij, wjk, wkm , θk , θj , θi がパラメータ
x1 xm xM
o1 oi oN
oj
ok
H2
H1
N
M
oj=σ(∑wjkok+θj)H1
k=1
oi =σ(∑wijoj+θi)H2
j=1
中間層2から出力へ
中間層1から中間層2へ
ok=σ(∑wkmxm+θk)M
m=1
入力から中間層1へ
二つの深層学習がほぼ同じ推論でもパラメータはまったく違う
17
学習曲線
学習したデータの個数 n
予測時における誤差 G の平均
G = λ / n
古典的なケースではλ=パラメータ数/2.
現代のケースではわかっていなかった
18
学習曲線
K(g(u))= u12k1 u2
2k2 ・・ud2kd
|g(u)’| = | u1h1 u2
h2 ・・udhd |
現代的なモデルにおいては
のときには 学習曲線の係数は下記のものになる。
λ = minj=1d [ ( hj+1) / (2kj ) ]
特異点解消により 学習曲線を求めることができた。
19
3 具体例
x1
x2
x3
x1
x2
x3
y
a
b
c真
モデルp(x1,x2,x3|a,b,c)
ボルツマンマシン
p(x1,x2,x3|a,b,c)= Σ exp(ax1y+bx2y+cx3y) y=±1
1Z
真の分布が独立、1個の隠れユニットを持つボルツマンマシンで学習したとき
ボルツマンマシン
p(x1,x2,x3|a,b,c)
=(1/8){1+t(a)t(b)x1x2+t(b)t(c)x2x3+t(c)t(a)x3x1}
t(a)=tanh(a) とおくと
Σx1,x2,x3=±1 { p(x1,x2,x3|a,b,c) - p(x1,x2,x3|0,0,0) }2
∝ (t(a)t(b))2 + (t(b)t(c))2 +(t(c)t(a))2
= a2b2+b2c2+c2a2 +・・・
22
例 K(a,b,c) = a2b2+b2c2+c2a2 +・・・
K(a1,b1,c1) = a14(b1
2+b12c1
2+c12)
a = a1b = a1b1c = a1c1
b1 = b2c1 = b2c2
K(a2,b2,c2) = a24 b2
2(1+b24c2
2+c22)
λ=min(3/4,2/2,1/0)=3/4
ヤコービ行列式は |g’(u)| = |a12b2|
学習曲線は G= 3/4n
23
4 まとめ
まとめ
① 現代の学習モデルは特異点があるため学習曲線がわからなかった。
② 特異点解消定理に基づいて学習曲線を求められる。
③ ブローアップの繰り返しで特異点を解消しそのときのヤコービ行列式を求めればよい。