正定値カーネルを用いた データ解析extended version. 2 概要...
TRANSCRIPT
1
正定値カーネルを用いたデータ解析
福水健次
情報・システム研究機構 統計数理研究所
総合研究大学院大学
August 8. YSG 2005
Extended version.
2
概要
イントロダクション
正定値カーネルと再生核ヒルベルト空間
さまざまなカーネルアルゴリズム
セミパラメトリック推定問題への応用ー 独立性と条件付独立性 ー
おわりに
3
イントロダクション
非線形データ解析としてのカーネル法古典的なデータ解析
データの行列表現
⇒ 線形の処理 (主成分分析,正準相関分析,線形回帰...)
線形で十分か?
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=
Nm
N
m
m
XX
XX
XX
X
1
221
111
m 次元 N 点のデータ
4
-6 -4 -2 0 2 4 6-6
-4
-2
0
2
4
6
0
5
10
15
20 0
5
10
15
20
-15
-10
-5
0
5
10
15
イントロダクション
非線形変換によるデータの簡単化
)2,,(),,( 2122
21321 xxxxzzz =
x1
x2
z1
z3
z2
線形識別不能 線形識別可能
5
イントロダクション
カーネル法: 関数空間への変換
X : Ω に値をとる
確率変数
Φ(x) zi
H : 関数空間 (ヒルベルト空間)
xi
Ω : もとのデータの空間
Φ(X) : Η に値をとる
確率変数
あるいは、
無限次元でもよい
6
1. 正定値カーネルと再生核ヒルベルト空間
7
正定値カーネル
正定値カーネルΩ:集合.
k(x,y) がΩ上の正定値カーネル
1. (対称性) k(x,y) = k(y,x)2.(正定値性) 任意の n ∈Nと,任意のx1, …, xn ∈ Ωに対し
が(半)正定値.すなわち,任意の実数 c1,…, cn に対し,
(半)正定値対称行列 を,グラム行列と呼ぶ
0),(1,
≥∑ =
n
ji jiji xxkcc
( )njiji xxk
1,),(
= ⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛=
),(),(
),(),(
1
111
nnn
n
xxkxxk
xxkxxkn×n 行列
( )njiji xxk
1,),(
=
R→Ω×Ω:k
8
正定値カーネルの例
多項式カーネル
ガウスカーネル(RBFカーネル)
Fourierカーネル(複素数値)
dT cyxyxk )(),( +=mR=Ω
( d:自然数, )
⎟⎠⎞
⎜⎝⎛ −−= 2
2
1exp),( xyyxkσ
mR=Ω( σ > 0 )
mR=Ω )(1),( yxT
eyxk −−= ω mR∈ω
0≥c
( )
9
再生核ヒルベルト空間
定理
k(x,y) : 集合 Ω 上の正定値カーネル
Ω 上の関数からなるヒルベルト空間 Hk が一意に存在して,
次の3つを満たす
(1)
(2) 有限和 の形の元は Hk の中で稠密
(3) (再生性)
注) k(・, x) ・・・ x を固定した1変数関数
Hk : (k に対する)再生核ヒルベルト空間(reproducing kernel Hilbert space, RKHS)
kHxk ∈⋅ ),( ( x ∈ Ω は任意に固定)
∑ = ⋅= ni ii xkcf 1 ),(
),(,)( xkfxf ⋅= ∀ f ∈Hk, x∈Ω
10
RKHSによるデータ表現
底空間からRKHSへX : Ω に値をとる確率変数
k : Ω 上の(可測な)正定値カーネル, Hk : RKHS
Φ(X) : Hk に値をとる確率変数 Φ(X) に対してデータ解析
X1, X2, …, Xn : サンプルΦ(X1), Φ(X2), …, Φ(Xn) : Hk への埋め込み
: , ( ) ( , )kH x k xΦ Ω → Φ = ⋅
11
RKHSの利点
内積計算が容易ヒルベルト空間内でのデータの相関が計算可能
Gram行列が活躍
c.f. L2 空間: 内積計算には積分必要
( ), ( ) ( , ), ( , ) ( , )x y k x k y k x yΦ Φ = ⋅ ⋅ =
( ), ( ) ( , )i i j j i j i ji j i ja X b X a b k X XΦ Φ =∑ ∑ ∑ ∑グラム行列
特に2 2( ) ( , ) ( , )x k x k x xΦ = ⋅ =
12
RKHSの利点
関数の連続性、微分可能性k :連続(微分可能) Hkに属する任意の関数は連続(微分可能)
c.f. L2 空間: 1点における関数の値すら定まらない
L2 よりも狭く扱いやすいk(x, x) が2乗可積分ならば、 かつ
{ }
22
2 2
2
( ) ( ) , ( , ) ( , )
( , ) ( , )
( , ), ( , ) 2 ( , ), ( , ) ( , ), ( , )
f x f y f k x k y
f k x k y
f k x k x k x k y k y k y
− = ⋅ − ⋅
≤ ⋅ − ⋅
= ⋅ ⋅ − ⋅ ⋅ + ⋅ ⋅2 ( ( , ) 2 ( , ) ( , )) 0 ( )f k x x k x y k y y x y= − + → →
連続性)
(Schwartz)
2 ( )kH L μ⊆
( )21/ 2
( ) ( , )kL Hf k x x d fμ μ≤ ∫
13
正定値性の判定
基本的な正定値カーネルk(x,y) = f(x) f(y) ( f : Ω R は任意の関数)
正定値性を保つ変換k1(x, y) ,k2(x, y) : 正定値、 a1, a2 ≧ 0
非負結合
積 k1(x, y) k2(x, y) : 正定値
各点収束 k1(x, y), k2(x, y), … :正定値 :正定値
正規化 k(x,y) : 正定値、 f : Ω R は任意の関数f(x) k(x,y) f(y) : 正定値
特に
),(),( 2211 yxkayxka + : 正定値
lim ( , )nnk x y
→∞
),(),(),(),(~
yykxxkyxkyxk = : 正定値 (正規化)
14
正定値性の判定
多項式カーネル
xTy は正定値 ∵) xTy = x1y1 + x1y1 + … + xmym
⇒ xTy + c は正定値 ( c ≧ 0 )
⇒ (xTy + c)d は正定値 (d 個の積)
Fourierカーネル
Gaussカーネル
( ) ( ) ( )yxyx TTT ωωω 1exp1exp)(1exp −−−=−− )()( yfxf=
( ) ( ) ( )2 21 12 2
1exp || || exp || || exp 1(2 ) m
Tm R
x x dω ω ωπ
− = − −∫ガウス関数の Fourier変換は,またガウス関数
( ) ( ) ( )221 12 2exp || || exp 1 ( ) expT
t tt x y x yω ω− − − → − −∑
正定値
15
Rm上の正定値カーネル
Bochner の定理k(x,y) = φ(xーy) の形を持つ Rm 上の関数が正定値であるための
必要十分条件は, Rm 上の測度 μ が存在して、関数 φ(z) が,
と表されることである。特に、 φ(z) のFourier変換が非負実数関数ならば φ(xーy) は正定値。
上の積分表示を持つ φ(z) が正定値であることは、
ガウスの場合と同様。実は、この形で尽くされている。
Fourierカーネル が、正定値カーネル全体の成す閉凸錐を張っている。
Bochnerの定理はAbel群上(半群上)のカーネルに拡張可能。
( )( ) exp 1 ( )mTz z dφ ω μ ω= −∫R
測度(非負)Fourierカーネル(正定値)
( ))(1exp yxT −− ω
Remarks
16
2. さまざまなカーネル
アルゴリズム
17
線形手法のカーネル化
RKHSでの線形アルゴリズムデータが Rm のベクトル
線形アルゴリズムの利用 (線形回帰、PCA、CCA etc)相関、分散共分散行列の計算が本質的
内積計算ができれば、ヒルベルト空間内のデータにも適用可能
RKHSにおける線形アルゴリズム
データの空間での非線形アルゴリズム
SVM(カーネル最大マージン識別器)
カーネル主成分分析(カーネルPCA)カーネル正準相関分析(カーネルCCA)カーネルFisher判別分析
カーネルロジスティック回帰 etc
18
PCAとカーネルPCA主成分分析(PCA,復習)m 次元データ X1, …, XN
PCA ・・・ 分散が最大になる方向(部分空間)にデータを射影
単位ベクトル a 方向の分散:
V の単位固有ベクトル u1, u2, …, um ( λ1 ≧ … ≧ λm )
第 p 主成分の軸 = up
データ Xj の第 p 主成分 =
Ti
Ni iN XXV ~~
11 ∑ ==
∑ =−= Nj jNii XXX 1
1~ (中心化)
分散共分散行列
jTp Xu
VaaXaXa TNi i
TN
T == ∑ =121 )~(][Var
19
PCAとカーネルPCA
カーネルPCA(Schölkopf et al. 98)カーネル k を設定
データ X1, …, XN ∈ ΩHk 上でPCA単位ベクトル h 方向の分散 =
としてよい(直交方向は分散に寄与しない)
分散
kjj HXk ∈⋅= ),(φ
∑ =Ni ih
N 1
2~,1 φ
ただし ∑ =−= Nj jNii 1
1~ φφφ (中心化)
最大化
∑ == Ni iih 1
~φα
2 21 1
1 1,N N Tj j aa j K
N Nα φ φ α α= == =∑ ∑
jiijK φφ ~,~~ =ただし
|| || 1 1Th Kα α= ⇔ =
最大化
制約
20
カーネルPCAのアルゴリズム
中心化グラム行列の計算
固有分解
主成分
* φ1 ,…, φN に対する計量的MDSに他ならない
計量(相関)が正定値カーネルによって定義されている
∑ == Na
Taaa uuK 1
~ λ
2
11
1 11 , 1
( , ) ( , )
( , ) ( , )
Nij i j i aaN
N Na j a ba a bN N
K K X X K X X
K X X K X X=
= =
= −
− +
∑
∑ ∑( )ijNN KQQ=
,1 TNNNNN IQ 11−= 1N = (1,…,1)Tただし
データ Xj の第 p 主成分 =p
p juλ
21
正準相関分析(CCA)CCA(復習)2種類の多次元データの相関が最もよく表れる方向を探す
m 次元データ X1, …, XN
n 次元データ Y1, …, YN
X を a 方向,Y を b 方向に射影したときに相関が大きくなる(a,b) を求める
正準相関 ( )( )( ) ( ) bVbaVa
bVa
YbXa
YbXa
YYT
XXT
XYT
ba
i iT
Ni iT
N
i iT
iT
N
ba
n
m
n
m
RR
RR
∈∈
∈∈
==∑∑
∑ max~~
~~max
2121
1ρ
X Ya
aTX bTYb
∑= iT
iiNXY YXV ~~1 などただし
22
正準相関分析(CCA)
CCAの手続き
特異値分解
CCAの解
( )( )( ) ( )vu
vVVVubVaV
bVVVVVa YYXYXXT
vu
YYXX
YYYYXYXXXXT
ba
n
m
n
m
2/12/1
2/12/1
2/12/12/12/1
maxmax−−
∈∈
−−
∈∈
==RR
RR
ρ
1/ 2 1/ 2,XX YYu V a v V b= =
TYYXYXX VUVVV Λ=−− 2/12/1
),,( 1 muuU …=),,( 1 nvvV …=
01 ≥≥≥ λλ},min{ nm=
⎩⎨⎧
=
=−
−
12/1
12/1
vVb
uVa
YY
XX1λρ =
1
Oλ
λ
⎛ ⎞⎜ ⎟Λ = ⎜ ⎟⎜ ⎟⎝ ⎠
23
カーネルCCARKHS上でのCCA kX , kY : ΩX , ΩY 上の正定値カーネル
X1, …, XN φX1, …, φX
N
Y1, …, YN φY1, …, φY
N
カーネルCCA ・・・ φX を f ∈ HX 方向、 φY1 を g ∈ HY 方向に
射影したときに、最も相関が大きくなる f, g を求める
( , ),Xi X ik Xφ = ⋅
( , )Yi Y ik Yφ = ⋅
1
2 21 1
, ,max
, ,
X Y
XY
X Y
X Yi iiN H H
f H X Yg H i ii iN NH H
f g
f g
φ φ
φ φ∈∈
∑
∑ ∑
,X Yi iφ φ :中心化
でよいか?
24
カーネルCCAの正則化
正則化の必要性で十分(直交方向は寄与しない)1 ,N X
i iif a φ== ∑ 1N Y
i iig bφ== ∑
2 2max
N
N
TX Y
T TaX Yb
a K K b
a K a b K bρ
∈∈
=RR
,X YK K : 中心化Gram行列
,X YK K : N×N行列。 値域はともに N⊥1
X YK a K b= なる a, b に対し、常に ρ = 1 無意味
25
カーネルCCAの正則化
正則化 1
2 22 21 1
, ,max
, ,
X Y
XY
X YX Y
X Yi iiN H H
f H X Yg H i N i Ni iN NH HH H
f g
f f g g
φ φ
φ ε φ ε∈∈ + +
∑
∑ ∑
1 ,N Xi iif a φ== ∑ 1
N Yi iig bφ== ∑ とおくと
( ) ( )2 2max
N
N
TX Y
T TaX N X Y N Yb
a K K b
a K N K a b K N K bε ε∈∈
+ +RR
εN : 正則化定数
26
カーネルCCAのアルゴリズム
特異値分解
CCAの解
( ) ( )1/ 2 1/ 2X N N X Y Y N NK N I K K K N Iε ε− −
+ +
最大特異値に対する固有ベクトル : u1, v1
( ) 1/ 21,X N Na K N I uε −
= +
1
1
ˆ ,
ˆ
N XN i ii
N YN i ii
f a
g b
φ
φ=
=
⎧ =⎪⎨
=⎪⎩
∑
∑
( ) 1/ 21Y N Nb K N I vε −
= +
27
カーネルCCAの例
-1 -0.5 0 0.5 10
0.05
0.1
0.15
0.2
0.25
0.3
0.35
-1 -0.5 0 0.5 1-0.35
-0.3
-0.25
-0.2
-0.15
-0.1
-0.05
0
-1 -0.5 0 0.5 1-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35-0.35
-0.3
-0.25
-0.2
-0.15
-0.1
-0.05
0
y
x
y
x
ˆ ( )Nf x
( )ˆNg y
ˆ ( )Nf X
( )ˆNg Y
オリジナルデータ 変換後のデータ
ガウスカーネルを用いた
28
カーネルCCAの一致性
カーネルCCAの妥当性「正則化」によって得られた解の妥当性は?
推定問題としてのCCACCAの最終目標: ポピュレーションで考える
一致性
は f* , g* に収束するか?
収束のための εN の条件は?
収束を測るためのノルムは何か?
( )1/ 2[ ( ), ( )]max
[ ( )] [ ( )]XY
f Hg H
Cov f X g YVar f X Var g Y∈
∈
f* , g*
ˆ , ˆN Nf g
29
共分散作用素
共分散作用素の定義X , Y : ΩX , ΩY 上の確率変数
HX , HY : kX, kY により定まる ΩX , ΩY 上のRKHS有界な線形作用素
で次の関係が成り立つものが存在
有限次元の場合の共分散行列に対応
:YX X YH HΣ →
, [ ( ) ( )] [ ( )] [ ( )]YYX XY X Yg f E f X g Y E f X E g YΣ = −H
,X Yf H g H∀ ∈ ∀ ∈( )Cov[ ( ), ( )]f X g Y=
. .) Cov ,T T TYXc f b a a X b Y⎡ ⎤Σ = ⎣ ⎦
30
共分散作用素によるKCCAの表現
カーネルCCA(ポピュレーション)
カーネルCCAの解
ことが知られている。書き換えると
ξ∗, ζ∗: WYX の最大特異値に対する固有ベクトル
,max , YXf g
g fΣ , 1,XXf fΣ = , 1YYg gΣ =subj. to
1/ 2 1/ 2YX YY YX XXW − −= Σ Σ Σ
1/ 2 1/ 2* * * *,XX YYf gξ ζ− −= Σ = Σ
1/ 2 1/ 2YX YY YX XXWΣ = Σ Σ ( WYX は有界かつ || WYX ||≦1 ) とかける
31
共分散作用素によるKCCAの表現
経験共分散作用素
カーネルCCA(サンプル)
( ) 1 1 11 1 1
ˆ, ( ) ( ) ( ) ( )N N NNYX i i i ii i iN N Ng f f X g Y f X g Y= = =Σ = −∑ ∑ ∑
( )
,ˆmax , N
YXf gg fΣ ( ) ( )( ) ( )ˆ ˆ, , 1N N
XX N YY Nf I f g I gε εΣ + = Σ + =subj. to
ˆ ˆ,N Nξ ζ
( ) ( )1/ 2 1/ 2( ) ( ) ( ) ( )ˆ ˆ ˆ ˆ:N N N NYX YY N YX XX NW I Iε ε
− −= Σ + Σ Σ +
( ) 1/ 2
( ) 1/ 2
ˆ ˆˆ( )ˆˆ( )ˆ
NN XX N N
NN YY N N
f I
g I
ε ξ
ε ζ
−
−
⎧ = Σ +⎪⎨
= Σ +⎪⎩
: の最大特異値に対する固有ベクトル( )ˆ NYXW
階数有限の作用素
32
コンパクト作用素
定義H1, H2 : ヒルベルト空間
T : H H2 線形作用素
T がコンパクトであるとは、 H1内の任意の有界列 に対し、部分列 ni があって が H2 で収束することをいう。
コンパクト作用素の特異値分解コンパクト作用素は特異値分解が可能。
1{ }n nf ∞=
inTf
1 2 0,λ λ∃ ≥ ≥
11,i i iH
iT λ ξ ζ
∞
== ⋅∑
{ } 1i iξ ∞=∃ { } 1i iζ ∞
=∃: H1 の正規直交基底, : H2 の正規直交基底
33
固有ベクトルの収束
作用素ノルムH, G : ヒルベルト空間
T : H G 有界線形作用素
固有ベクトルの収束H1, H2 : ヒルベルト空間、 T, Tn : H1 H2 コンパクト作用素
(ξ∗, ζ∗) : T の最大特異値に対する単位固有ベクトル
(ξn, ζn) : Tn の最大特異値に対する単位固有ベクトル
Tnが T にノルム収束する(|| Tn – T || 0 )ならば、
0sup G
f H
TfT
f≠= ・・・ 作用素ノルム
(行列の場合の最大固有値に対応)
1*, 1,n Hξ ξ →2*, 1 ( ).n H nζ ζ → → ∞
34
カーネルCCAの一致性
補題1
WYX がコンパクト作用素、かつ正則化係数が
を満たすならば、 N ∞ のとき、
は WYX にノルム収束の意味で確率収束する。
1/30, ( )N NN Nε ε→ → ∞ → ∞
( ) ( )1/ 2 1/ 2( ) ( ) ( ) ( )ˆ ˆ ˆ ˆN N N NYX YY N YX XX NW I Iε ε
− −= Σ + Σ Σ +
35
カーネルCCAの一致性
定理1
WYX がコンパクト作用素、かつ正則化係数が
を満たすならば、
と確率収束する。
1/30, ( )N NN Nε ε→ → ∞ → ∞
*ˆ , 1,
XNξ ξ →
H *ˆ , 1
YNζ ζ →
H( )N → ∞
RKHSでの収束は非常に強い。各点収束、および正定値カーネルが連続なら一様収束をも意味する。
36
カーネルCCAの一致性
定理2 (カーネルCCAのL2収束)
WYX がコンパクト作用素、かつ正則化係数が
を満たし、ξ* と ζ* がそれぞれ ΣXX と ΣYYの値域に含まれるならば、
と確率収束する。
1/30, ( )N NN Nε ε→ → ∞ → ∞
( ) ( )2 ( )
ˆ ˆ[ ( )] [ ( )] 0X
N X N X L Pf E f X f E f X− − − →
( ) ( )2 ( )[ ( )] [ ( )] 0ˆ ˆ
YN Y N Y L Pg E g Y g E g Y− − − → (N ∞ )
37
3.セミパラメトリック推定問題への応用
- 条件付独立性 -
38
確率変数の独立性
独立性の定義X, Y : 確率変数
PXY : 同時確率, PX , PY : 周辺確率,
X と Y が独立 ⇔
特性関数による特徴づけ
X と Y が独立 [ ] [ ] [ ]YY
XX
YXXY
TTTT
eEeEeeE ηωηω 1111 −−−− =⇔
⇔ の相関が 0YX TT
ee ηω 11 −− と
)()()( BPAPBAP YXXY =×
(∀ω, η)
yx TT
ee ηω 11 −− と は非線形相関をつくる変換
独立性 ⇔ 十分さまざまな非線形相関が 0
Fourierカーネル
39
再生核ヒルベルト空間と独立性
RKHSによる独立性の特徴づけ(B&J2002)
X, Y : 確率ベクトル
HX , HY : ガウスカーネルに対するRKHS
X と Y が独立
[ ] [ ] [ ])()()()( YgEXfEYgXfE YXXY =⇔ ,X Yf H g H∀ ∈ ∀ ∈
∵)十分豊かな非線形相関が表現可能
⇒ は常に成立。ガウスカーネルならば逆も成立
カーネル独立成分分析(セミパラメトリック問題)への応用
YX O⇔ Σ =
40
回帰問題における次元削減
回帰問題における有効な部分空間回帰問題 ・・・ Y を X で説明する
次元削減
)|()|( XBYpXYp T=
X : m 次元ベクトルB = (b1, …, bd) m x d 行列
)|( XYp の推定
となる B を探す.
BTX = (b1TX, .., bd
TX) は, Y に関してX と同じ情報量を持つ
有効部分空間(特徴ベクトル)
BTB = Id
41
回帰問題における次元削減
)1.0;0()exp(1
1 2
1
NX
Y +−+
=
有効部分空間 = X1軸
X1X2
Y
1X
Y
-10 -8 -6 -4 -2 0 2 4 6 8-0.2
0
0.2
0.4
0.6
0.8
1
1.2
2X
Y
42
次元削減と条件付独立性
X の分解 (U, V) = (BTX, CTX))(),( mOCB ∈
vuyuypvuyp UYVUY ,, )|(),|( |,| allfor=⇔
⇔ Y と V は U のもと条件付独立 UVY |⊥
)|()|( || xBypxyp TUYXY =⇔
XU V
Y
直交行列
B が有効な部分空間を与える
U :有効なベクトルの候補, V :それに直交する方向
43
条件付独立性と条件付分散
条件付分散X, Y : ガウスの場合
Var[Y | X ] = VYY – VYX VXX-1 VXY = (線形回帰の残差)
Var[Y | X ] が小さいほど X は Y の情報を多く含んでいる
X, Y : 一般の場合
X = (U, V) と分解すると
[Var[ ( ) | ]] [Var[ ( ) | ]]X UE g Y X E g Y U≤Y に関する情報が増えることはない
[Var[ ( ) | ]] [Var[ ( ) | ]]X UE g Y X E g Y U=UVY |⊥ ならば
(∀g )
(∀g )
Y に関する情報は落ちない
44
条件付独立性と条件付分散
条件付分散による条件付独立性の特徴づけ
Q: 逆に [Var[ ( ) | ]] [Var[ ( ) | ]]X UE g Y X E g Y U=UVY |⊥ならば か?
[Var[ ( ) | ]] [Var[ ( ) | ]]X UE g Y X E g Y U=
HY : ガウスカーネルによるRKHSUVY |⊥
⇔ Yg H∀ ∈
ガウスカーネルによるRKHSは十分豊かな非線形関数を含む。
( )g∀
45
条件付分散と共分散作用素
共分散作用素定義
正定値自己共役作用素
共分散作用素と条件付分散任意の に対し
1|YY X YY YX XX XY
−Σ ≡ Σ − Σ Σ Σ
( )1 1/ 2 1/ 2YX XX XY YY YX XY YYV V−Σ Σ Σ = Σ Σ
Yg H∈
( ) ( ) 2|, min ( ) [ ( )] ( ) [ ( )]
XYY X YX Y Xf
g g E g Y E g Y f X E f X∈
Σ = − − −H
[Var[ ( ) | ]]XE g Y X=
(多少条件が必要)
(残差)
46
共分散作用素と条件付独立性
条件付独立性の特徴づけ(FBJ2004)
kd(z1,z2) : d 次元ガウスカーネル
U = BTX に対するRKHSを kd で構成
常に
が成立。
さらに、若干の条件のもと、
| |Tr TrYY U YY X⎡ ⎤ ⎡ ⎤Σ ≥ Σ⎣ ⎦ ⎣ ⎦
( , ) ( , ).T TU V B X C X=
| || Tr TrYY U YY XY V U ⎡ ⎤ ⎡ ⎤⊥ ⇔ Σ = Σ⎣ ⎦ ⎣ ⎦
1Tr[ ] ,i i
iA e Ae
∞
== ∑* 1{ }i ie ∞
= : 正規直交基底
47
カーネル次元削減法
(X1,Y1),…,(XN,YN):サンプル
: kB (x1, x2) = kd(BTx1, BTx2) に対する中心化Gram行列
( ) 1( ) ( ) ( ) ( ) ( )|
ˆ ˆ ˆ ˆ ˆ:B N N B N B N B NYY X YY YX XX N XYIε
−Σ = Σ − Σ Σ + Σ
( ) 1( )|
ˆTr Tr TrB N B BYY X Y Y X N N XK K K N I Kε
−⎡ ⎤⎡ ⎤Σ = − +⎡ ⎤⎣ ⎦⎣ ⎦ ⎢ ⎥⎣ ⎦
( ) ( )1 1B B BX N N X N N X N NK N I K I N K N Iε ε ε
− −+ = − +
BXK
カーネル次元削減法(KDR)
( ) 1
:min Tr
Td
BY X N N
B B B IK K N Iε
−
=
⎡ ⎤+⎢ ⎥⎣ ⎦
48
KDRの応用例
-20 -10 0 10 20
-20
-15
-10
-5
0
5
10
15
20
-20 -10 0 10 20
-20
-15
-10
-5
0
5
10
15
20
-20 -10 0 10 20
-20
-15
-10
-5
0
5
10
15
20 CCA Partial Least Square
Sliced Inverse Regression
( )22exp),( σyxyxk −−=
σ = 30
-20 -10 0 10 20
-20
-15
-10
-5
0
5
10
15
20
KDR
Wine data (from UCI Repository)13 dim. 178 data.3 classes2 dim. projection
49
KDRの一致性
kd が有界かつ連続で、正則化係数が
を満たすとする。また最適パラメータ集合を S0 をかく。すなわち
このとき、適当な正則条件のもと、 なる任意の開集合 Uに対し
1/ 20, ( )N NN Nε ε→ → ∞ → ∞
定理3
{ }'0 | |'
| , Tr min TrT B Bd YY X YY XB
S B B B I ⎡ ⎤ ⎡ ⎤= = Σ = Σ⎣ ⎦ ⎣ ⎦
0U S⊃
( )( )ˆPr 1 ( ).NB U N∈ → → ∞
50
おわりに
正定値カーネルデータ間の内積(相関)構造を定める
その内積を持つ再生核ヒルベルト空間が定義される
カーネル法関数空間への変換による非線形相関の導入
従来の線形アルゴリズムを容易に拡張できる
カーネルPCA, カーネルCCA, カーネルFDA, SVM,カーネルロジスティック回帰 etc.
モデリング = カーネルの定義
問題の性質を反映したカーネルが重要
構造化データ(非ベクトル、グラフ、系列など)の扱いに便利
51
おわりに
セミパラメトリック問題への応用独立性、条件付独立性の特徴づけに必要な無限の自由度を扱うためにRKHSを用いる
カーネルICA, カーネル次元削減法
カーネル法に関するその他の話題SVMの詳細(最適化、汎化誤差など)
構造化データ(グラフ、系列など)の扱い
カーネルの最適設計、カーネルの学習
ガウス過程としての見方
52
参考文献全般
Schölkopf, B. and A. Smola. Learning with Kernels. MIT Press. 2002. John Shawe-Taylor & Nelo Cristianini. Kernel Methods for Pattern Analysis. Cambridge Univ. Press. 2004.
個別の話題
Kernel PCASchölkopf, B., A. Smola, K.-R. Müller. (1998) Nonlinear Component Analysis as a Kernel Eigenvalue Problem. Neural Computation 10, 1299–1319.
Kernel CCAAkaho, S. (2001) A kernel method for canonical correlation analysis. International Meeting on Psychometric Society (IMPS2001).Bach, F.R. and M.I. Jordan. Kernel independent component analysis. J. Machine Learning Research, 3, 1-48, 2002. Fukumizu, K. Bach, F.R., and Gretton, A. Consistency of Kernel Canonical Correlation Analysis. ISM Research Memo 942, 2005.
53
参考文献
カーネル次元削減法
Fukumizu, K., F.R. Bach, and M.I. Jordan. Dimensionality reduction for supervised learning with reproducing kernel Hilbert spaces, J. Machine Learning Research, 5, 73-99, 2004.
公開講座資料
2004年統数研公開講座「機械学習の最近の話題」
http://www.ism.ac.jp/~fukumizu/ISM_lecture_2004/index.html