カーネル法の新展開...

30
1 福水 健次 統計数理研究所 / 総合研究大学院大学 15回情報論的学習理論ワークショップ(IBIS20122012.11.7‐9. @筑波大学東京キャンパス カーネル法の新展開 ー その理論と応用 ー

Upload: others

Post on 22-Sep-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

1

福水 健次

統計数理研究所/ 総合研究大学院大学

第15回情報論的学習理論ワークショップ(IBIS2012)

2012.11.7‐9. @筑波大学東京キャンパス

カーネル法の新展開ー その理論と応用 ー

Outline

2

1. イントロダクション: カーネル法の概要

2. 確率分布の表現としてのカーネル法

3. 条件付確率の表現と推定精度

4. カーネル推論則

5. おわりに

データの高次元性,非線形性

• 高次元データに潜む非線形性,複雑な構造生物,遺伝,文書,ソーシャルネットワーク,宇宙,気象,…

• データの非線形性の抽出Commonpractice: (X, Y, Z) (X, Y, Z, X2, Y2, Z2, XY, YZ, ZX, …)

• 高次元性に伴う計算量爆発

例) 10,000次元データに2次特徴を加えると

特徴空間の次元 =10000C1 +10000C2 =50,005,000(!)

• より効率的な方法は? カーネル法

正定値カーネルと再生核ヒルベルト空間

4

定義. :集合. ∶ Ω Ω → が正定値であるとは,

, , [対称]かつ任意の ∈ , , … , ∈ に対し

Gram行列 が半正定値行列.

例) GaussianRBFカーネル

Laplaceカーネル

• 再生核ヒルベルト空間(ReproducingkernelHilbertspace,RKHS)• 正定値カーネルにより定まる,Ω上の関数からなる関数空間.

• 特殊な内積を持つ.

,

exp || || /2exp ∑ | |

(再生性), ∙,

データ変換:RKHSへの特徴写像

5

• 特徴ベクトル: , … , ↦ Φ , … , Φ

• カーネルトリック

内積計算: ∑ Φ , ∑ Φ ∈ ,

, ∑ ,, β

Φ ,Φ ∙, , ⋅, ,

特徴空間上で線形データ解析を行う.

SVM, PCA, CCA, etc

特徴空間(関数空間)

xi

H

xj

ixjx

元のデータ空間

特徴写像

ΦΦ

6

• 線形アルゴリズムのカーネル化(既存)

• 特徴ベクトルに対する線形アルゴリズム さまざまなカーネル法

e.g.カーネルPCA,非線形SVM,カーネルCCA,etc.

• 大きさ (データ数)の Gram行列計算に還元される.

• 高次元データに適する.c.f.高次項による展開

• データ数 が大きい時は低ランク近似が有効.

• カーネル法の新しい展開

• カーネル平均,条件付カーネル平均を用いた確率分布の表現

• Gram行列計算によるノンパラメトリックな推論計算の実現

7

• 既存のノンパラメトリック推定• 平滑化カーネル(正定値とは限らない):

カーネル密度推定,局所多項式 /• 特性関数の方法:• スプライン,ウェーブレット,etc,etc,

「次元の呪い」

• 平滑化カーネル: 高次元(4,5次元ぐらい)で困難

• カーネル法によるノンパラメトリック推定• 何ができるのか?

• 「次元の呪い」を解決しているか?

確率分布の表現としてのカーネル法

8

カーネル平均:特徴ベクトルの平均

9

:可測空間 Ω上に値を取る確率変数 ~ :Ω上の正定値カーネル. : で定まるRKHS.

Def. における のカーネル平均:

• 期待値の再生性

, ∀ ∈ .

• カーネル平均は の高次モーメントの情報を持つ.例) , ⋯ 0 , e.g.,

モーメント母関数

≔ Φ ⋅, ⋅, ∈

特性的なカーネル(Fukumizuetal.JMLR2004,AoS 2009;Sriperumbuduretal.JMLR2010)

10

Def. 有界で可測な正定値カーネル が特性的(characteristic)とは,

が単射であることをいう.すなわち

~ ⋅, ~ ⋅, ⇔ .

特性的なカーネルによるカーネル平均 は,確率分布を一意に定める.

例:Gaussian,Laplaceカーネル (多項式カーネル:非特性的.)

c.f.特性関数 .カーネル平均効率的な計算が可能.

P → , ↦

カーネル法によるノンパラメトリック推論の原理

11

特性的なカーネルにより,

確率分布に関する推論 ⇒ カーネル平均に関する推論・計算

• 分布の均一性検定( か?) ?• 独立性検定( と は独立か?) ⊗ ?

RKHSにおける分散共分散

12

(X ,Y :X Y に値を取る確率変数

, , , :X ,Y 上のRKHSと正定値カーネル

Def. (非心化)共分散作用素 : → , : →

• 通常の共分散行列(線形写像)のRKHS値変数への一般化

• テンソル(積空間)との同一視:

一般に 線形写像 ≅ 2階のテンソル

Φ Φ , Φ Φ

Φ ⊗Φ ∈ ⊗

↦ , ↔ ⊗ (ランク1の場合)

サンプルによる推定

13

, , , … , , ~ ,i.i.d.,推定量: 標本平均,標本共分散でOK

• さまざまな量がGram行列で表現可能

• 1/ ‐オーダーでの一致性 (innorm)や中心極限定理が保証される (seee.g.,Berlinet &Thomas‐Agnan 2004)

1⋅, ,

1⋅, ⊗ ⋅,

条件付確率の表現と推定精度

14

条件付カーネル平均

15

• X,Y:ガウス確率変数(∈ , ℓ, resp.)

• 特性的なカーネルを用いると,一般のX ,Yに対し

argmin∈ ℓ

,

Φ Φ

argmin∈ ⊗

Φ ,

を与えたときの の条件付確率のカーネル平均

, Φ

Φ

条件付カーネル平均の応用

16

• 確率モデルに基づく推論 e.g.グラフィカルモデル (後述)

• 条件付独立性/依存性 (Fukumizuetal.JMLR2004,AoS 2009,NIPS2010)

• ノンパラメトリック回帰(c.f.ガウス過程/カーネルリッジ回帰)

⋅ ⋅, , … , ⋅, ∈ ,

, … , ∈

|

: 正則化係数

収束の速さ

17

Y :1次元と仮定.Xのみにカーネルを用いる

ガウス過程/カーネルリッジ回帰

• 一致性 1(Eberts &Steinwart,NIPS2011)∈ , :ガウスカーネル, ∈ ,ある種の緩い

仮定のもと,任意の >0に対し,

Note: は,線形推定量の最適オーダー (Stone1982).

| ≔

| | → ∞

* :オーダー のSobolev空間

18

• 一致性 2(case: ∈ )

を特性的, ∈ Range ( 0)とするとき,

• 収束のレートは m( の次元)に依存しない(「次元の呪い」の解消?)しかし「一致性1」の → ∞の場合より遅い.

• GaussianRKHS⊂ ,稠密

• 「一致性1」では, の任意の関数をGaussianRKHSのなる関数により近似する際の,モデル誤差の議論

が必要.モデル誤差は次元に依存.

| | ,

| ,

比較実験

19

• 実験条件カーネルリッジ回帰(Gaussカーネル)

局所線形回帰(Epanechnikov kernel) (R:‘locfit’パッケージ)

, ~ 0, , ~ 0, 0.1

(A) exp

(B) ⋯ , notincludedinGaussianRKHS

(C) 1/ 1.5 | | notincludedinGaussianRKHS

データ数 n =100,次元 m =1,…,10(atmost),500runs

バンド幅,正則化係数はCVで選択.

20

0 2 4 6 8 100

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

Dimension of X

Mea

n sq

uare

err

ors

Kernel methodLocal linear

0 2 4 6 8 100

0.005

0.01

0.015

Dimension of X

Mea

n sq

uare

err

ors

Kernel methodLocal linear

0 2 4 6 8 100

0.5

1

1.5

2 x 10-3

Dimension of X

Mea

n sq

uare

err

ors

Kernel methodLocal linear

(A) exp

(B) ∑

(C) 1/ 1.5 | |

カーネル推論則

21

条件付確率を用いた推論則

22

• Sumrule: |

• Chainrule: ,

• Bayes’rule:

• カーネル化:• 変数の関係をすべてデータで表す(ノンパラメトリック!)

• 分布をすべて(重み付)カーネル平均,共分散作用素で表現

• Gram行列計算によって上記の計算ルールを実現する.

KernelSumRule

23

• Sumrule: |

• カーネル化:

• Gram行列表現:

Input: ∑ Φℓ , , , … , , ~ ,

∑ Φ , .

• Intuition: Φ , Φ Φ Φ

ΦΦ

,

KernelChainRule

24

• Chainrule: , |

• カーネル化:

• Gram行列表現:

Input: ∑ Φℓ , , , … , , ~

∑ Φ ⊗Φ , .

• Intuition: Note : → ⊗ , Φ ⊗ Φ ⊗ΦFromSumRule,

Φ ⊗Φ ′

Φ ⊗Φ

, |

KernelBayes’Rule

25

• ベイズルール

• カーネルベイズルール (KBR,FukumizuetalNIPS2011)ベイズ則は, , に対する, → の回帰.

• Gram行列表現: Input: ∑ Φℓ , , , … , , ~ ,

| ∑ Φ ,

| , , , … , ,

| Λ Λ Λ ,Λ Diag

, .

,

| Φ

where

KBRによる推論

26

KBRは事後確率 | 自身ではなく,そのカーネル平均を推定.

Bayes推論にどのように用いるか?

• ∈ に対する のノンパラメトリック回帰

where , … , .

• 点推定:

数値的解法が必要

| → .

argmin | Φ

(一致性)KBR推定量

カーネル推論則の応用例

27

完全な「ノンパラメトリック」ベイズ推論

分布の情報もサンプルで表現

c.f.“いわゆる”ノンパラメトリックベイズ

応用例

• ノンパラメトリックHMM(Fukumizuetal.NIPS2011)や | をサンプルで表現.

• KernelApproximateBayesianComputation(KernelABC)(Nakagome ,Fukumizu,Mano.2012)

尤度関数が陽に書けない場合

• カーネルBeliefPropagation(Songetal,AISTATS2011)

• POMDP:Bellman方程式のカーネル化 (NishiyamaetalUAI2012)

X0 X1 X2 X3 XT

Y0 Y1 Y2 Y3 YT

28

• ノンパラメトリックHMMへの応用:カメラ角度の推定• 隠れ変数 :室内に位置を固定されたビデオカメラの角度.• 観測変数 :部屋の動画像 +人工ガウスノイズ.• 20x20RGB画素 (1200次元 ).

28

noise KBR(Trace) Kalmanfilter(Q)

2 = 10-4 0.15 0.01 0.56 0.022 = 10-3 0.21 0.01 0.54 0.02

AverageMSEforcameraangles(10runs)

TorepresentSO(3)model,Tr[AB‐1]forKBR,andquaternionexpressionforKalman filterareused.

おわりに

29

• カーネル法は,ノンパラメトリック推論の有力な方法論• 高次元データに対する適性: 計算量,推定精度

• カーネル平均,共分散作用素に基づく推論則.• 完全な「ノンパラメトリック」な推論

• ベイズ推論が実現可能.

• セミパラメトリックなカーネルベイズへの展開• パラメトリック部分+ノンパラメトリック部分(カーネル法)

例)セミパラメトリックHMM遷移過程:条件付確率known観測過程:unknownだがデータが存在

• 粒子フィルタ+カーネル法(D40,金川ら)

• 厳密計算+カーネル法(D46,西山ら)

X0 X1 X2 X3 XT

Y0 Y1 Y2 Y3 YT

30

ArthurGretton(UCL/MPI)

BernhardSchölkopf(MPI)

LeSong(GeorgiaTech)BharathSriperumbudur (Cambridge)

中込滋樹(ISM) 間野修平(ISM)

Collaborators

西山悠(ISM) 金川元信(奈良先端)