선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 prml 겨울학교 2016 ......

45
Kernel Methods 패턴인식 및 기계학습 겨울학교 발표자료 2016. 01. 21. 고려대학교 제어계측공학과 박주영 90:30

Upload: others

Post on 04-Jul-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Kernel Methods

패턴인식 및 기계학습 겨울학교 발표자료2016. 01. 21.

고려대학교 제어계측공학과 박주영

90:30

Page 2: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Contents

- Introduction

- Support Vector Machines: Support vector classification (SVC), Support vector data description (SVDD), Reproducing kernel Hilbert space (RKHS), Representertheorem

- Gaussian Processes: Gaussian process regression (GPR), Gaussian process classification (GPC)

- Concluding Remarks

2겨울학교 고려대 제어계측공학과 박주영PRML 2016

Page 3: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Outline

- Introduction

- Support Vector Machines

- Gaussian Processes

- Concluding Remarks

3

Page 4: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Introduction

4PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 5: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Introduction

5PRML 겨울학교 2016 고려대 제어계측공학과 박주영

기계학습 이론 연구의 3대 요소

• 수학이론– Probability– Stochastic process– Functional analysis– …

• 최적화 기술– Convex optimization– Calculus of variations– Dynamic programming, Approximate dynamic programming– …

• 전기전자 컴퓨터 분야의 패턴인식 기술– Statistical pattern recognition– Programming (Matlab, Python, Theano, Torch7, TensorFlow, … )– …

Page 6: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Introduction

6PRML 겨울학교 2016 고려대 제어계측공학과 박주영

한국정보과학회, 패턴인식 및 기계학습 여름학교, 연세대학교, 2014 (주제: 기계학습을 위한 최적화 이론).

Page 7: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Introduction

7

Optimization

Static optimization(single stage)

Dynamic optimization(multiple stage)

Calculus(CG, Newton,…)

Lagrange multiplier approach

Calculus of variations

Dynamic programming

Deterministic Stochastic

Static optimization(single stage)

Dynamic optimization(multiple stage)

DP, ADP

Deterministic Stochastic

PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 8: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Introduction

8PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Probabilisticapproach

Non-probabilistic approach

Supervised learning

Unsupervised learning

Reinforcementlearning

Textbooks for Machine Learning

Page 9: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Introduction

9PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Introduction to Kernel methods

• Kernel methods use 𝑓𝑓(𝑥𝑥) = 𝑖𝑖=1𝑁𝑁 )𝛼𝛼𝑖𝑖𝑘𝑘(𝑥𝑥𝑖𝑖 , 𝑥𝑥

• The representer theorem (Schölkopf & Smola, 2002):– Let H be the RKHS (reproducing kernel Hilbert space) associated

to the kernel 𝑘𝑘. Denote by 𝛺𝛺: [0,∞) → 𝑅𝑅 a strictly monotonic increasing function, by 𝑋𝑋 a compact set, and by 𝑐𝑐: 𝑋𝑋 × 𝑅𝑅2 𝑚𝑚 → 𝑅𝑅 ∪ ∞ an arbitrary loss function.

– Then each minimizer 𝑓𝑓 ∈ 𝐻𝐻 of the regularized risk)𝑐𝑐((𝑥𝑥1,𝑦𝑦1, 𝑓𝑓(𝑥𝑥1)),⋯ , (𝑥𝑥𝑁𝑁,𝑦𝑦𝑁𝑁, 𝑓𝑓(𝑥𝑥𝑁𝑁))) + 𝛺𝛺(‖𝑓𝑓‖𝐻𝐻

admits a representation of the form

𝑓𝑓(𝑥𝑥) = 𝑖𝑖=1𝑁𝑁 )𝛼𝛼𝑖𝑖𝑘𝑘(𝑥𝑥𝑖𝑖 , 𝑥𝑥

Page 10: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Outline

- Introduction

- Support Vector Machines

- Gaussian Processes

- Concluding Remarks

10PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 11: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

11

점과 직선 사이의 거리

PRML 겨울학교 2016 고려대 제어계측공학과 박주영

점 (𝑥𝑥1, 𝑥𝑥2)에서 직선 𝑎𝑎𝑥𝑥1 + 𝑏𝑏𝑥𝑥2 + 𝑐𝑐 = 0 까지의 거리𝜌𝜌는 𝜌𝜌 = 𝑎𝑎𝑥𝑥1+𝑏𝑏𝑥𝑥2+𝑐𝑐𝑎𝑎2+𝑏𝑏2

특히, 원점과 직선 𝑎𝑎𝑥𝑥1 + 𝑏𝑏𝑥𝑥2 + 𝑐𝑐 = 0 사이의 거리 𝜌𝜌는 𝜌𝜌 = 𝑐𝑐𝑎𝑎2+𝑏𝑏2

𝐴𝐴(𝑥𝑥1∗, 𝑥𝑥2∗)

𝜌𝜌 =|𝑎𝑎𝑥𝑥1∗ + 𝑏𝑏𝑥𝑥2∗ + 𝑐𝑐|

𝑎𝑎2 + 𝑏𝑏2

𝑙𝑙 ∶ 𝑎𝑎𝑥𝑥1 + 𝑏𝑏𝑥𝑥2 + 𝑐𝑐 = 0𝑥𝑥1

𝑥𝑥2

𝐨𝐨

( )

T x bω φρ

ω

+=일반적인 경우:

Page 12: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

12

• Support vector classification (SVC)

PRML 겨울학교 2016 고려대 제어계측공학과 박주영

( ) 1

Trn data: , , where 1, 1N

n n nnD x t t

== ∈ + −

( ) ( )

( ) ( )( ) ( )

Decision fcn.:

Assumption: is linearly separable, i.e., , s.t. 0 for i.e., 1

0 for i.e., 1

Definition:- The separation margin : The distance betw

T

Tn n n

Tm m n

y x x b

D bx b x C t

x b x C t

ω φ

ω

ω φ

ω φ

ρ

+

= +

+ > ∀ ∈ = +

+ < ∀ ∈ = −

een the separating hyperplane and a closest data point, .nx SV∈

+

++

−−− 1φ

C+

C−

linear hyperplane

+

ρ

( )Tnx bω φ

ρω

+=

Page 13: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

13PRML 겨울학교 2016 고려대 제어계측공학과 박주영

( ) ( )( ) ( )

,

Maximum margin classification for the linearly separable cases:1max

s.t. 1 for

and 1 for

b

Tn n n

Tn n n

y x x b x C

y x x b x C

ωρ

ω

ω φ

ω φ+

=

= + ≥ + ∀ ∈

= + ≤ − ∀ ∈

( )

( )( )

2

,

1min ,2

s.t. 1 for 1,...,

pb

Tn n

J b

t x b n N

ωω ω

ω φ

⇔ =

+ ≥ + ∀ ∈

( ) ( )( ) ( )

Canonical representation:1 when SV

1 when SV

Tn n n

Tn n n

y x x b x C

y x x b x C

ω φ

ω φ+

= + = + ∈

= + = − ∈

Page 14: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

14PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 15: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

15PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 16: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

16PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 17: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

17PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 18: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

18PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 19: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

④ (Complementary slackness)

( ) ( )( ) 2

1

1Lagrange fcn.: , , 1 ,2

where are primal variables and is dual variable.

NT

n n nn

L b t x b

b

ω α ω α ω φ

ω α=

= + − +

,

SVM

19PRML 겨울학교 2016 고려대 제어계측공학과 박주영

( )( ) 1 1,...,Tn nt x b n Nω φ + ≥ + ∀ ∈

0 1,...,n n Nα ≥ ∀ ∈

( ) ( )1 1

1 1

0

0 0

N N

n n n n n nn n

N N

n n n nn n

L t x t x

L t tb

ω α φ ω α φω

α α

= =

= =

∂= − = ∴ =

∂∂

= − = ∴ =∂

∑ ∑

∑ ∑

( )( )

( )( )1 0 for 1,..., ,

i.e., 0 or 1 0 at the optimal solutions.

Tn n n

Tn n n

t x b n N

t x b

α ω φ

α ω φ

− + = ∀ ∈

= − + =

KKT conditions:

Page 20: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

20

Dual problem:

Notes:①

PRML 겨울학교 2016 고려대 제어계측공학과 박주영

( ) 1max 1 s.t. 02

T TDJ Q

αα α α α α∴ = − + ≥

( ) ( ) ( ) ( ) ( )Kernel trick: , , ; Mercer KernelTn m n m n mx x x x k x xφ φ φ φ= =

( ) ( )

( ) ( )

( ) ( )

[ ] ( ) ( )

,

1

1

min , ,

1 ,2

,

1 1 , where ,2

D b

N

n m n m n m nn m n

N

n m n m n m n nn m n

T Tnm n m n m

J L b

t t x x

t t x x t b

Q Q Q t t x x

ωα ω α

α α φ φ α

α α φ φ α

α α α φ φ

=

=

=

= +

− −

= − + = =

∑∑ ∑

∑∑ ∑

Convex QP has strong duality. i.e., . Its global opt. can be found efficiently.d p∗ ∗=

Page 21: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

21

Examples of Mercer’s kernels:

① RBF kernel:

② Polynomial kernel:

PRML 겨울학교 2016 고려대 제어계측공학과 박주영

( )2

2

1, exp2

x yk x y

σ

−= −

( ) ( ), ,d

k x y x y c= +

Page 22: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

22

Summary:

Primal problem:

Lagrange function:

Dual problem:

KKT conditions:

PRML 겨울학교 2016 고려대 제어계측공학과 박주영

( ) ( )( ) 2

1

1, , 12

NT

n n nn

L b t x bω α ω α ω φ=

= + − +∑

( )( ) 1 1,...,Tn nt x b n Nω φ + ≥ + ∀ ∈

0 1,...,n n Nα ≥ ∀ ∈

( )1 1

0, 0 , 0N N

n n n n nn n

L L t x tb

ω α φ αω = =

∂ ∂= = ∴ = =

∂ ∂ ∑ ∑( )( ) 1 0 for 1,...,T

n n nt x b n Nα ω φ− + = ∀ ∈

( ) 1max 1 s.t. 02

T TDJ Q

αα α α α α= − + ≥

( ) ( )( )2

,

1min ,b s.t. 1- 0, 2

Tp n nb

J t x b nω

ω ω ω φ= + ≤ ∀

Page 23: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

23PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Notes:

④ How to find b?

( )( ) ( )If 1 0 i.e., , then 0Tn n n nt x b x SVω φ α− + ≠ ∉ =

( )( ) ( )( )

If 0, then 1 0 i.e.,

Decision fcn.:

n

Tn n n n

n n n nx SV

t x b x SV

t x

α ω φ

ω α φ∈

≠ − + = ∈

∴ = ∑

( ) ( ) ( ) ( )

( ) ( )

,

, Kernel trickn

n

Tn n n

x SV

n n nx SV

y x x b t x x b

t k x x b

ω φ α φ φ

α∈

= + = +

= +

( )Sparse solution, i.e., we need not all data points, but just support vectors

( )For all , we have , 1. ( )

Hence, by solving the linear equation ( ), we can obtain the bias term .m

n n m m m nx SV

x SV t t k x x b

b

α∈

∈ + = ∗

Page 24: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Non-separable cases:

We start from

Then we obtain

Note: The results remain almost the same except the upper bdd here.

SVM

24PRML 겨울학교 2016 고려대 제어계측공학과 박주영

( )( )

2

, 1

1min , where is trade-off constant.2

s.t. 1 1,...,

0 1,...,

N

nb n

Tn n n

n

C C

t x b n N

n N

ωω ξ

ω φ ξ

ξ

=

+

+ ≥ − ∀ ∈

≥ ∀ ∈

∑P

D1max 1 s.t. 0 C2

T TQα

α α α α− + ≤ ≤ 1

Page 25: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

25

One Class Problems

PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Goal: To distinguish one class of objects from other objects.

1Idea: Given the trn points generated from some distribution,

find its main support rather than its density.

Ni i

x=

Traditional approach:

× ×× × × × ×threshold

( )normal region essential support=

abnormalnormalf

Page 26: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

26

Notes:

Applications: Network intrusion detection Jet engine failure detection Fraud detection …

PRML 겨울학교 2016 고려대 제어계측공학과 박주영

normalWhat we need is the essential support of .f

( ) ( ) supp closure | 0 , essential supp closure | thresholdf x f x f x f x> >

normalTo find is NOT easy.f

SVDD strategy: Directly focus on the essential support.

Page 27: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

27

• Support vector data description (SVDD) [Tax & Duin]

PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Main idea: Given the trn data 𝑥𝑥𝑖𝑖 𝑖𝑖=1

𝑁𝑁 , find a hypersphere which contains as many as possible of the training data while keeping the radius small.

(Conflicting) Goals:①Your SVDD ball should be small, i.e.,②Penalty terms due to outliers should be small, i.e.,

2R ↓

1

N

iiξ

=

↓∑

××

××

×××××aR

Page 28: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

28PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Performance Index (primal problem):

Lagrange function:

From the saddle point conditions:

( )2

2 2

, , 12 2

min , ,

s.t. , 0, .

N

p iR a i

i i i

J R a R C

x a R i

ξξ ξ

ξ ξ=

= +

− ≤ + ≥ ∀

( ) 22 2 2

1 1 1

, , , , ,

where 0, 0, .

N N N

i i i i i ii i i

i i

L R a R C x a R

i

ξ α η ξ α ξ η ξ

α η= = =

= + + − − − −

≥ ≥ ∀

∑ ∑ ∑

[ ]21 1

0 1, 0 , 0 0, , .N N

i i i ii i i

L L La x C iR a

α α αξ= =

∂ ∂ ∂= ⇒ = = ⇒ = = ⇒ ∈ ∀

∂ ∂ ∂∑ ∑

Page 29: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

29PRML 겨울학교 2016 고려대 제어계측공학과 박주영

SVM 연구 관련 역사

SmolaSchölkopf

Müller

Tax Duin

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Vapnik

Page 30: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

30PRML 겨울학교 2016 고려대 제어계측공학과 박주영

• Reproducing kernel Hilbert space (RKHS)

Page 31: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

31PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Explicit construction of the RKHS with Mercer kernel

Note:

( ) ( )

( ) ( )

( ) ( )

22

For a Mercer kernel ,we can define the corresponding RKHS

| , and ,

where the RKHS norm , .

Similiarly, its inner product is defined as

, ,

i i Hi

ii i i iH

i i i iH

i i i iHi i

k

H f f x f x f

ff f f

f g f g

ψ

ψ ψλ

ψ ψ

= = < ∞

= ⋅ ⋅ =

= ⋅ ⋅

∑ ∑ ∑

∑ .i i

i iH

f gλ

=∑ ∑

( ) ( ) ( ) ( ) ( ) ( ) ( ), , , .i i ii i i i i i iH

i i i iiH

f xf k x f x f x f x

λψψ λψ ψ ψ

λ⋅ = ⋅ ⋅ = = =∑ ∑ ∑ ∑

Page 32: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

32PRML 겨울학교 2016 고려대 제어계측공학과 박주영

• Representer theorem

( ) [ )

( )

1

2

Given a p.d. kernel on , a training set , ,

a strictly monotone increasing real-valued function on 0, , and an arbitrary cost function

: ,

any functional minimizing

Ni i i

N

RKHS

k X X x y X R

c X R R

f H

=× ∈ ×

Ω ∞

× → ∞

( )( ) ( )( )( ) ( )( ) ( )

1 1 1

1

the regularized risk functional

, , ,..., , ,

admits a representation of the form ,

N N N H

N

i ii

c x y f x x y f x f

f a k x=

+ Ω

⋅ = ⋅∑

Page 33: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

33PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Proof:

( )

( )

( ) ( ) ( )

( ) ( )

Decompose into, ,

where for , , , 0.

Then, application of to an arbitrary training point yields

, , reproducing property

, , ,

i ii

j H

j

j j H

i i ji H

i i

f Hf k x f

j f k x

f x

f x f k x

k x f k x

k x

α

α

α

= ⋅ +

∀ ⋅ =

= ⋅

= ⋅ + ⋅

=

( ) ( ) ( )

( )

, , , , ,

which is independent of .

j i i jHi ik x k x x

f

c f

α

⋅ ⋅ =

∑ ∑

항은 에무관함

Page 34: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

SVM

34PRML 겨울학교 2016 고려대 제어계측공학과 박주영

( )

( ) ( )

( ) ( )

( )

22

Since , , and is strictly monotonic, we get

,

, Pythagorean theorem

, ,

with equality occuring iff 0.

Hence

i ii

i iHi H

i i Hi H

i ii H

f k x

f k x f

k x f

k x x

f

α

α

α

α

⊥ ⋅ Ω

Ω = Ω ⋅ +

= Ω ⋅ +

≥ Ω

=

( )

( ) ( )

, any minimizer must have 0.

Consequently, any solution takes the following form: , i ii

f

c f f

f k xα

⊥ ⊥

=

Ω

⋅ = ⋅∑

항은 에무관하고, 항은 가 작아야 최소화됨

Page 35: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Outline

- Introduction

- Support Vector Machines

- Gaussian Processes

- Concluding Remarks

35PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 36: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

GP

• Def: Stochastic Process 𝑋𝑋 𝑡𝑡

– An indexed family of random variables

• Def: Gaussian Process

– A stochastic process 𝑦𝑦(𝑥𝑥) is a Gaussian process, if for ∀ finite index

set 𝑥𝑥1, … , 𝑥𝑥𝑁𝑁 , 𝑦𝑦 𝑥𝑥1 , … ,𝑦𝑦(𝑥𝑥𝑁𝑁) are jointly Gaussian.

*Note: 𝑦𝑦(𝑥𝑥1)⋮

𝑦𝑦(𝑥𝑥𝑁𝑁)~𝑁𝑁(𝑚𝑚,𝐾𝐾) where𝑚𝑚 = 0, 𝐾𝐾 = [𝐾𝐾𝑖𝑖𝑖𝑖]

36PRML 겨울학교 2016 고려대 제어계측공학과 박주영

𝐾𝐾𝑖𝑖𝑖𝑖 = 𝑐𝑐𝑐𝑐𝑐𝑐 𝑦𝑦 𝑥𝑥𝑖𝑖 ,𝑦𝑦 𝑥𝑥𝑖𝑖= 𝐸𝐸 𝑦𝑦 𝑥𝑥𝑖𝑖 𝑦𝑦 𝑥𝑥𝑖𝑖= 𝑘𝑘𝜃𝜃(𝑥𝑥𝑖𝑖 , 𝑥𝑥𝑖𝑖)

Page 37: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

GP

• Gaussian Process Regression (GPR)

Trn data : 𝐷𝐷 = 𝑥𝑥𝑛𝑛, 𝑡𝑡𝑛𝑛 𝑛𝑛=1𝑁𝑁 , where 𝑡𝑡𝑛𝑛 ∈ 𝑅𝑅

Model : 𝑡𝑡 = 𝑦𝑦 𝑥𝑥 + 𝜖𝜖, where y(𝑥𝑥) is a Gaussian process, and

𝜖𝜖~𝑁𝑁 0,𝛽𝛽−1

Note : 𝑦𝑦 =𝑦𝑦(𝑥𝑥1)⋮

𝑦𝑦(𝑥𝑥𝑁𝑁)~𝑁𝑁 0,𝐾𝐾 , where 𝐾𝐾𝑖𝑖𝑖𝑖 = 𝑘𝑘𝜃𝜃(𝑥𝑥𝑖𝑖 , 𝑥𝑥𝑖𝑖)

𝑡𝑡 = 𝑦𝑦 𝑥𝑥 + 𝜖𝜖, where 𝑦𝑦 𝑥𝑥 ~𝑁𝑁(0,𝐾𝐾), 𝜖𝜖~𝑁𝑁 0,𝛽𝛽−1𝐼𝐼𝑁𝑁

Hence, 𝑡𝑡~𝑁𝑁(0,𝐾𝐾 + 𝛽𝛽−1𝐼𝐼)

∴ 𝑡𝑡 𝑥𝑥 is also a GP

37PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 38: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

GP

• Predictive distribution:

Test input: 𝑥𝑥∗Target output: 𝑡𝑡∗

Predictive distribution for 𝑡𝑡∗: 𝑝𝑝 𝑡𝑡∗ 𝑡𝑡 = 𝑝𝑝 𝑡𝑡∗ 𝐷𝐷, 𝑥𝑥∗

Note:

𝑡𝑡1⋮𝑡𝑡𝑁𝑁𝑡𝑡∗

~𝑁𝑁 0,𝐾𝐾 + 𝛽𝛽−1𝐼𝐼 𝑘𝑘∗

𝑘𝑘∗𝑇𝑇 𝑘𝑘𝜃𝜃 𝑥𝑥∗, 𝑥𝑥∗ + 𝛽𝛽−1,

where 𝐾𝐾 + 𝛽𝛽−1𝐼𝐼 = 𝐶𝐶, 𝑘𝑘𝜃𝜃 𝑥𝑥∗, 𝑥𝑥∗ + 𝛽𝛽−1=c, 𝑘𝑘∗=𝑘𝑘𝜃𝜃(𝑥𝑥1, 𝑥𝑥∗)

⋮𝑘𝑘𝜃𝜃(𝑥𝑥𝑁𝑁, 𝑥𝑥∗)

𝑡𝑡1⋮𝑡𝑡𝑁𝑁𝑡𝑡∗

~𝑁𝑁 0,𝐶𝐶 𝑘𝑘∗𝑘𝑘∗𝑇𝑇 𝑐𝑐

38PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 39: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

GP

Hence from the conditional dist. formula, we have

𝑝𝑝 𝑡𝑡∗ 𝑡𝑡 = 𝑁𝑁 𝑚𝑚 𝑥𝑥∗ ,𝜎𝜎2 𝑥𝑥∗ , where

𝑚𝑚 𝑥𝑥∗ = 𝑘𝑘∗𝑇𝑇𝐶𝐶−1𝑡𝑡 = ∑𝑛𝑛=1𝑁𝑁 𝛼𝛼𝑛𝑛𝑘𝑘(𝑥𝑥𝑛𝑛, 𝑥𝑥∗), 𝜎𝜎2 𝑥𝑥∗ = 𝑐𝑐 − 𝑘𝑘∗𝑇𝑇𝐶𝐶−1𝑘𝑘∗

※ Conditional distribution formula for Gaussians

– If 𝑋𝑋 =𝑥𝑥1𝑥𝑥2 ~𝑁𝑁

𝜇𝜇1𝜇𝜇2 , Σ11 Σ12

Σ21 Σ22,

then 𝑋𝑋2|1~𝑁𝑁(𝜇𝜇2|1, Σ2|1),

where 𝜇𝜇2|1 = 𝜇𝜇2 + Σ21Σ11−1 𝑥𝑥1 − 𝜇𝜇1

Σ2|1 = Σ22-Σ21Σ11−1Σ12

39PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 40: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

GP

• Gaussian Process Classification (GPC)

Trn data: 𝐷𝐷 = 𝑥𝑥𝑛𝑛, 𝑡𝑡𝑛𝑛 𝑛𝑛=1𝑁𝑁 , where 𝑡𝑡𝑛𝑛 = 0,1

Model:

40PRML 겨울학교 2016 고려대 제어계측공학과 박주영

𝑥𝑥 𝑎𝑎(𝑥𝑥) 𝜎𝜎(𝑎𝑎) 𝑡𝑡

𝑥𝑥∗ 𝑎𝑎∗ = 𝑎𝑎(𝑥𝑥∗),

where 𝑝𝑝 𝑡𝑡 𝑎𝑎 = 𝜎𝜎 𝑖𝑖𝑓𝑓 𝑡𝑡 = 11 − 𝜎𝜎 𝑖𝑖𝑓𝑓 𝑡𝑡 = 0

= 𝜎𝜎𝑡𝑡 1 − 𝜎𝜎 1−𝑡𝑡

Page 41: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

GP

Test input 𝑥𝑥∗, then 𝑡𝑡∗ ?

Goal : To find 𝑝𝑝 𝑡𝑡∗ 𝑡𝑡 = 𝑝𝑝 𝑡𝑡∗ 𝐷𝐷, 𝑥𝑥∗

Note :

𝑎𝑎1⋮𝑎𝑎𝑁𝑁𝑎𝑎∗

~𝑁𝑁 0,𝐶𝐶𝑁𝑁+1 , where 𝐶𝐶𝑁𝑁+1 = [𝐶𝐶𝑛𝑛𝑚𝑚]

𝑝𝑝 𝑡𝑡𝑥𝑥 = 1 𝑡𝑡 = 𝑝𝑝 𝑡𝑡∗ = 1 𝐷𝐷, 𝑥𝑥∗

= ∫𝑝𝑝 𝑡𝑡∗ = 1,𝑎𝑎∗ 𝐷𝐷, 𝑥𝑥∗ 𝑑𝑑𝑎𝑎∗=∫𝑝𝑝 𝑡𝑡∗ = 1 𝑎𝑎∗ 𝑝𝑝(𝑎𝑎∗|𝐷𝐷, 𝑥𝑥∗) 𝑑𝑑𝑎𝑎∗

41PRML 겨울학교 2016 고려대 제어계측공학과 박주영

𝐶𝐶𝑛𝑛𝑚𝑚 = 𝑘𝑘𝜃𝜃 𝑥𝑥𝑛𝑛, 𝑥𝑥𝑚𝑚

𝜎𝜎(𝑎𝑎∗) Posterior (Gaussian)

= 𝑠𝑠𝑖𝑖𝑠𝑠𝑚𝑚𝑐𝑐𝑖𝑖𝑑𝑑 ∗ (𝑠𝑠𝑎𝑎𝑔𝑔𝑠𝑠𝑠𝑠𝑖𝑖𝑎𝑎𝑔𝑔)𝑑𝑑𝑎𝑎∗

Page 42: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

GP

• One can use approximate inference methods such as variational

inference, sampling, etc.

• Methods of relating the GP output, 𝑎𝑎(𝑥𝑥), to success prob. :

– Logistic sigmoid

– Cdf of the std normal (probit)

– Threshold ...

42PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 43: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Outline

- Introduction

- Support Vector Machines

- Gaussian Processes

- Concluding Remarks

43PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Page 44: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

Concluding Remarks

44PRML 겨울학교 2016 고려대 제어계측공학과 박주영

Concluding Remarks

• Kernel methods : SVM, SVDD, GP, …

• Application domains:– Pattern classification– Function approximation– Anomaly detection– Feature extraction– Pattern de-noising– Kernel-based reinforcement learning, etc.

• Deep vs. Sparse Kernel

Page 45: 선형행렬부등식의 기초와 응용 · 2017-04-06 · 4 PRML 겨울학교 2016 ... Introduction. 5 PRML 겨울학교 2016. 고려대제어계측공학과박주영 기계학습이론연구의

References

[1] C. M. Bishop, Pattern Recognition and Machine Learning. (Springer-Verlag , 2007)

[2] K. P. Murphy, Machine Learning: A Probabilistic Perspective.(MIT Press , 2012)

[3] B. Schölkopf and J. A. Smola, Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. (MIT Press , 2001)

[4] D. Tax and R. Duin, "Support vector data description,“ Machine Learning, Vol. 54, pp. 45-66, 2004

Acknowledgement: 본 자료 작성에 동참한 고려대학교 제어계측공학과 허성만, 김태환, 박정호학생과 고려대학교 수학과 김재인학생에게 감사.

45PRML 겨울학교 2016 고려대 제어계측공학과 박주영