03. linear regression
TRANSCRIPT
Jeonghun Yoon
์ง๋ ์๊ฐ.....Naive Bayes Classifier
argmax๐ฆ๐ ๐ฅ1, โฆ , ๐ฅ๐ ๐ฆ ๐(๐ฆ) = argmax
๐ฆ ๐ ๐ฅ๐ ๐ฆ ๐(๐ฆ)
๐
๐=1
class ๐ฆ ์ ๋ฐ์ ํ๋ฅ ๊ณผ test set์์ class ๐ฆ์ label์ ๊ฐ์ง ๋ฐ์ดํฐ์ ํน์ฑ ๋ฒกํฐ์
์์ ๐ฅ๐ (๋ฌธ์์ ์์์๋ ๋จ์ด) ๊ฐ ๋์ฌ ํ๋ฅ ์ ๊ณฑ
ex) (I, love, you)๊ฐ spam์ธ์ง ์๋์ง ์๊ธฐ ์ํด์๋,
test set์์ spam์ด ์ฐจ์งํ๋ ๋น์จ๊ณผ
spam์ผ๋ก labeling ๋ ๋ฌธ์์์ I์ love์ you๊ฐ ๋ฐ์ํ๋ ํ๋ฅ ์ ๋ชจ๋ ๊ณฑํ ๊ฒ๊ณผ,
test set์์ ham์ด ์ฐจ์งํ๋ ๋น์จ๊ณผ
ham์ผ๋ก labeling ๋ ๋ฌธ์์์ I์ love์ you๊ฐ ๋ฐ์ํ๋ ํ๋ฅ ์ ๋ชจ๋ ๊ณฑํ ๊ฒ์,
๋น๊ตํ๋ค.
์ง๋ ์๊ฐ ๋ฏธ๋นํ๋ ์ ๋ค... 1. Laplacian Smoothing (appendix ์ฐธ๊ณ )
2. MLE / MAP
1
Bayesโ Rule
๐ ๐ ๐ฉ =๐ ๐ฉ ๐ ๐(๐)
๐ ๐ฉ ๐ ๐(๐)
posteriori (์ฌํ ํ๋ฅ )
likelihood (์ฐ๋ ๊ฐ)
prior (์ฌ์ ํ๋ฅ )
์ฌํ ํ๋ฅ : ๊ด์ฐฐ ๊ฐ๋ค์ด ๊ด์ฐฐ ๋ ํ์ ๋ชจ์(parameter)์ ๋ฐ์ ํ๋ฅ ์ ๊ตฌํ๋ค.
์ฌ์ ํ๋ฅ : ๊ด์ฐฐ ๊ฐ๋ค์ด ๊ด์ฐฐ ๋๊ธฐ ์ ์ ๋ชจ์์ ๋ฐ์ ํ๋ฅ ์ ๊ตฌํ๋ค.
์ฐ๋ ๊ฐ : ๋ชจ์์ ๊ฐ์ด ์ฃผ์ด์ก์ ๋ ๊ด์ฐฐ ๊ฐ๋ค์ด ๋ฐ์ํ ํ๋ฅ
Maximum Likelihood Estimate
๐ฉ = (๐ฅ1, โฆ , ๐ฅ๐)
๐ ๐ฝ = ๐ ๐ฉ ๐ฝ
์ฐ๋(likelihood)๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ ๋๋ค.
๋ณ์(parameter) ๐๊ฐ ์ฃผ์ด์ก์ ๋, data set ๐ฉ = (๐ฅ1, โฆ , ๐ฅ๐) (๊ด์ฐฐ ๋, observed) ๋ฅผ ์ป์ ์ ์๋(obtaining) ํ๋ฅ
๐(๐ฉ|๐)
๐
๐์ ํจ์. ๐์ pdf๋ ์๋.
๐ฉ = (๐ฅ1, โฆ , ๐ฅ๐)
Maximum Likelihood Estimate๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ ๋๋ค.
๊ด์ฐฐ ๋ data set ๐ฉ = ๐ฅ1, โฆ , ๐ฅ๐ ์ ์ป์ ์ ์๋ ํ๋ฅ ์ด ๊ฐ์ฅ ํฐ ๐๊ฐ MLE์ด๋ค.
๐(๐ฉ|๐1)
๐ ๐ฉ = (๐ฅ1, โฆ , ๐ฅ๐)
๐ฝ = ๐๐ซ๐ ๐ฆ๐๐ฑ๐ฝ๐ ๐ฝ = ๐๐ซ๐ ๐ฆ๐๐ฑ
๐ฝ๐(๐ฉ|๐ฝ) ฬ
๐(๐ฉ|๐2) ๐(๐ฉ|๐3)
๐(๐ฉ|๐) ๐ = ๐2 ฬ
์ฐ๋ฆฌ๊ฐ likelihood function ๐(๐ฉ|๐)์ prior ๐(๐)๋ฅผ ์ ๋, Bayes rule์ ์ํ์ฌ posteriori function์ ๊ฐ์ ๊ตฌํ ์ ์๋ค.
๐ ๐ฝ ๐ฉ โ ๐ ๐ฉ ๐ฝ ๐(๐ฝ)
Maximum A Posteriori Estimate
๐ ๐ ๐ฉ =๐ ๐ฉ ๐ ๐(๐)
๐ ๐ฉ ๐ ๐(๐)
posteriori (์ฌํ ํ๋ฅ )
likelihood (์ฐ๋ ๊ฐ)
prior (์ฌ์ ํ๋ฅ )
Likelihood ๐(๐ฉ|๐)
Prior ๐(๐)
Posterior ๐ ๐ ๐ฉ โ ๐ ๐ฉ ๐ ๐(๐)
Likelihood ๐(๐ฉ|๐)
Prior ๐(๐)
Posterior ๐ ๐ ๐ฉ โ ๐ ๐ฉ ๐ ๐(๐)
๐ฝ = ๐๐ซ๐ ๐ฆ๐๐ฑ๐ฝ๐(๐ฝ|๐ฉ)
Likelihood ๐(๐ฉ|๐)
Prior ๐(๐)
Posterior ๐ ๐ ๐ฉ โ ๐ ๐ฉ ๐ ๐(๐)
Regression
๋๋ ํฐ ์ ๋ฐํ์ฌ์ CEO์ด๋ค. ๋ง์ ์ง์ ๋ค์ ๊ฐ์ง๊ณ ์๋ค.
๊ทธ๋ฆฌ๊ณ ์ด๋ฒ์ ์๋ก์ด ์ง์ ์ ๋ด๊ณ ์ถ๋ค. ์ด๋ ์ง์ญ์ ๋ด์ผ ๋ ๊น?
๋ด๊ฐ ์๋ก์ด ์ง์ ์ ๋ด๊ณ ์ถ์ดํ๋ ์ง์ญ๋ค์ ์์ ์์ต๋ง ํ์ ํ ์ ์์ผ๋ฉด
ํฐ ๋์์ด ๋ ๊ฒ์ธ๋ฐ!
๋ด๊ฐ ๊ฐ์ง๊ณ ์๋ ์๋ฃ(data)๋ ๊ฐ ์ง์ ์ ์์ต(profits)๊ณผ ๊ฐ ์ง์ ์ด ์๋ ์ง์ญ์
์ธ๊ตฌ์(populations)์ด๋ค.
ํด๊ฒฐ์ฑ ! Linear Regression!
์ด๊ฒ์ ํตํ์ฌ, ์๋ก์ด ์ง์ญ์ ์ธ๊ตฌ์๋ฅผ ์๊ฒ ๋ ๊ฒฝ์ฐ, ๊ทธ ์ง์ญ์ ์์ ์์ต์ ๊ตฌ
ํ ์ ์๋ค.
Example 1)
Example 2)
๋๋ ์ง๊ธ Pittsburgh๋ก ์ด์ฌ๋ฅผ ์๋ค ๋๋ ๊ฐ์ฅ ํฉ๋ฆฌ์ ์ธ ๊ฐ๊ฒฉ์ ์ํํธ๋ฅผ ์ป๊ธฐ ์ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ค์์ ์กฐ๊ฑด๋ค์ ๋ด๊ฐ ์ง์ ์ฌ๊ธฐ ์ํด ๊ณ ๋ คํ๋ ๊ฒ๋ค์ด๋ค. square-ft(ํ๋ฐฉ๋ฏธํฐ), ์นจ์ค์ ์, ํ๊ต ๊น์ง์ ๊ฑฐ๋ฆฌ... ๋ด๊ฐ ์ํ๋ ํฌ๊ธฐ์ ์นจ์ค์ ์๋ฅผ ๊ฐ์ง๊ณ ์๋ ์ง์ ๊ฐ๊ฒฉ์ ๊ณผ์ฐ ์ผ๋ง์ผ๊น?
โ Given an input ๐ฅ we would like to compute an output ๐ฆ. (๋ด๊ฐ ์ํ๋ ์ง์ ํฌ๊ธฐ์, ๋ฐฉ์ ๊ฐ์๋ฅผ ์ ๋ ฅํ์ ๋, ์ง ๊ฐ๊ฒฉ์ ์์ธก ๊ฐ์ ๊ณ์ฐ)
โก For example 1) Predict height from age (height = ๐ฆ, age = ๐ฅ) 2) Predict Google`s price from Yahoo`s price (Google's price = ๐ฆ, Yahoo's price = ๐ฅ)
๐ฆ = ๐0 + ๐1๐ฅ
์ฆ, ๊ธฐ์กด์ data๋ค์์
์ง์ (๐ฆ = ๐0 + ๐1๐ฅ)์ ์ฐพ์๋ด๋ฉด,
์๋ก์ด ๊ฐ ๐ฅ๐๐๐ค๊ฐ ์ฃผ์ด์ก์ ๋,
ํด๋นํ๋ ๐ฆ์ ๊ฐ์ ์์ธกํ ์
์๊ฒ ๊ตฌ๋!
learning, training
prediction
Input : ์ง์ ํฌ๊ธฐ(๐ฅ1), ๋ฐฉ์ ๊ฐ์(๐ฅ2), ํ๊ต๊น์ง์ ๊ฑฐ๋ฆฌ(๐ฅ3),.....
(๐ฅ1, ๐ฅ2, โฆ , ๐ฅ๐) : ํน์ฑ ๋ฒกํฐ feature vector
Output : ์ง ๊ฐ(๐ฆ)
๐ = ๐ฝ๐ + ๐ฝ๐๐๐ + ๐ฝ๐๐๐ +โฏ+ ๐ฝ๐๐๐
training set์ ํตํ์ฌ ํ์ต(learning)
Simple Linear Regression
๐ฆ๐ = ๐0 + ๐1๐ฅ๐ + ๐๐
๐๋ฒ์งธ ๊ด์ฐฐ์ ๐ฆ๐ , ๐ฅ๐ ๊ฐ ์ฃผ์ด์ก์ ๋ ๋จ์ ํ๊ท ๋ชจํ์ ๋ค์๊ณผ ๊ฐ๋ค.
๐3
๐๐ : ๐๋ฒ์งธ ๊ด์ฐฐ์ ์์ ์ฐ๋ฆฌ๊ฐ ๊ตฌํ๊ณ ์ ํ๋ ํ๊ท์ง์ ๊ณผ ์ค์ ๊ด์ฐฐ๋ ๐ฆ๐์ ์ฐจ์ด (error)
์ฐ๋ฆฌ๋ ์ค๋ฅ์ ํฉ์ ๊ฐ์ฅ ์๊ฒ ๋ง๋๋ ์ง์ ์ ์ฐพ๊ณ ์ถ๋ค. ์ฆ ๊ทธ๋ ๊ฒ ๋ง๋๋ ๐ฝ๐์ ๐ฝ๐์ ์ถ์ ํ๊ณ ์ถ๋ค ! How!! ์ต์ ์ ๊ณฑ ๋ฒ! (Least Squares Method)
min ๐ฆ๐ โ ๐0 + ๐1๐ฅ๐2
๐
= ๐๐๐ ๐๐2
๐
๐ฆ = ๐0 + ๐1๐ฅ
์ค์ ๊ด์ธก ๊ฐ ํ๊ท ์ง์ ์ ๊ฐ(์ด์์ ์ธ ๊ฐ)
์ข ์ ๋ณ์ ์ค๋ช ๋ณ์, ๋ ๋ฆฝ ๋ณ์
min ๐ฆ๐ โ ๐0 + ๐1๐ฅ๐2
๐
= min ๐๐2
๐
์ค์ ๊ด์ธก ๊ฐ ํ๊ท ์ง์ ์ ๊ฐ(์ด์์ ์ธ ๊ฐ)
์์ ์์ ์ต๋ํ ๋ง์กฑ ์ํค๋ ๐0, ๐1์ ์ถ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ผ๊น?
(์ด๋ฌํ ๐1, ๐2๋ฅผ ๐1, ๐2 ๋ผ๊ณ ํ์.)
- Normal Equation
- Steepest Gradient Descent
ห ห
What is normal equation?
๊ทน๋ ๊ฐ, ๊ทน์ ๊ฐ์ ๊ตฌํ ๋, ์ฃผ์ด์ง ์์ ๋ฏธ๋ถํ ํ์, ๋ฏธ๋ถํ ์์ 0์ผ๋ก ๋ง๋๋ ๊ฐ์ ์ฐพ๋๋ค.
min ๐ฆ๐ โ ๐0 + ๐1๐ฅ๐2
๐
๋จผ์ , ๐0์ ๋ํ์ฌ ๋ฏธ๋ถํ์. โ ๐ฆ๐ โ ๐0 + ๐1๐ฅ๐ = 0
๐
๐
๐๐0 ๐ฆ๐ โ ๐0 + ๐1๐ฅ๐
2
๐
=
๋ค์์ผ๋ก, ๐1์ ๋ํ์ฌ ๋ฏธ๋ถํ์. โ ๐ฆ๐ โ ๐0 + ๐1๐ฅ๐ ๐ฅ๐ = 0
๐
๐
๐๐1 ๐ฆ๐ โ ๐0 + ๐1๐ฅ๐
2
๐
=
์ ์ ๋ ์์ 0์ผ๋ก ๋ง์กฑ์ํค๋ ๐0, ๐1๋ฅผ ์ฐพ์ผ๋ฉด ๋๋ค. ์ด์ฒ๋ผ 2๊ฐ์ ๋ฏธ์ง์์ ๋ํ์ฌ,
2๊ฐ์ ๋ฐฉ์ ์(system)์ด ์์ ๋, ์ฐ๋ฆฌ๋ ์ด system์ normal equation(์ ๊ท๋ฐฉ์ ์)์ด๋ผ ๋ถ๋ฅธ๋ค.
The normal equation form
๐ฉ๐ = 1, ๐ฅ๐๐, ฮ = ๐0, ๐1
๐, ๐ช = ๐ฆ1, ๐ฆ2, โฆ , ๐ฆ๐๐ , ๐ =
11โฆ
๐ฅ1๐ฅ2โฆ
1 ๐ฅ๐
, ๐ = (๐1, โฆ , ๐๐) ๋ผ๊ณ ํ์.
๐ช = ๐ฮ + ๐
๐ฆ1 = ๐0 + ๐1๐ฅ1 + ๐1
๐ฆ2 = ๐0 + ๐1๐ฅ2 + ๐2
.......
๐ฆ๐โ1 = ๐0 + ๐1๐ฅ๐โ1 + ๐๐โ1
๐ฆ๐ = ๐0 + ๐1๐ฅ๐ + ๐๐
๐๊ฐ์ ๊ด์ธก ๊ฐ (๐ฅ๐ , ๐ฆ๐)์ ์๋์ ๊ฐ์ ํ๊ท ๋ชจํ์ ๊ฐ์ง๋ค๊ณ ๊ฐ์ ํ์.
๐ฆ1๐ฆ2๐ฆ3โฆ๐ฆ๐
=
111โฆ
๐ฅ1๐ฅ2๐ฅ3โฆ
1 ๐ฅ๐
๐0๐1
+
๐1๐2๐3โฆ๐๐
๐๐2
๐
๐=1
= ๐๐๐ = ๐ช โ ๐ฮ ๐(๐ช โ ๐ฮ)
= ๐ช๐๐ช โ ฮ๐๐๐๐ช โ ๐ช๐๐ฮ + ฮ๐๐๐๐ฮ = ๐ช๐๐ช โ 2ฮ๐๐๐๐ช + ฮ๐๐๐๐ฮ
1 by 1 ํ๋ ฌ์ด๋ฏ๋ก ์ ์นํ๋ ฌ์ ๊ฐ์ด ๊ฐ๋ค!
๐(๐๐๐)
๐ฮ= ๐
๐(๐๐๐)
๐ฮ= โ2๐๐๐ช + 2๐๐๐ฮ = ๐
๐๐๐๐ฏ = ๐๐๐ช ๐ฏ = ๐๐๐ โ1๐๐๐ช ห
์ ๊ท๋ฐฉ์ ์
๐ช = ๐ฮ + ๐ ๐ = ๐ช โ ๐ฮ
Minimize ๐๐2
๐
๐=1
What is Gradient Descent?
machine learning์์๋ ๋งค๊ฐ ๋ณ์(parameter, ์ ํํ๊ท์์๋ ๐0, ๐1)๊ฐ ์์ญ~
์๋ฐฑ ์ฐจ์์ ๋ฒกํฐ์ธ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด๋ค. ๋ํ ๋ชฉ์ ํจ์(์ ํํ๊ท์์๋ ฮฃ๐๐2)๊ฐ
๋ชจ๋ ๊ตฌ๊ฐ์์ ๋ฏธ๋ถ ๊ฐ๋ฅํ๋ค๋ ๋ณด์ฅ์ด ํญ์ ์๋ ๊ฒ๋ ์๋๋ค.
๋ฐ๋ผ์ ํ ๋ฒ์ ์์ ์ ๊ฐ๋ก ํด๋ฅผ ๊ตฌํ ์ ์๋ ์ํฉ์ด ์ ์ง ์๊ฒ ์๋ค.
์ด๋ฐ ๊ฒฝ์ฐ์๋ ์ด๊ธฐ ํด์์ ์์ํ์ฌ ํด๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํด ๋๊ฐ๋ ์์น์
๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. (๋ฏธ๋ถ์ด ์ฌ์ฉ ๋จ)
What is Gradient Descent?
์ด๊ธฐํด ๐ผ0 ์ค์ ๐ก = 0
๐ผ๐ก๊ฐ ๋ง์กฑ์ค๋ฝ๋?
๐ผ๐ก+1 = ๐ ๐ผ๐ก ๐ก = ๐ก + 1
๐ผ = ๐ผ๐ก ห No
Yes
What is Gradient Descent?
Gradient Descent
ํ์ฌ ์์น์์ ๊ฒฝ์ฌ๊ฐ ๊ฐ์ฅ ๊ธํ๊ฒ ํ๊ฐํ๋ ๋ฐฉํฅ์ ์ฐพ๊ณ ,
๊ทธ ๋ฐฉํฅ์ผ๋ก ์ฝ๊ฐ ์ด๋ํ์ฌ ์๋ก์ด ์์น๋ฅผ ์ก๋๋ค.
์ด๋ฌํ ๊ณผ์ ์ ๋ฐ๋ณตํจ์ผ๋ก์จ ๊ฐ์ฅ ๋ฎ์ ์ง์ (์ฆ ์ต์ ์ )์ ์ฐพ์ ๊ฐ๋ค.
Gradient Ascent
ํ์ฌ ์์น์์ ๊ฒฝ์ฌ๊ฐ ๊ฐ์ฅ ๊ธํ๊ฒ ์์นํ๋ ๋ฐฉํฅ์ ์ฐพ๊ณ ,
๊ทธ ๋ฐฉํฅ์ผ๋ก ์ฝ๊ฐ ์ด๋ํ์ฌ ์๋ก์ด ์์น๋ฅผ ์ก๋๋ค.
์ด๋ฌํ ๊ณผ์ ์ ๋ฐ๋ณตํจ์ผ๋ก์จ ๊ฐ์ฅ ๋์ ์ง์ (์ฆ ์ต๋ ์ )์ ์ฐพ์ ๊ฐ๋ค.
What is Gradient Descent?
Gradient Descent
๐ผ๐ก+1 = ๐ผ๐ก โ ๐๐๐ฝ
๐๐ผ ๐ผ๐ก
๐ฝ =๋ชฉ์ ํจ์
๐๐ฝ
๐๐ผ ๐ผ๐ก: ๐ผ๐ก์์์ ๋ํจ์
๐๐ฝ
๐๐ผ์ ๊ฐ
๐ผ๐ก ๐ผ๐ก+1
โ๐๐ฑ
๐๐ถ ๐ถ๐
๐๐ฑ
๐๐ถ ๐ถ๐
๐ผ๐ก์์์ ๋ฏธ๋ถ๊ฐ์ ์์์ด๋ค.
๊ทธ๋์ ๐J
๐ฮฑ ฮฑt ๋ฅผ ๋ํ๊ฒ ๋๋ฉด
์ผ์ชฝ์ผ๋ก ์ด๋ํ๊ฒ ๋๋ค.
๊ทธ๋ฌ๋ฉด ๋ชฉ์ ํจ์์ ๊ฐ์ด ์ฆ๊ฐํ๋
๋ฐฉํฅ์ผ๋ก ์ด๋ํ๊ฒ ๋๋ค.
๋ฐ๋ผ์ ๐J
๐ฮฑ ฮฑt๋ฅผ ๋นผ์ค๋ค.
๊ทธ๋ฆฌ๊ณ ์ ๋นํ ๐๋ฅผ ๊ณฑํด์ฃผ์ด์ ์กฐ๊ธ๋ง
์ด๋ํ๊ฒ ํ๋ค.
โ๐๐๐ฑ
๐๐ถ ๐ถ๐
What is Gradient Descent?
Gradient Descent
๐ผ๐ก+1 = ๐ผ๐ก โ ๐๐๐ฝ
๐๐ผ ๐ผ๐ก
Gradient Ascent
๐ผ๐ก+1 = ๐ผ๐ก + ๐๐๐ฝ
๐๐ผ ๐ผ๐ก
๐ฝ =๋ชฉ์ ํจ์
๐๐ฝ
๐๐ผ ๐ผ๐ก: ๐ผ๐ก์์์ ๋ํจ์
๐๐ฝ
๐๐ผ์ ๊ฐ
Gradient Descent, Gradient Ascent๋ ์ ํ์ ์ธ Greedy algorithm์ด๋ค.
๊ณผ๊ฑฐ ๋๋ ๋ฏธ๋๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ํ์ฌ ์ํฉ์์ ๊ฐ์ฅ ์ ๋ฆฌํ ๋ค์ ์์น๋ฅผ ์ฐพ์
Local optimal point๋ก ๋๋ ๊ฐ๋ฅ์ฑ์ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
๐ฝ ฮ = 1
2 ๐0 + ๐1๐ฅ๐ โ ๐ฆ๐
2
๐
๐=1
= 1
2 ฮ๐๐ฉ๐ โ ๐ฆ๐
2
๐
๐=1
๐ฉ๐ = 1, ๐ฅ๐๐, ฮ = ๐0, ๐1
๐, ๐ช = ๐ฆ1, ๐ฆ2, โฆ , ๐ฆ๐๐ , ๐ =
11โฆ
๐ฅ1๐ฅ2โฆ
1 ๐ฅ๐
, ๐ = (๐1, โฆ , ๐๐) ๋ผ๊ณ ํ์.
๐0๐ก+1 = ๐0
๐ก โ ๐ผ๐
๐๐0๐ฝ(ฮ)๐ก
๐1๐ก+1 = ๐1
๐ก โ ๐ผ๐
๐๐1๐ฝ(ฮ)๐ก
๐0์ ๐ก๋ฒ์งธ ๊ฐ์,
๐ฝ(ฮ)๋ฅผ ๐0์ผ๋ก ๋ฏธ๋ถํ ์์๋ค๊ฐ ๋์ .
๊ทธ ํ์, ์ด ๊ฐ์ ๐0์์ ๋นผ ์ค.
๋ฏธ๋ถํ ๋ ์ด์ฉ.
Gradient descent๋ฅผ ์ค์งํ๋
๊ธฐ์ค์ด ๋๋ ํจ์
๐ฝ ฮ = 1
2 ๐0 + ๐1๐ฅ๐ โ ๐ฆ๐
2
๐
๐=1
= 1
2 ฮ๐๐ฉ๐ โ ๐ฆ๐
2
๐
๐=1
๐ฉ๐ = 1, ๐ฅ๐๐, ฮ = ๐0, ๐1
๐, ๐ช = ๐ฆ1, ๐ฆ2, โฆ , ๐ฆ๐๐ , ๐ =
11โฆ
๐ฅ1๐ฅ2โฆ
1 ๐ฅ๐
, ๐ = (๐1, โฆ , ๐๐) ๋ผ๊ณ ํ์.
Gradient of ๐ฝ(ฮ)
๐
๐๐0๐ฝ ๐ = (ฮ๐๐ฉ๐ โ ๐ฆ๐)
๐
๐=1
1 ๐
๐๐1๐ฝ ๐ = (ฮ๐๐ฉ๐ โ ๐ฆ๐)
๐
๐=1
๐ฅ๐
๐ป๐ฝ ฮ =๐
๐๐0๐ฝ ฮ ,๐
๐๐1๐ฝ ฮ
๐
= ฮ๐๐ฉ๐ โ ๐ฆ๐ ๐ฉ๐
๐
๐=1
๐ฉ๐ = 1, ๐ฅ๐๐, ฮ = ๐0, ๐1
๐, ๐ช = ๐ฆ1, ๐ฆ2, โฆ , ๐ฆ๐๐ , ๐ =
11โฆ
๐ฅ1๐ฅ2โฆ
1 ๐ฅ๐
, ๐ = (๐1, โฆ , ๐๐) ๋ผ๊ณ ํ์.
๐0๐ก+1 = ๐0
๐ก โ ๐ผ (ฮ๐๐ฉ๐ โ ๐ฆ๐)
๐
๐=1
1 ๋จ, ์ด ๋์ ฮ์๋ฆฌ์๋
๐ก๋ฒ์งธ์ ์ป์ด์ง ฮ๊ฐ์ ๋์ ํด์ผ ํ๋ค.
๐1๐ก+1 = ๐1
๐ก โ ๐ผ ฮ๐๐ฉ๐ โ ๐ฆ๐ ๐ฅ๐
๐
๐=1
Steepest Descent
Steepest Descent
์ฅ์ : easy to implement, conceptually clean, guaranteed convergence
๋จ์ : often slow converging
ฮ๐ก+1 = ฮ๐ก โ ๐ผ {(ฮ๐ก)๐๐ฉ๐ โ ๐ฆ๐}๐ฉ๐
๐
๐=1
Normal Equations
์ฅ์ : a single-shot algorithm! Easiest to implement.
๋จ์ : need to compute pseudo-inverse ๐๐๐ โ1, expensive, numerical issues
(e.g., matrix is singular..), although there are ways to get around this ...
๐ = ๐๐๐ โ1๐๐๐ช ห
Multivariate Linear Regression
๐ = ๐ฝ๐ + ๐ฝ๐๐๐ + ๐ฝ๐๐๐ +โฏ+ ๐ฝ๐๐๐
๋จ์ ์ ํ ํ๊ท ๋ถ์์, input ๋ณ์๊ฐ 1. ๋ค์ค ์ ํ ํ๊ท ๋ถ์์, input ๋ณ์๊ฐ 2๊ฐ ์ด์.
Google์ ์ฃผ์ ๊ฐ๊ฒฉ
Yahoo์ ์ฃผ์ ๊ฐ๊ฒฉ
Microsoft์ ์ฃผ์ ๊ฐ๊ฒฉ
๐ = ๐ฝ๐ + ๐ฝ๐๐๐๐ + ๐ฝ๐๐๐
๐ + ๐
์๋ฅผ ๋ค์ด, ์๋์ ๊ฐ์ ์์ ์ ํ์ผ๋ก ์๊ฐํ์ฌ ํ ์ ์๋๊ฐ?
๋ฌผ๋ก , input ๋ณ์๊ฐ polynomial(๋คํญ์)์ ํํ์ด์ง๋ง, coefficients ๐๐๊ฐ ์ ํ(linear)์ด๋ฏ๋ก ์ ํ ํ๊ท ๋ถ์์ ํด๋ฒ์ผ๋ก ํ ์ ์๋ค.
๐ฏ = ๐๐๐ โ1๐๐๐ช ห
๐0, ๐1, โฆ , ๐๐๐
General Linear Regression
๐ = ๐ฝ๐ + ๐ฝ๐๐๐ + ๐ฝ๐๐๐ +โฏ+ ๐ฝ๐๐๐ ์ค ํ๊ท ๋ถ์
์ผ๋ฐ ํ๊ท ๋ถ์ ๐ = ๐ฝ๐ + ๐ฝ๐๐๐(๐๐) + ๐ฝ๐๐๐(๐๐) + โฏ+ ๐ฝ๐๐๐(๐๐)
๐๐๋ ๐ฅ๐ ๋๋
(๐ฅโ๐๐)
2๐๐ ๋๋
1
1+exp(โ๐ ๐๐ฅ)๋ฑ์ ํจ์๊ฐ ๋ ์ ์๋ค.
์ด๊ฒ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ์ ํ ํ๊ท ํ์ด ๋ฐฉ๋ฒ์ผ๋ก ๋ฌธ์ ๋ฅผ ํ ์ ์๋ค.
๐ค๐ = (๐ค0, ๐ค1, โฆ , ๐ค๐)
๐ ๐ฅ๐๐= ๐0 ๐ฅ
๐ , ๐1 ๐ฅ๐ , โฆ , ๐๐ ๐ฅ
๐
๐ค๐ = (๐ค0, ๐ค1, โฆ , ๐ค๐)
๐ ๐ฅ๐๐= ๐0 ๐ฅ
๐ , ๐1 ๐ฅ๐ , โฆ , ๐๐ ๐ฅ
๐
normal equation
[ ์๋ฃ์ ๋ถ์ ]
โ ๋ชฉ์ : ์ง์ ํ๊ธฐ ์ํจ. ์๋ง์ ๊ฐ๊ฒฉ์ ์ฐพ๊ธฐ ์ํจ.
โก ๊ณ ๋ คํ ๋ณ์(feature) : ์ง์ ํฌ๊ธฐ(in square feet), ์นจ์ค์ ๊ฐ์, ์ง ๊ฐ๊ฒฉ
(์ถ์ฒ : http://aimotion.blogspot.kr/2011/10/machine-learning-with-python-linear.html)
โข ์ฃผ์์ฌํญ : ์ง์ ํฌ๊ธฐ์ ์นจ์ค์ ๊ฐ์์ ์ฐจ์ด๊ฐ ํฌ๋ค. ์๋ฅผ ๋ค์ด, ์ง์ ํฌ๊ธฐ๊ฐ 4000 square feet์ธ๋ฐ,
์นจ์ค์ ๊ฐ์๋ 3๊ฐ์ด๋ค. ์ฆ, ๋ฐ์ดํฐ ์ feature๋ค ๊ฐ ๊ท๋ชจ์ ์ฐจ์ด๊ฐ ํฌ๋ค. ์ด๋ด ๊ฒฝ์ฐ,
feature์ ๊ฐ์ ์ ๊ทํ(normalizing)๋ฅผ ํด์ค๋ค. ๊ทธ๋์ผ, Gradient Descent๋ฅผ ์ํํ ๋,
๊ฒฐ๊ณผ๊ฐ์ผ๋ก ๋น ๋ฅด๊ฒ ์๋ ดํ๋ค.
โฃ ์ ๊ทํ์ ๋ฐฉ๋ฒ
- feature์ mean(ํ๊ท )์ ๊ตฌํ ํ, feature๋ด์ ๋ชจ๋ data์ ๊ฐ์์ mean์ ๋นผ์ค๋ค.
- data์์ mean์ ๋นผ ์ค ๊ฐ์, ๊ทธ data๊ฐ ์ํ๋ standard deviation(ํ์ค ํธ์ฐจ)๋ก ๋๋์ด ์ค๋ค. (scaling)
์ดํด๊ฐ ์ ๋๋ฉด, ์ฐ๋ฆฌ๊ฐ ๊ณ ๋ฑํ๊ต ๋ ๋ฐฐ์ ๋ ์ ๊ท๋ถํฌ๋ฅผ ํ์ค์ ๊ท๋ถํฌ๋ก ๋ฐ๊พธ์ด์ฃผ๋ ๊ฒ์ ๋ ์ฌ๋ ค๋ณด์.
ํ์ค์ ๊ท๋ถํฌ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ์ค ํ๋๋, ์๋ก ๋ค๋ฅธ ๋ ๋ถํฌ, ์ฆ ๋น๊ต๊ฐ ๋ถ๊ฐ๋ฅํ๊ฑฐ๋ ์ด๋ ค์ด ๋ ๋ถํฌ๋ฅผ ์ฝ๊ฒ
๋น๊ตํ ์ ์๊ฒ ํด์ฃผ๋ ๊ฒ์ด์๋ค.
๐ = ๐ โ ๐
๐ If ๐~(๐, ๐) then ๐~๐(1,0)
1. http://www.cs.cmu.edu/~epxing/Class/10701/Lecture/lecture5-LiR.pdf
2. http://www.cs.cmu.edu/~10701/lecture/RegNew.pdf
3. ํ๊ท๋ถ์ ์ 3ํ (๋ฐ์ฑํ ์ )
4. ํจํด์ธ์ (์ค์ผ์ ์ง์)
5. ์๋ฆฌํต๊ณํ ์ 3ํ (์ ๋ช ์ ์ง์)
Laplacian Smoothing
multinomial random variable ๐ง : ๐ง๋ 1๋ถํฐ ๐๊น์ง์ ๊ฐ์ ๊ฐ์ง ์ ์๋ค.
์ฐ๋ฆฌ๋ test set์ผ๋ก ๐๊ฐ์ ๋ ๋ฆฝ์ธ ๊ด์ฐฐ ๊ฐ ๐ง 1 , โฆ , ๐ง ๐ ์ ๊ฐ์ง๊ณ ์๋ค.
์ฐ๋ฆฌ๋ ๊ด์ฐฐ ๊ฐ์ ํตํด, ๐(๐ = ๐) ๋ฅผ ์ถ์ ํ๊ณ ์ถ๋ค. (๐ = 1, โฆ , ๐)
์ถ์ ๊ฐ(MLE)์,
๐ ๐ง = ๐ = ๐ผ{๐ง ๐ = ๐}๐๐=1
๐
์ด๋ค. ์ฌ๊ธฐ์ ๐ผ . ๋ ์ง์ ํจ์ ์ด๋ค. ๊ด์ฐฐ ๊ฐ ๋ด์์์ ๋น๋์๋ฅผ ์ฌ์ฉํ์ฌ ์ถ์ ํ๋ค.
ํ ๊ฐ์ง ์ฃผ์ ํ ๊ฒ์, ์ฐ๋ฆฌ๊ฐ ์ถ์ ํ๋ ค๋ ๊ฐ์ ๋ชจ์ง๋จ(population)์์์ ๋ชจ์
๐(๐ง = ๐)๋ผ๋ ๊ฒ์ด๋ค. ์ถ์ ํ๊ธฐ ์ํ์ฌ test set(or ํ๋ณธ ์ง๋จ)์ ์ฌ์ฉํ๋ ๊ฒ ๋ฟ์ด๋ค.
์๋ฅผ ๋ค์ด, ๐ง(๐) โ 3 for all ๐ = 1, โฆ ,๐ ์ด๋ผ๋ฉด, ๐ ๐ง = 3 = 0 ์ด ๋๋ ๊ฒ์ด๋ค.
์ด๊ฒ์, ํต๊ณ์ ์ผ๋ก ๋ณผ ๋, ์ข์ง ์์ ์๊ฐ์ด๋ค. ๋จ์ง, ํ๋ณธ ์ง๋จ์์ ๋ณด์ด์ง
์๋ ๋ค๋ ์ด์ ๋ก ์ฐ๋ฆฌ๊ฐ ์ถ์ ํ๊ณ ์ ํ๋ ๋ชจ์ง๋จ์ ๋ชจ์ ๊ฐ์ 0์ผ๋ก ํ๋ค๋ ๊ฒ์
ํต๊ณ์ ์ผ๋ก ์ข์ง ์์ ์๊ฐ(bad idea)์ด๋ค. (MLE์ ์ฝ์ )
์ด๊ฒ์ ๊ทน๋ณตํ๊ธฐ ์ํด์๋,
โ ๋ถ์๊ฐ 0์ด ๋์ด์๋ ์ ๋๋ค.
โก ์ถ์ ๊ฐ์ ํฉ์ด 1์ด ๋์ด์ผ ํ๋ค. ๐ ๐ง = ๐๐ง =1 (โต ํ๋ฅ ์ ํฉ์ 1์ด ๋์ด์ผ ํจ)
๋ฐ๋ผ์,
๐ ๐ = ๐ = ๐ฐ ๐ ๐ = ๐ + ๐๐๐=๐
๐+ ๐
์ด๋ผ๊ณ ํ์.
โ ์ ์ฑ๋ฆฝ : test set ๋ด์ ๐์ ๊ฐ์ด ์์ด๋, ํด๋น ์ถ์ ๊ฐ์ 0์ด ๋์ง ์๋๋ค.
โก์ ์ฑ๋ฆฝ : ๐ง(๐) = ๐์ธ data์ ์๋ฅผ ๐๐๋ผ๊ณ ํ์. ๐ ๐ง = 1 = ๐1+1
๐+๐, โฆ , ๐ ๐ง = ๐ =
๐๐+1
๐+๐
์ด๋ค. ๊ฐ ์ถ์ ๊ฐ์ ๋ค ๋ํ๊ฒ ๋๋ฉด 1์ด ๋์จ๋ค.
์ด๊ฒ์ด ๋ฐ๋ก Laplacian smoothing์ด๋ค.
๐ง๊ฐ ๋ ์ ์๋ ๊ฐ์ด 1๋ถํฐ ๐๊น์ง ๊ท ๋ฑํ๊ฒ ๋์ฌ ์ ์๋ค๋ ๊ฐ์ ์ด ์ถ๊ฐ๋์๋ค๊ณ
์ง๊ด์ ์ผ๋ก ์ ์ ์๋ค. 1