2.supervised learning(epoch#2)-1
TRANSCRIPT
Introduction to
Machine Learning with Python
2. Supervised Learning(1)
Honedae Machine Learning Study Epoch #2
1
Contacts
Haesun Park
Email : [email protected]
Meetup: https://www.meetup.com/Hongdae-Machine-Learning-Study/
Facebook : https://facebook.com/haesunrpark
Blog : https://tensorflow.blog
2
Book
ํ์ด์ฌ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผํ์ฉํ๋จธ์ ๋ฌ๋, ๋ฐํด์ .
(Introduction to Machine Learning with Python, Andreas
Muller & Sarah Guido์๋ฒ์ญ์์ ๋๋ค.)
๋ฒ์ญ์์ 1์ฅ๊ณผ 2์ฅ์๋ธ๋ก๊ทธ์์๋ฌด๋ฃ๋ก์ฝ์์์์ต๋๋ค.
์์์๋ํํ๋ฆฌ๋ทฐ๋ฅผ์จ๋ผ์ธ์์๋ณผ์์์ต๋๋ค.
Github:
https://github.com/rickiepark/introduction_to_ml_with_python/
3
์ง๋ํ์ต
4
์ง๋ํ์ตsupervised learning
์ ๋ ฅ๊ณผ์ถ๋ ฅ์์ํ๋ฐ์ดํฐ๊ฐ์์๋์๋ก์ด์ ๋ ฅ์๋ํ์ถ๋ ฅ์์์ธกํฉ๋๋ค.
5
ํ๋ จ(training, learning)
์์ธก(predict, Inference)
์ฌ์ ์๋ฐ์ดํฐ๋ฅผ๋ง๋๋๋ ธ๋ ฅ์ดํ์ํฉ๋๋ค(์๋ํํ์).
๋ถ๋ฅclassification์ํ๊ทregression
๋ถ๋ฅ๋๊ฐ๋ฅ์ฑ์๋ํด๋์ค๋ ์ด๋ธ์คํ๋๋ฅผ์์ธกํฉ๋๋ค.
์ด์ง๋ถ๋ฅbinary classification์์: ๋๊ฐํด๋์ค๋ถ๋ฅ(์คํธ, 0-์์ฑํด๋์ค, 1-์์ฑํด๋์ค)
๋ค์ค๋ถ๋ฅmulticlass classification์์: ์ ์ด์์ํด๋์ค๋ถ๋ฅ(๋ถ๊ฝํ์ข )
์ธ์ด์์ข ๋ฅ๋ฅผ๋ถ๋ฅ(ํ๊ตญ์ด์ ํ๋์ค์ด์ฌ์ด์๋ค๋ฅธ์ธ์ด๊ฐ์์)
๋๋ถ๋ถ๋จธ์ ๋ฌ๋๋ฌธ์ ๊ฐ๋ถ๋ฅ์๋ฌธ์ ์ ๋๋ค.
ํ๊ท๋์ฐ์์ ์ธ์ซ์(์ค์)๋ฅผ์์ธกํฉ๋๋ค.
์)๊ต์ก, ๋์ด, ์ฃผ๊ฑฐ์ง๋ฅผ๋ฐํ์ผ๋ก์ฐ๊ฐ์๋์์ธก
์ ๋ ๋์ํ๋, ๋ ์จ, ๊ณ ์ฉ์์๋ก์ฌํด์ํ๋์์ธก
์์ธก๊ฐ์๋ฏธ๋ฌํ์ฐจ์ด๊ฐํฌ๊ฒ์ค์ํ์ง์์ต๋๋ค.(์ฐ๋ด ์์ธก์๊ฒฝ์ฐ 40,000,001
์์ด๋ 39,999,999์์ด๋ฌธ์ ๊ฐ๋์ง์์ต๋๋ค.)
ํต๊ณํ์์๋ง์ด์ฐ๊ตฌ๋์ด์์ต๋๋ค.6
ํ๊ท - Regression
7
โregression toward the meanโ
ํ๋์์ค๊ณจํดFrancis Galton
์ผ๋ฐํ, ๊ณผ๋์ ํฉ, ๊ณผ์์ ํฉ
์ผ๋ฐํgeneralization
ํ๋ จ์ธํธ๋กํ์ตํ๋ชจ๋ธ์ํ ์คํธ์ธํธ์์ ์ฉํ๋๊ฒ์ ๋๋ค.
(์, ๋ชจ๋ธ์ดํ ์คํธ์ธํธ์์์ผ๋ฐํ๊ฐ๋์๋ค)
๊ณผ๋์ ํฉoverfitting
ํ๋ จ์ธํธ์๋๋ฌด๋ง์ถ์ด์ ธ์์ดํ ์คํธ์ธํธ์์ฑ๋ฅ์ ํ๋๋ํ์์ ๋๋ค.
(์, ๋ชจ๋ธ์ดํ๋ จ์ธํธ์๊ณผ๋์ ํฉ๋์ด ์๋ค)
๊ณผ์์ ํฉunderfitting
ํ๋ จ์ธํธ๋ฅผ์ถฉ๋ถํ๋ฐ์ํ์ง๋ชปํดํ๋ จ์ธํธ, ํ ์คํธ์ธํธ์์๋ชจ๋์ฑ๋ฅ์ ํ๋๋
ํ์์ ๋๋ค. (์, ๋ชจ๋ธ์ด๋๋ฌด๋จ์ํ์ฌ๊ณผ์์ ํฉ๋์ด ์๋ค)
8
๋๋ฌด์์ธํ๋ชจ๋ธ๊ณผ๋์ ํฉ
9
45์ธ์ด์, ์๋ ์ ๋ฏธ๋ง,
์ดํผํ์ง์์๊ณ ๊ฐ์ด์ํธ๋ฅผ์ด๊ฒ์ด๋ค.
์ํธํ์ฌ์๊ณ ๊ฐ๋ฐ์ดํฐ๋ฅผํ์ฉํด์ํธ๋ฅผ์ฌ๋ ค๋์ฌ๋์์์ธกํ๋ ค๊ณ ํฉ๋๋ค.
๋ง์ฝ 10,000๊ฐ์๋ฐ์ดํฐ๊ฐ๋ชจ๋์ด์กฐ๊ฑด์๋ง์กฑํ๋ค๋ฉด?
๋๋ฌด๊ฐ๋จํ๋ชจ๋ธ๊ณผ์์ ํฉ
10
์ง์ด์๋๊ณ ๊ฐ์๋ชจ๋์ํธ๋ฅผ์ด๊ฒ์ด๋ค.
๋ชจ๋ธ๋ณต์ก๋๊ณก์
11
๋ฐ์ดํฐ์๋ํ๋ฏผ๊ฐ์ฑ์๊ณ ๋ฆฌ์ฆ์์ฒด์ค์ฐจ(y = ax + b ์ b๊ฐ์๋)
ํธํฅ-๋ถ์ฐํธ๋ ์ด๋์คํbias-variance tradeoff๋ผ๊ณ ๋๋ถ๋ฆ ๋๋ค.
๋ฐ์ดํฐ์ ๊ณผ๋ณต์ก๋๊ด๊ณ
๋ฐ์ดํฐ๊ฐ๋ง์ผ๋ฉด๋ค์์ฑ์ด์ปค์ ธ๋ณต์กํ๋ชจ๋ธ์๋ง๋ค์์์ต๋๋ค.
10,000๋ช ์๊ณ ๊ฐ๋ฐ์ดํฐ์์ 45์ธ์ด์, ์๋ ์ ๋ฏธ๋ง, ์ดํผํ์ง์์๊ณ ๊ฐ์ด
์ํธ๋ฅผ์ฌ๋ คํ๋ค๋ฉด ์ด์ ๋ณด๋คํจ์ฌ์ ๋ขฐ๋์๋ชจ๋ธ์ด๋ผ๊ณ ํ ์์์ต๋๋ค.
12
ํ๋ จ
ํ ์คํธ
(less complex) (more complex)
๋ฐ์ดํฐ์
forge ๋ฐ์ดํฐ์
์ธ์์ ์ผ๋ก๋ง๋ ์ด์ง๋ถ๋ฅ๋ฐ์ดํฐ์ , 26๊ฐ์๋ฐ์ดํฐํฌ์ธํธ, 2๊ฐ์์์ฑ
13
๋ฐ์ดํฐ์
wave ๋ฐ์ดํฐ์
์ธ์์ ์ผ๋ก๋ง๋ ํ๊ท๋ฐ์ดํฐ์ , 40๊ฐ์๋ฐ์ดํฐํฌ์ธํธ, 1๊ฐ์์์ฑ
14
๋ฐ์ดํฐ์
์์ค์ฝ์ ์ ๋ฐฉ์๋ฐ์ดํฐ์
์ ์ฑMalignant(1)/์์ฑBenign(0)์ ์ด์ง๋ถ๋ฅ, load_breast_cancer(),
569๊ฐ์๋ฐ์ดํฐํฌ์ธํธ, 30๊ฐ์ํน์ฑ
๋ณด์คํด์ฃผํ๊ฐ๊ฒฉ๋ฐ์ดํฐ์
1970๋ ๋๋ณด์คํด์ฃผ๋ณ์์ฃผํํ๊ท ๊ฐ๊ฒฉ์์ธก, ํ๊ท๋ฐ์ดํฐ์ , load_boston(),
506๊ฐ์๋ฐ์ดํฐํฌ์ธํธ, 13๊ฐ์ํน์ฑ
ํ์ฅ๋ณด์คํด์ฃผํ๊ฐ๊ฒฉ๋ฐ์ดํฐ์
ํน์ฑ๋ผ๋ฆฌ๊ณฑํ์ฌ์๋ก์ดํน์ฑ์๋ง๋ฆ(ํน์ฑ๊ณตํ, 4์ฅ, PolynomialFeatures),
mglearn.datasets.load_extended_boston(), 104๊ฐ์๋ฐ์ดํฐํฌ์ธํธ
์ค๋ณต์กฐํฉ๊ณต์์ ๐๐
= ๐+๐โ1๐
์ด๋ฏ๋ก 132
= 13+2โ12
=14!
2! 14โ2 != 91
15
์์ฑpositive, ์์ฑnegative
ํน์ฑ์์ ๊ณฑ์ด๋ง๋ค์ด์ง
load_breast_cancer()
16
(์ํ, ํน์ฑ)
Bunch ํด๋์ค์ํค
ํ๊น
load_boston()
17
์๋ 13๊ฐํน์ฑ
ํ์ฅ๋ 104๊ฐํน์ฑ์ด์ฑ ์์์ ๋ฅผ์ํด์๋ง๋ ํ์ฅ๋๋ฐ์ดํฐ์
k-์ต๊ทผ์ ์ด์๋ถ๋ฅ
18
k-์ต๊ทผ์ ์ด์๋ถ๋ฅ
์๋ก์ด๋ฐ์ดํฐํฌ์ธํธ์๊ฐ๊น์ด์ด์์ค๋ค์ํด๋์คmajority voting๋ฅผ์์ธกํฉ๋๋ค.
forge ๋ฐ์ดํฐ์ ์ 1-์ต๊ทผ์ ์ด์, 3-์ต๊ทผ์ ์ด์์ ์ฉํ๋ฉด๋ค์๊ณผ๊ฐ์ต๋๋ค.
19
์์ธก์ด๋ฐ๋
k-NN ๋ถ๋ฅ๊ธฐ
20
ํ๋ จ์ธํธ์ํ ์คํธ์ธํธ๋ก๋ถ๋ฆฌ
๋ชจ๋ธ๊ฐ์ฒด์์ฑ
๋ชจ๋ธํ๊ฐ
๋ชจ๋ธํ์ต
KNeighborsClassifier ๋ถ์
21
more complex
๊ณผ๋์ ํฉless complex
๊ณผ์์ ํฉ
์ผ์ ํ๊ฐ๊ฒฉ์ผ๋ก์์ฑํํฌ์ธํธ์์์ธก๊ฐ์์ด์ฉํด๊ฒฐ์ ๊ฒฝ๊ณ๊ตฌ๋ถ
k-NN ๋ถ๋ฅ๊ธฐ์๋ชจ๋ธ๋ณต์ก๋
22
more complex less complex
์ต์ ์
๊ณผ๋์ ํฉ
๊ณผ์์ ํฉ
k-์ต๊ทผ์ ์ด์ํ๊ท
23
k-์ต๊ทผ์ ์ด์ํ๊ท
์๋ก์ด๋ฐ์ดํฐํฌ์ธํธ์๊ฐ๊น์ด์ด์์์ถ๋ ฅ๊ฐํ๊ท ์ด์์ธก์ด๋ฉ๋๋ค.
wave ๋ฐ์ดํฐ์ (1์ฐจ์)์ 1-์ต๊ทผ์ ์ด์, 3-์ต๊ทผ์ ์ด์์ ์ฉํ๋ฉด๋ค์๊ณผ๊ฐ์ต๋๋ค.
24
ํ ์คํธ๋ฐ์ดํฐ
์์ธก
k-NN ์ถ์ ๊ธฐ
25
ํ๋ จ์ธํธ์ํ ์คํธ์ธํธ๋ก๋ถ๋ฆฌ
๋ชจ๋ธ๊ฐ์ฒด์์ฑ
๋ชจ๋ธํ๊ฐ
๋ชจ๋ธํ์ต
ํ๊ท๋ชจ๋ธ์ํ๊ฐ
ํ๊ท๋ชจ๋ธ์ score() ํจ์๋๊ฒฐ์ ๊ณ์ ๐ 2๋ฅผ๋ฐํ
๐ 2 = 1 โ ๐=0
๐ ๐ฆ โ ๐ฆ 2
๐=0๐ ๐ฆ โ ๐ฆ 2 ๐ฆ:ํ๊น๊ฐ ๐ฆ:ํ๊น๊ฐ์ํ๊ท ๐ฆ:๋ชจ๋ธ์์์ธก
์๋ฒฝ์์ธก: ํ๊น๊ฐ==์์ธก๋ถ์==0, ๐ 2 = 1
ํ๊น๊ฐ์ํ๊ท ์ ๋์์ธก: ๋ถ์โ๋ถ๋ชจ, ๐ 2 = 0์ด๋จ
ํ๊ท ๋ณด๋ค๋์๊ฒ์์ธกํ๋ฉด์์๊ฐ๋ ์์์
26
KNeighborsRegressor ๋ถ์
27
more complex
๊ณผ๋์ ํฉ
less complex
๊ณผ์์ ํฉ
์ฅ๋จ์ ๊ณผ๋งค๊ฐ๋ณ์
์ค์๋งค๊ฐ๋ณ์ํฌ์ธํธ์ฌ์ด์๊ฑฐ๋ฆฌ์ธก์ ๋ฐฉ๋ฒ: metric ๋งค๊ฐ๋ณ์๊ธฐ๋ณธ๊ฐ โminkowskiโ์ด๊ณ
p ๋งค๊ฐ๋ณ์๊ธฐ๋ณธ๊ฐ 2 ์ผ๋,
์ ํด๋ฆฌ๋์๊ฑฐ๋ฆฌ ๐=0๐ ๐ฅ1
(๐)โ ๐ฅ2
(๐) 2
์ด์์์(n_neighbors): 3๊ฐ๋ 5๊ฐ(๊ธฐ๋ณธ๊ฐ)๊ฐ ๋ณดํธ์
์ฅ์ ์ดํดํ๊ธฐ์ฌ์, ํน๋ณํ์กฐ์ ์์ด์์๋, ์ฒ์์๋ํ๋๋ชจ๋ธ๋ก์ ํฉ,
๋น๊ต์ ๋ชจ๋ธ์๋น ๋ฅด๊ฒ๋ง๋ค์์์
๋จ์ ํน์ฑ๊ฐ์๋์ํ๊ฐ์๊ฐํฌ๋ฉด์์ธก์ด๋๋ฆผ,
๋ฐ์ดํฐ์ ์ฒ๋ฆฌ์ค์(์ค์ผ์ผ์ด ์์ํน์ฑ์์ํฅ์์ค์ด์ง์์ผ๋ ค๋ฉด์ ๊ทํํ์),
(์๋ฐฑ๊ฐ์ด์์) ๋ง์ํน์ฑ์๊ฐ์ง๋ฐ์ดํฐ์ ์๋์์๋ํ์ง์์,
ํฌ์ํ๋ฐ์ดํฐ์ ์ ์์๋ํ์ง์์
28
์ ํ๋ชจ๋ธ - ํ๊ท
29
ํ๊ท์์ ํ๋ชจ๋ธ
์ ํํจ์(linear model)๋ฅผ์ฌ์ฉํ์ฌ์์ธก
๐ฆ = ๐ค 0 ร ๐ฅ 0 + ๐ค 1 ร ๐ฅ 1 + โฏ+ ๐ค ๐ ร ๐ฅ ๐ + ๐
๐ฆ = ๐ค0 ร ๐ฅ0 + ๐ค1 ร ๐ฅ1 + โฏ+ ๐ค๐ ร ๐ฅ๐ + ๐
ํน์ฑ : ๐ฅ 0 ~๐ฅ ๐ ํน์ฑ๊ฐ์: (p + 1)
๋ชจ๋ธํ๋ผ๋ฏธํฐmodel parameter: ๐ค 0 ~๐ค ๐ , ๐
๐ : ๊ฐ์ค์นweight, ๊ณ์coefficient, ๐, ๐ฝ e.g. model.coef_
๐ฃ : ์ ํธintercept, ํธํฅbias e.g. model.intercept_
ํ์ดํผํ๋ผ๋ฏธํฐhyperparameter: ํ์ต๋์ง์๊ณ ์ง์ ์ค์ ํด์ฃผ์ด์ผํจ(๋งค๊ฐ๋ณ์)
e.g. KNeighborsRegressor์ n_neighbors
30
์ฌ์ฉ์๊ฐ์ง์ ํ๋งค๊ฐ๋ณ์์๊ตฌ๋ถ
wave ๋ฐ์ดํฐ์ (ํน์ฑ 1๊ฐ)์ผ๋ก๋น๊ต
31
์ ํ๋ชจ๋ธ k-์ต๊ทผ์ ์ด์
๐ฆ = ๐ค 0 ร ๐ฅ 0 + ๐
k-์ต๊ทผ์ ์ด์์๋นํด๋จ์ํด๋ณด์ด์ง๋งํน์ฑ์ด๋ง์ผ๋ฉด์คํ๋ ค๊ณผ๋์ ํฉ๋๊ธฐ์ฝ์ต๋๋ค.
์ ํ๋ชจ๋ธ์ํน์ฑ์ด๋๊ฐ์ด๋ฉดํ๋ฉด, ์ธ๊ฐ์ด์์์ดํ๋ฉดhyperplane์ด๋ฉ๋๋ค.
์ต์์ ๊ณฑ๋ฒOLS, ordinary least squares
ํ๊ท ์ ๊ณฑ์ค์ฐจmean square error(MSE =1
๐ ๐=0
๐ ๐ฆ๐ โ ๐ฆ๐2)๋ฅผ์ต์ํ
LinearRegression: ์ ๊ท๋ฐฉ์ ์normal equation ๐ฝ = ๐๐๐ โ1๐๐๐ฆ์์ฌ์ฉํ์ฌ w, b๋ฅผ๊ตฌํจ
32
ํ๋ จ์ธํธ์ํ ์คํธ์ธํธ๋ก๋ถ๋ฆฌ
๋ชจ๋ธํ๊ฐ
๋ชจ๋ธ๊ฐ์ฒด์์ฑ & ํ์ต
๊ณผ์์ ํฉ(1์ฐจ์๋ฐ์ดํฐ์ ์ด๋ผ์์ํ๋๋ก)
๊ฐ์ค์น๋ํน์ฑ์๊ฐ์๋งํผ
์ต์์ ๊ณฑ๋ฒOLS, ordinary least squares
๋ณด์คํด์ฃผํ๊ฐ๊ฒฉ๋ฐ์ดํฐ์ , 506๊ฐ์ํ, 104๊ฐํน์ฑ
33
ํ๋ จ์ธํธ์ํ ์คํธ์ธํธ์ R2 ์ ์์ฐจ์ด๊ฐํผํน์ฑ์ด๋ง์๊ฐ์ค์น๊ฐํ๋ถํด์ ธ(104๊ฐ์์ฐจ์) ๊ณผ๋์ ํฉ๋จ
๋์ผํ๊ธฐ๋ณธ๋งค๊ฐ๋ณ์๋กํ๋ จ
๋ฆฟ์งridge
์ ํ๋ชจ๋ธ(MSE ์ต์ํ) + ๊ฐ์ค์น์ต์ํ(๊ฐ๋ฅํ 0์๊ฐ๊น๊ฒ)
L2 ๊ท์ regularization : L2 ๋ ธ๋ฆnorm์์ ๊ณฑ ๐ค 22 = ๐=1
๐ ๐ค๐2
๋น์ฉํจ์cost function : ๐๐๐ธ + ๐ผ ๐=1๐ ๐ค๐
2
์์คํจ์loss function, ๋ชฉ์ ํจ์objective function ๋ผ๊ณ ๋๋ถ๋ฆ
๐ผ๊ฐํฌ๋ฉดํ๋ํฐ๊ฐ์ปค์ ธ ๐ค๐๊ฐ์์์ ธ์ผํจ(๊ณผ๋์ ํฉ๋ฐฉ์ง)
๐ค๐๊ฐ 0์๊ฐ๊น๊ฒ๋์ง๋ง 0์ด๋์ง๋์์
34
์ต์ ๊ฐํ๋ํฐpenalty
โบโ
โบโ
Ridge ํด๋์ค
35
(๊ฐ์ค์น๊ฐ๊ท์ ๋์ด) ๊ณผ๋์ ํฉ์ด์ค๊ณ ํ ์คํธ์ธํธ์ ์๊ฐ์์น๋จ
๊ธฐ๋ณธ๊ฐ alpha=1.0
์ ์ฝ์ด๋๋ฌด์ปค์ง๊ณผ์์ ํฉ alpha=0.00001
๋กํ๋ฉด๋น์ทํด์ง
์ต์์ ๊ณฑ๋ฒ
Ridge.coef_
36
alpha ๊ฐ์๋ฐ๋ฅธ coef_ ๊ฐ์๋ณํ
๊ท์ ์ํ๋ จ๋ฐ์ดํฐ์๊ด๊ณ
๋ณด์คํด์ฃผํ๊ฐ๊ฒฉ๋ฐ์ดํฐ์ ์ํ์ต๊ณก์ : LinearRegression vs Ridge(alpha=1)
37
ํ๋ จ์ธํธ์์ ์๋๋ฆฟ์ง๊ฐ๋๋ฎ์
ํ ์คํธ์ธํธ์์ ์๋๋ฆฟ์ง๊ฐ๋๋์
๋ฐ์ดํฐ๊ฐ์ ์๋LinearRegression ํ์ต์๋จR2 < 0
(4~10 samples per weight)
๋ฐ์ดํฐ๊ฐ๋ง์ผ๋ฉด๊ท์ ํจ๊ณผ๊ฐ์(๋ณต์กํ๋ชจ๋ธ์ด๊ฐ๋ฅํด์ง)
๋ฐ์ดํฐ๊ฐ๋ง์์ง๋ฉด๊ณผ๋์ ํฉ์ค์ด๋ฌ
๋ผ์Lasso
38
์ ํ๋ชจ๋ธ(MSE ์ต์ํ) + ๊ฐ์ค์น์ต์ํ(๊ฐ๋ฅํ 0์ผ๋ก)
L1 ๊ท์ : L1 ๋ ธ๋ฆ ๐ค 1 = ๐=1๐ ๐ค๐
๋น์ฉํจ์cost function : ๐๐๐ธ + ๐ผ ๐=1๐ ๐ค๐
๐ผ๊ฐํฌ๋ฉดํ๋ํฐ๊ฐ์ปค์ ธ ๐ค๐๊ฐ๋์์์ ธ์ผํจ
๐ค๐๊ฐ 0์ด๋ ์์์(ํน์ฑ์ ํ์ํจ๊ณผ)
์ผ๋ถ๊ณ์๊ฐ 0์ด๋๋ฉด๋ชจ๋ธ์์ดํดํ๊ธฐ์ฝ๊ณ
์ค์ํํน์ฑ์ํ์ ํ๊ธฐ์ฝ์ต๋๋ค.
์ต์ ๊ฐ
โบโ
โบโ
Lasso
39
alpha=1.0, max_iter=1000
๊ณผ์์ ํฉ(๊ท์ ๊ฐ๋๋ฌดํผ), 4๊ฐ์ํน์ฑ๋งํ์ฉ๋จ
๊ท์ ๋ฅผ๋๋ฌด๋ฎ์ถ๋ฉด LinearRegression๊ณผ๋น์ท
์ขํํ๊ฐ๋ฒcoordinate descent
์ต์์ ๊ณฑ๋ฒ
๋ฆฟ์ง์๋น์ท
Lasso.coef_
40
alpha ๊ฐ์๋ฐ๋ฅธ coef_ ๊ฐ์๋ณํ
Ridge vs Lasso
์ผ๋ฐ์ ์ผ๋ก๋ฆฟ์ง๊ฐ๋ผ์๋ณด๋ค์ ํธ๋จ
L2 ํ๋ํฐ๊ฐ L1 ํ๋ํฐ๋ณด๋ค์ ํธ๋จ (SGD์์ ๊ฐํ์๋ ด)
๋ง์ํน์ฑ์ค์ผ๋ถ๋ง์ค์ํ๋ค๊ณ ํ๋จ๋๋ฉด๋ผ์
๋ถ์ํ๊ณ ์ดํดํ๊ธฐ์ฌ์ด๋ชจ๋ธ์์ํ ๋๋๋ผ์
41
ElasticNet
๋ฆฟ์ง์๋ผ์ํ๋ํฐ๊ฒฐํฉ (R์ glmnet)
alpha, l1_ratio ๋งค๊ฐ๋ณ์๋ก L1 ๊ท์ ์ L2 ๊ท์ ์์์์กฐ์
์ฌ์ค Lasso๋ ElasticNet(l1_ratio=1.0)์๋์ผ
42
๐๐๐ธ + ๐ผ ร ๐1_๐๐๐ก๐๐
๐=1
๐
๐ฅ๐ +1
2๐ผ ร 1 โ ๐1_๐๐๐ก๐๐
๐=1
๐
๐ค๐2
๐1 = ๐ผ ร ๐1_๐๐๐ก๐๐ ๐2 = ๐ผ ร 1 โ ๐1_๐๐๐ก๐๐
๐ผ = ๐1 + ๐2 ๐1_๐๐๐ก๐๐ =๐1
๐1 + ๐2๐1๊ณผ ๐2์๋ง์ถ์ด๐ผ์ ๐1_ratio์์กฐ์