Download - スパース性に基づく機械学習(機械学習プロフェッショナルシリーズ) 2.3節〜2.5節
スパース性に基づく機械学習2.3 〜 2.5 節
機械学習プロフェッショナルシリーズ
@St_Hakky
自己紹介と告知• Twitter : @St_Hakky• ブログ: http://st-hakky.hatenablog.com/• 関西で機械学習勉強会を実施中 !!
• 団体のモットー:• 圧倒的スピード感で大量の書物と論文をぶった切る• 「えっ、まだ読んでないの?」と煽り奉り、輪講会を乱立させる
• 過去のイベント例• PRML 輪講会、 PRML 上巻 / 下巻一気読み• データ解析のための統計モデリング入門の輪講会• わかりやすいパターン認識 ( 続 ) の輪講会
• 参加したい方は、 Facebook のグループにまずは参加を。• URL :https
://www.facebook.com/groups/1767916400127792/
スパース性に基づく機械学習の2.3 〜 2.5 節をやります
コンテンツ
• 2.3 : 正則化
• 2.4 : 交差確認
• 2.5 : 制約付き最小化問題と罰則項付き最小化問題の等価性
正則化
• 仮説集合の大きさの制御方法• 特徴量の増減だけじゃない!• → 同じ特徴空間であってもパラメータベクトルを
より小さい集合から選ぶことで分散を減少できる
• この様な方法として、パラメータベクトルのノルムの制約がある。
ノルムとは
• 関数 が以下の 3 つの性質を満たすとき、はノルム(norm) という。• ( 斉次性 ) 任意の
が成立
• ( 劣加法性 ) 任意の に対して、
が成立。
• ( 独立性 )
L1,L2,L3 ノルム
L 1ノルム
L2 ノルム
L3 ノルム
罰則付き推定量
• 同じ特徴空間であってもパラメータベクトルをより小さい集合から選ぶことで分散を減少するためのノルムを使った一種の方法
• 罰則付き推定量
罰則付き推定量
2.5 節で示すが、以下の二つの式は等価
2.20 式はノルムで制約があるものの、パラメータ数は11 であり、関数は正則化に関係なく 10 次の多項式
なぜノルムで分散を減らせるのか?• 説明しよう!
まずは図の説明
罰則項付き最小化問題を幾何学的に解釈するために作られた図
パラメータ次元 d=2 で横軸が、縦軸がである
人工的に生成した回帰問題に対する正則化の軌跡
真のパラメータ ( 黒色の ×)
サンプル数 n=10
(a) の図と合わせて、もう一つ (b) の図があるが、これらは独立に同分布から生成されたデータである
楕円状の等高線上は経験誤差関数の値を表す
なぜノルムで分散を減らせるのか?
正則化パラメータ λ が大きくなるに従って、解 ω は原点を中心とする小さい同心円上の内部に制約される。
すなわち、正則化が強くなるほど、小サンプルに由来する揺らぎが抑えられ、分散が小さくなることがわかる
これにより、別でサンプルされた (a) と (b) の回曲線が近づいていることがわかる。
ノルムの値による違い
多項式回帰問題に対して罰則項付き経験誤差最小化 (2.19) を用いた結果を示す。
λ=10-6 : 概ね正しい関数を推定
λ=10-2 : の範囲で学習された関数がほぼ直線になり、誤差が大きくなってしまう
パラメータの数の変化と正則化パラメータの変化の比較
(c) と (d) の比較
(d) :期待誤差は正則化パラメータ λ=10-5 付近で最小。極端な変化はなし
(c) :次数 p=3 付近でやや急峻に誤差が変化
(c) の場合は、 p=3 以上ではバイアスと呼ぶ誤差要因がゼロになる一方で、 (d) ではラムダ= 0 でない限り、バイアスはゼロにならないから起こる。
(c) : パラメータの数を変化 (d) : 正則化パラメータを変化
2.4 交差確認
• 2.3 節で多項式の次数 p と正則化パラメータ λ あるいは C を調節することでバイアスと分散のトレードオフを測ることができることを見た。
• これらのパラメータは、モデルの持つパラメータと区別するためにハイパーパラメータと呼ぶ。
• ハイパーパラメータを決定する問題はモデル選択という。
データを基にハイパーパラメータの決定
•ハイパーパラメータの決定を客観的にするにはどうしたらいいか?• 訓練データに対する当てはまり: ×
• 理由:モデルが複雑なほど小さくなる。汎化性能がない• 期待誤差を用いる?: ×
• 理由:未知の分布に対する期待値が必要なので、基準として用いることができない
• どうする?
データを基にハイパーパラメータの決定
• 一般的に、次の 2 つがよく用いられる• 検証データを用いる方法• 交差確認 (cross validation)
検証データを用いる方法
•検証データを用いる方法:• 与えられたデータを訓練用と検証用に分割• 訓練データでパラメータを学習 (ハイパーパラ
メータは固定 )• 検証データで、検証データに対する誤差を最小に
する様にハイパーパラメータを決定• 訓練用と検証用の比率は、 8:2 or 9:1 が一般的
交差確認 (cross validation)• 交差確認を用いる方法:• 訓練データを K 分割• K-1個の部分で学習して、誤差評価• これをすべての 1,2,…,K 部分で行い、誤差平均を取る• K は 5 や 10 が一般的
検証データを用いる方法と交差確認の比較
• データの規模:• 検証データを用いる方法:大規模データ
• 交差確認と比べて計算量が少ないから• 交差確認:小〜中規模データ
• データの分割方法:• 検証データを用いる方法:分割を固定することが多い
• 検証データに対する誤差に再現性があるため、コンペでもこの方法を使うことが多い様子。
• 交差確認:分割はランダム
2.5 制約付き最小化問題と罰則項付き最小化問題の等価性
ここでは、一般の損失関数と罰則項に関して、以下の二つの式が等価であることを説明する
・制約付き最小化問題
・罰則項付き最小化問題
ここで、損失関数及び罰則項は共に凸関数とし、任意のに関して以下の集合が有界とする
制約付き最小化問題と罰則項付き最小化問題の等価性
ある C における制約付き最小化問題 (2.21) の最小値を L(C) とする
青の実線:目的関数の最小値を示す
制約の元で達成可能な目的関数の値の領域
共通部分を持つという制約の中で最も小さいに対応する直線
制約なし最小値よりが小さくなることはないことに注意。
交点の座標が罰則項付き最小化問題 (2.22) の解
𝐿+λ𝐶=𝑡
制約付き最小化問題と罰則項付き最小化問題の等価性
このの値に対する制約付き最小化問題 (2.21) の解は、罰則項付き最小化問題の解を含む。
逆に、曲線上側領域の凸性から、任意のに対して対応するの値があり、罰則項付き最小化問題 (2.22) の解はこのに対する制約付き最小化問題 (2.21) の解を含む
おしまい