はじめに
データに潜むパターンを見つけ出すと言う問題は根源的なものであり、その歴史は深い
• 天体観測を契機とする古典力学の誕生
• 原子スペクトルの規則性の発見を契機とする量子科学の誕生
パターン認識=計算機アルゴリズムを通して、データの規則性を発見すること
• 人間が規則性を決定する方法もある
• しかし、このアプローチはルール数の増大によってすぐに破綻する
3
• 機械学習のアプローチを採用すれば、はるかに良い結果が得られる
• N 個の手書き数字の大きな集合を使って、モデルのパラメータを適応的に調整
4
多項式曲線フィッティング
• 限られたデータ点から、それを生成した元の関数を予測したい。
予測式(ここではM次多項式を想定)
過学習
しかし、実際はそんなに単純じゃない。変数が増えると、予測関数はデータに含まれるノイズに強く影響される。
過学習
二乗平均平方根(RMS)誤差
テスト誤差は大きい!
訓練誤差は最も小さいが・・・
モデルが過学習するかを知るには、訓練時のデータとは別なデータを使って誤差を評価すれば良い。
過学習
予測関数の係数を見ると、過学習のケースでは値が大きくなっている。
過学習をすると係数は大きくなる。
データセットのサイズの影響
データセットのサイズが増加するにしたがい、過学習の度合いは是正されていく。
正規化係数
• 正規化係数を大きくしすぎると、真値へのフィット具合も抑制される
正規化係数 vs
• 全ページでの事例を、RMS誤差を使って定量的に議論
テスト誤差を最小化する正規化係数
正規化係数が小さすぎると、過学習
多項式の係数
• 正規化係数が大きすぎると、係数が小さくなりすぎる
加法定理
𝑝 𝑋 = 𝑥𝑖 = 𝑝(𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗)
𝐿
𝑗=1
乗法定理
𝑝 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 =𝑛𝑖𝑗𝑁=𝑛𝑖𝑗𝑐𝑖∙𝑐𝑖𝑁= 𝑝 𝑌 = 𝑦𝑗 𝑋 = 𝑥𝑖 𝑝(𝑋 = 𝑥𝑖)
ガウス分布のパラメータ推定
尤度関数
• ある点列から、ガウス分布がどの分布から生成されたものなのかを推定する
最尤推定
• 対数尤度を最小化するようなパラメータμ、σを求める→最尤推定(ML)
平均の最尤推定値 分散の最尤推定値
曲線フィッティング再訪
• 1.1 で見た曲線フィッティングを、確率論の観点から再考してみる
MAP推定:ベイズへの道
Determine by minimizing regularized sum-of-squares error, .
• 事前分布
• 正規化最小二乗誤差
• 予測誤差
ベイズ曲線フィッティング
• 新たな点xに関する目標値tを、p(t|x,w)をwに対して周辺化することによって求める。
• 予測平均 • 予測分散
• 分散行列 • 基底
モデル選択
• これまで、正規化係数や次元数など、モデルの超パラメータを調整する方法については説明してこなかった
• 実際には、下図に示す交差検定をすることで求める
訓練データ
検定データ