prml 1.3~1.6 ver3
DESCRIPTION
12/09/25 w8prml 学習会 パターン認識と機械学習 上 1.3節~1.6節 申し訳ありませんが、字の大きさが変になって改行がおかしかったり、式に画像データを使ってる部分がぼやけ気味だったりします。 (9/25)いくつか再び訂正をしましたので再アップします。主な修正箇所は (P28)効用関数最小化→最大化 (P51) log(24)/log(3)=log(8)=3 → log(24)/log(3)=2.892789.... (P57) 右下枠内のエントロピー低・高が逆だったのを訂正。 ・・・以上となります。TRANSCRIPT
w8prml
1.3 – 1.612/09/24
1
概要
1.3 モデルの選択• モデル選択のアプローチ
• 確認用集合・テスト集合・交差確認法など
1.4 次元の呪い• 次元が大きくなることの弊害について
1.5 決定理論• 確率からのクラス分類について
• 決定境界・棄却オプションなど
1.6 情報理論• 情報理論と確率理論やパターン認識・機械学習
• 情報量・エントロピー・相互情報量など
2
1.3 モデル選択
•
3
学習の流れ
• それぞれのアルゴリズムにおいて• 確認用集合を使って、複数のモデルから最良のものを選択
• テスト集合を使って、最良のモデルの性能を評価
• 評価結果から最良のアルゴリズムを選択
4
アルゴリズムB
アルゴリズムA
訓練集合 確認用集合
学習 モデル選択 性能評価
テスト集合
訓練集合 確認用集合
テスト集合
データの使い道
•
5
限られたデータの効率的利用
• 交差確認法(交差検定法)(cross-validation)
(LOO法(1個抜き法; leave-one-out method))
• 交差確認法の欠点(モデル選択における)• 学習回数が増える
• 複雑なモデル(パラメータが複数)などの場合には有効ではない
(パラメータ数に対し、指数関数的に訓練回数が増える可能性)
6
1. サンプルデータをS等分にする
2. 1個を評価に、残りS-1個を訓練に使う
3. 評価に使う部分を変えて、S回繰り返す
4. S回の性能スコアを平均する
※S = サンプルデータ数 にしたものがLOO法
S=4の例
情報量規準(information criterion)
•
7
赤池情報量規準の直感的理解
•
8
実際の例(教科書とは違うデータですが)
9
訓練データ(n=10) 各モデルでの二乗誤差の総和
同分布で乱数を取り直す(確認用集合)
• 赤池情報量規準によって最初の訓練データで M = 1 が最良と導ける※対数尤度は、二乗誤差総和をデータ数(10)で割ったものの対数に比例
(tの複雑さがガウス分布に従うと仮定した場合)
この他
• ベイズ情報量規準(Bayesian information criterion or BIC)• より、モデルの複雑さに対する罰則を強化したもの
• 詳しくは 4.4.1 節
10
1.4 次元の呪い• この節で言いたい事は以下のようなこと
• 多くの入力変数による高次元空間を扱う際の問題・課題・困難
• 高次元化に伴う計算量の問題
• 一次元・二次元・三次元空間における直感的理解との齟齬
11
• 実データは多くの場合において
• 実質的に低次元のデータ(尐ないデータ)が目標変数へ影響
• (尐なくとも局所的には)滑らかな性質
→ 多様体(manifold)や内挿(置換)といった考え方を利用可能
1.次元の呪いとは
2.実データでは、高次元空間でもやりようがある
× ○
例1:計算量の増加について(1)
• 例:入力変数が2つで、3状態に分類されるデータ
12
このデータは赤青緑のいずれに分類すべきか?
単純な手法:
マス目に区切って、最大数が属するクラスに分類
今回は2入力で、4x4に区切ったので16マス。ではもっと次元数が増えたら?
例1:計算量の増加について(2)
•
13
※D=3に対しては、立方体の領域の一部だけ示す
例2:多項式フィッティングの例
•
14
例3:低次元での直感との齟齬(球の体積)• 半径 r = 1 の球の体積と、r=1と r = 1 – ε の間にある体積の比を考える
15
ε1
D = 2
D = 3
例3:各次元での体積比
•
16
例4:高次元ガウス分布の極座標系密度
•
17
例4:高次元ガウス分布の極座標系密度
•
18
• 後の章の、モデルパラメータのベイズ推論を考える際に、この性質を使って重要な結論を導くらしい(演習1.20)
例4:高次元ガウス分布の極座標系密度
• 1次元の場合
19
0
r r
• 2次元の場合
r r
実データでの場合
20
1.実質的には低い次元の領域にある
and/or
重要な変化が生じる方向(次元)は限定的
2.(局所的には)滑らかな性質を持ち、
入力の小さな変化は目標変数に小さい変化しか与えない
→ 多様体(manifold)の考え方の利用や、内挿(補間)による目標変数の予測が可能
実データでは、高次元空間でもやりようがある
例:画像データ
例:『ベルトコンベアの上の2次元形状の物体をキャプチャした画像から、その向きを決める』という問題
• データの次元数はピクセル数
• 実際は、画像間に存在する違いは『物体の位置と方向』だけ
(物体の位置x,y座標と角度θの3つの自由度)
21
1.5 決定理論
•
22
例:患者のX線画像から癌かどうかを判定•
23
決定問題の要望その1:できるだけxを誤ったクラスに分類したくない•
24
誤識別率
•
25
一般のKクラスについて(正解率)
26
•
一般のKクラスについて(誤識別率)
27
•
決定問題の要望その2:期待損失(コスト)を最小化したい•
28
癌 正常
0 1000
1 0
癌
正常
期待損失の最小化
•
29
棄却オプション
•
30
推論と決定:決定問題3つのアプローチ
•
31
それぞれの特徴
•
32
事後確率が欲しくなるケース
• リスク最小化
• 棄却オプション
• クラス事前確率の補正
• モデルの結合
33
事後確率が欲しくなるケース1リスク最小化
•
34
事後確率が欲しくなるケース2棄却オプション
• 事後確率がなければ棄却オプションを使えない• 誤認識別率や期待損失の最小化ができない
35
事後確率が欲しくなるケース3クラス事前確率の補正(1)
• 稀なケースのクラスへの対処
• 例:癌である画像が1000件に1件の場合問題1:全部正常と診断するだけで 99.9% の精度
問題2:幅広い癌の画像に対応すべく1000件集めるには
→ 学習には約1000000件のサンプルデータを集めて使う事に
→ 各クラスが同じくらいの数の訓練データを使えると良い• 訓練データに補正を加えた分を修正しなければならない
(癌の画像が通常1000件に1件程度という情報も必要)
36
事後確率が欲しくなるケース3クラス事前確率の補正(2)•
37
事後確率が欲しくなるケース4モデルの結合(1)•
38
事後確率が欲しくなるケース4モデルの結合(1)•
39
回帰の為の損失関数(1)
•
40
回帰の為の損失関数(2)
•
41
各 x での、t の不確実さを表すのが p(t|x)
その平均地点を y(x) の値とする
回帰の為の損失関数(3)
•
42
tの分布の分散を x に関して平均したもの。
目標データが本質的に持つ変動で、ノイズどうしようもない
回帰の為の損失関数(4)
•
43
ミンコフスキー損失と y(x)
44
• q=1 のとき
となる事が条件
↓
y(x)は p(t|x) のメディアン
• q=0 のときt = y(x)が条件であり、
かつ y(x) が最大となる値
↓
y(x) はモード(最頻値)※ 演習 1.27
q=1について
•
45
q=1 について(続き)
• これを満たす事が y(x) の条件
• q = 1 の時は
46
q=0 について
•
47
1.6 情報理論
• 情報理論の分野から、確率論などについて考える• パターン認識や機械学習に有用ないくつかの概念を学習
• 情報量
• エントロピー
• 微分エントロピー
• 相対エントロピー
• カルバックーライブラーダイバージェンス
• イェンセンの不等式
48
情報量 (まず離散の事について)
•
49
50
•
(※演習1.28)
情報量の有名?な例
• 12枚の硬貨のうち、1枚が不良品で重さが違う。
天秤を使って不良品を特定するのに、何回必要か?
• 必要な事は、『12枚のうち1枚の特定』 → 1/12
『重いか軽いかの判定』 → 1/2
→ 必要な情報量は log (12*2) = log (24)
• 一度の天秤では右=左、右>左、右<左 の3通りの結果が得られる
→ 情報量は log(3) = 1.584962….
• 結果log (24) / log (3) = 2.8927892607 … → 3回は絶対必要
51
確率変数 x のエントロピー(entropy)•
52
エントロピー=複雑さ?
•
53
箱物体・・・
全部でN個の物体
入れ方の総数を考える
•
54
複雑さのエントロピー
•
55
物理用語では
•
56
離散確率変数で考えると・・・
57
• エントロピー低
• 一部で鋭いピークを持つ分布
• エントロピー高
• たくさんの値に広がっている分布
• エントロピー最小• どこかで p=1で、他では
p=0となる分布
• エントロピー最大• 全てが等確率 (一様分布)
エントロピー最大が一様分布の証明
•
58
連続変数でのエントロピー(1)
•
59
・平均値の定理の簡単な説明
Δ
積分値に等しくなる
赤い点が連続関数の場合見つかる
連続変数でのエントロピー(2)
•
60
微分エントロピーの最大化(1)
•
61
微分エントロピーの最大化(2)
•
62
微分エントロピーの最大化(3)
• ラグランジュ乗数法から、次の式を最大化 (演習1.34)
• 変分法を利用する事で次の式が得られる
• この p(x) と3つの制約式を使い最終的に
• ガウス分布になる
• 非負条件を入れなかったが、結局非負
63
微分エントロピーの最大化(4)
•
64
条件付きエントロピー(1)
•
65
条件付きエントロピー(2)
•
66
1.6.1 相対エントロピーと相互情報量•
67
KLダイバージェンスの性質•
68
イェンセンの不等式と凸関数(1)
• 凸(とつ)関数 (convex function)• 関数 f(x) で、すべての弦が関数に乗っているかそれよりも上にある
• 等号成立時がλ=0とλ=1のみに限る場合、真に凸(strictly convex)
• 真に凸 ⇔ 2階微分が常に正
69
f(a)
f(b)
点c:λf(a)+(1-λ)f(b)
f(λa+(1-λ)b)
※演習1.36
イェンセンの不等式と凸関数(2)
•
70
イェンセンの不等式と凸関数(3)
•
71
イェンセンの不等式の直感的理解
•
72
KLダイバージェンス(1)
•
73
KLダイバージェンス(2)
•
74
KLダイバージェンス(3) 相互情報量•
75
でてきた演習問題
• P14 1.15, 1.16
• P15 1.18
• P17 1.20 (P18)
• P30 1.24
• P44 1.27
• P50 1.28 取りこぼしもあるでしょうし、
• P63 1.34 だからなんだって感じですが
• P64 1.35
• P66 1.37
• P69 1.36
76