prml 1.3～1.6 ver3

w8prml

1.3 – 1.612/09/24

1

概要

1.3 モデルの選択• モデル選択のアプローチ

• 確認用集合・テスト集合・交差確認法など

1.4 次元の呪い• 次元が大きくなることの弊害について

1.5 決定理論• 確率からのクラス分類について

• 決定境界・棄却オプションなど

1.6 情報理論• 情報理論と確率理論やパターン認識・機械学習

• 情報量・エントロピー・相互情報量など

2

１．３モデル選択

•

3

学習の流れ

• それぞれのアルゴリズムにおいて• 確認用集合を使って、複数のモデルから最良のものを選択

• テスト集合を使って、最良のモデルの性能を評価

• 評価結果から最良のアルゴリズムを選択

4

アルゴリズムB

アルゴリズムA

訓練集合確認用集合

学習モデル選択性能評価

テスト集合

訓練集合確認用集合

テスト集合

データの使い道

•

5

限られたデータの効率的利用

• 交差確認法（交差検定法）（cross-validation）

（LOO法（１個抜き法; leave-one-out method））

• 交差確認法の欠点（モデル選択における）• 学習回数が増える

• 複雑なモデル（パラメータが複数）などの場合には有効ではない

（パラメータ数に対し、指数関数的に訓練回数が増える可能性）

6

1. サンプルデータをS等分にする

2. 1個を評価に、残りS-1個を訓練に使う

3. 評価に使う部分を変えて、S回繰り返す

4. S回の性能スコアを平均する

※S ＝サンプルデータ数にしたものがLOO法

S=4の例

情報量規準（information criterion）

•

7

赤池情報量規準の直感的理解

•

8

実際の例（教科書とは違うデータですが）

9

訓練データ（n=10）各モデルでの二乗誤差の総和

同分布で乱数を取り直す（確認用集合）

• 赤池情報量規準によって最初の訓練データで M = 1 が最良と導ける※対数尤度は、二乗誤差総和をデータ数（10）で割ったものの対数に比例

（tの複雑さがガウス分布に従うと仮定した場合）

この他

• ベイズ情報量規準（Bayesian information criterion or BIC）• より、モデルの複雑さに対する罰則を強化したもの

• 詳しくは 4.4.1 節

10

１．４次元の呪い• この節で言いたい事は以下のようなこと

• 多くの入力変数による高次元空間を扱う際の問題・課題・困難

• 高次元化に伴う計算量の問題

• 一次元・二次元・三次元空間における直感的理解との齟齬

11

• 実データは多くの場合において

• 実質的に低次元のデータ（尐ないデータ）が目標変数へ影響

• （尐なくとも局所的には）滑らかな性質

→ 多様体（manifold）や内挿（置換）といった考え方を利用可能

１．次元の呪いとは

２．実データでは、高次元空間でもやりようがある

× ○

例１：計算量の増加について（１）

• 例：入力変数が2つで、3状態に分類されるデータ

12

このデータは赤青緑のいずれに分類すべきか？

単純な手法：

マス目に区切って、最大数が属するクラスに分類

今回は2入力で、4x4に区切ったので16マス。ではもっと次元数が増えたら？

例１：計算量の増加について（２）

•

13

※D=3に対しては、立方体の領域の一部だけ示す

例２：多項式フィッティングの例

•

14

例３：低次元での直感との齟齬（球の体積）• 半径 r = 1 の球の体積と、r=1と r = 1 – ε の間にある体積の比を考える

15

ε1

D = 2

D = 3

例３：各次元での体積比

•

16

例４：高次元ガウス分布の極座標系密度

•

17


•

18

• 後の章の、モデルパラメータのベイズ推論を考える際に、この性質を使って重要な結論を導くらしい（演習1.20）


• 1次元の場合

19

0

r r

• 2次元の場合

r r

実データでの場合

20

１．実質的には低い次元の領域にある

and/or

重要な変化が生じる方向（次元）は限定的

２．（局所的には）滑らかな性質を持ち、

入力の小さな変化は目標変数に小さい変化しか与えない

→ 多様体（manifold）の考え方の利用や、内挿（補間）による目標変数の予測が可能

実データでは、高次元空間でもやりようがある

例：画像データ

例：『ベルトコンベアの上の2次元形状の物体をキャプチャした画像から、その向きを決める』という問題

• データの次元数はピクセル数

• 実際は、画像間に存在する違いは『物体の位置と方向』だけ

（物体の位置x,y座標と角度θの3つの自由度）

21

１．５決定理論

•

22

例：患者のX線画像から癌かどうかを判定•

23

決定問題の要望その１：できるだけxを誤ったクラスに分類したくない•

24

誤識別率

•

25

一般のKクラスについて（正解率）

26

•

一般のKクラスについて（誤識別率）

27

•

決定問題の要望その２：期待損失（コスト）を最小化したい•

28

癌正常

0 1000

1 0

癌

正常

期待損失の最小化

•

29

棄却オプション

•

30

推論と決定：決定問題3つのアプローチ

•

31

それぞれの特徴

•

32

事後確率が欲しくなるケース

• リスク最小化

• 棄却オプション

• クラス事前確率の補正

• モデルの結合

33

事後確率が欲しくなるケース１リスク最小化

•

34

事後確率が欲しくなるケース２棄却オプション

• 事後確率がなければ棄却オプションを使えない• 誤認識別率や期待損失の最小化ができない

35

事後確率が欲しくなるケース３クラス事前確率の補正（１）

• 稀なケースのクラスへの対処

• 例：癌である画像が1000件に1件の場合問題１：全部正常と診断するだけで 99.9% の精度

問題２：幅広い癌の画像に対応すべく1000件集めるには

→ 学習には約1000000件のサンプルデータを集めて使う事に

→ 各クラスが同じくらいの数の訓練データを使えると良い• 訓練データに補正を加えた分を修正しなければならない

（癌の画像が通常1000件に1件程度という情報も必要）

36

事後確率が欲しくなるケース３クラス事前確率の補正（２）•

37

事後確率が欲しくなるケース４モデルの結合（１）•

38

事後確率が欲しくなるケース４モデルの結合（１）•

39

回帰の為の損失関数（１）

•

40

回帰の為の損失関数（２）

•

41

各 x での、t の不確実さを表すのが p(t|x)

その平均地点を y(x) の値とする

回帰の為の損失関数（３）

•

42

tの分布の分散を x に関して平均したもの。

目標データが本質的に持つ変動で、ノイズどうしようもない

回帰の為の損失関数（４）

•

43

ミンコフスキー損失と y(x)

44

• q=1 のとき

となる事が条件

↓

y(x)は p(t|x) のメディアン

• q=0 のときt = y(x)が条件であり、

かつ y(x) が最大となる値

↓

y(x) はモード(最頻値)※ 演習 1.27

q=1について

•

45

q=1 について（続き）

• これを満たす事が y(x) の条件

• q = 1 の時は

46

q=0 について

•

47

１．６情報理論

• 情報理論の分野から、確率論などについて考える• パターン認識や機械学習に有用ないくつかの概念を学習

• 情報量

• エントロピー

• 微分エントロピー

• 相対エントロピー

• カルバックーライブラーダイバージェンス

• イェンセンの不等式

48

情報量（まず離散の事について）

•

49

50

•

（※演習1.28）

情報量の有名？な例

• 12枚の硬貨のうち、1枚が不良品で重さが違う。

天秤を使って不良品を特定するのに、何回必要か？

• 必要な事は、『12枚のうち1枚の特定』 → １／１２

『重いか軽いかの判定』 → １／２

→ 必要な情報量は log (12*2) = log (24)

• 一度の天秤では右＝左、右＞左、右＜左の３通りの結果が得られる

→ 情報量は log(3) = 1.584962….

• 結果log (24) / log (3) = 2.8927892607 … → 3回は絶対必要

51

確率変数 x のエントロピー（entropy）•

52

エントロピー＝複雑さ？

•

53

箱物体・・・

全部でＮ個の物体

入れ方の総数を考える

•

54

複雑さのエントロピー

•

55

物理用語では

•

56

離散確率変数で考えると・・・

57

• エントロピー低

• 一部で鋭いピークを持つ分布

• エントロピー高

• たくさんの値に広がっている分布

• エントロピー最小• どこかで p=1で、他では

p=0となる分布

• エントロピー最大• 全てが等確率 (一様分布)

エントロピー最大が一様分布の証明

•

58

連続変数でのエントロピー（１）

•

59

・平均値の定理の簡単な説明

Δ

積分値に等しくなる

赤い点が連続関数の場合見つかる

連続変数でのエントロピー（２）

•

60

微分エントロピーの最大化（１）

•

61

微分エントロピーの最大化（２）

•

62

微分エントロピーの最大化（３）

• ラグランジュ乗数法から、次の式を最大化（演習1.34）

• 変分法を利用する事で次の式が得られる

• この p(x) と３つの制約式を使い最終的に

• ガウス分布になる

• 非負条件を入れなかったが、結局非負

63

微分エントロピーの最大化（４）

•

64

条件付きエントロピー（１）

•

65

条件付きエントロピー（２）

•

66

1.6.1 相対エントロピーと相互情報量•

67

KLダイバージェンスの性質•

68

イェンセンの不等式と凸関数（１）

• 凸（とつ）関数 (convex function)• 関数 f(x) で、すべての弦が関数に乗っているかそれよりも上にある

• 等号成立時がλ=0とλ=1のみに限る場合、真に凸(strictly convex)

• 真に凸 ⇔ 2階微分が常に正

69

f(a)

f(b)

点c：λf(a)+(1-λ)f(b)

f(λa+(1-λ)b)

※演習1.36

イェンセンの不等式と凸関数（２）

•

70

イェンセンの不等式と凸関数（３）

•

71

イェンセンの不等式の直感的理解

•

72

KLダイバージェンス（１）

•

73

KLダイバージェンス（２）

•

74

KLダイバージェンス（３）相互情報量•

75

でてきた演習問題

• P14 1.15, 1.16

• P15 1.18

• P17 1.20 (P18)

• P30 1.24

• P44 1.27

• P50 1.28 取りこぼしもあるでしょうし、

• P63 1.34 だからなんだって感じですが

• P64 1.35

• P66 1.37

• P69 1.36

76

prml 1.3～1.6 ver3

Documents