カステラ本勉強会第三回

1

第三回「統計的学習の基礎」読書会第3章前半(3.1～3.4) 6/14

ベック和穂

自己紹介

• HN:mimikaki

• 所属：㈱コンピュータマインド

– 顧客企業の画像処理、データ分析(非統計的)

– LM法や最小二乗法を使う程度

– 統計的推論もかじり始めた

• 元数学科の人

– 代数幾何とか計算代数とか

2

お詫び２点

• 準備終わりませんでしたm(_ _)m– 3.2.3と3.2.4(単回帰+グラムシュミット=重回帰)

– 3.4.4最小角回帰(相関が最大の変数から徐々に)

• 次回(再来週)不参加なので次々回でやります(7/5)

3

としても同じ

3.2 線形回帰モデルと最小二乗法

• 定義(線形回帰モデル)

• 未知パラメータについて線形、というのがポイント

4

01

( )p

j jj

f X X

jX : 任意の入力(既知)

j : 未知パラメータ

0

0

1

( )p

j jj

X

f X X


• 最小二乗法による解法

訓練データ：

からβを求めたい

最小二乗法では、残差平方和の最小化を最適解とする

(residual sum of squares)

5

2

1

2

01 1

( ) ( )N

i ii

pN

i ij ji j

RSS y f x

y x

1, ,{( , )}i i i Nx y 1( , , )Ti i ipx x x

min ( )RSS


• 行列Xによる最小二乗法の書き直し

6

11 1 01

21 2 12

1

1

1, ,

1

p

p

N Np pN

x x y

x x yX y

x x y

( )T

RSS y X y X

学習データ一個分

2

( )2

( )2

T

T

T

RSSX y X

RSSX X


ここで、Xが列フルランク⇔ が正定値

( が0以外の零点を持つかどうか)であり、

このとき、RSSの一次微分=0から最適解βは

と一意に求まる

7

TX X

1ˆ T TX X X y

0 0ˆ ˆ( ) 1 Tf x x サンプルに対する予測値0x

1

ˆˆ

( )T T

y X

X X X X y

訓練データ全体に対する予測値

2 T TXv v X Xv

(3.8)


• 以上の計算がうまくいかない場合とその対処法

要は、が計算できないケース– の間に線形従属な関係がある( など)

基底削除などして従属性を解除すればよい

– 完全な従属でなくとも非常に似通った基底関数が存在すると、計算が不安定になる(誤差大)という問題も

基底の直行化によってある程度避けられる(3.2.3節)

– p > Nのケース

(二次関数の推定には3点以上のデータが欲しい )

pを減らす、または正則化(5.3節、18章)

8

1( )TX X

ix 2 13x x

2y ax bx c


• 推定パラメータの分散共分散行列について– 観測値は無相関、分散をもち、は固定値、とする

9

2

1 1 1 1

1 1

1 2

ˆ ˆ ˆ ˆ ˆ( ) ( ( ))( ( ))

ˆ ˆ ˆ ˆ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( )

( )

T

T T

T T T T T T T T

T T T T T

T

Var E E E

E E E

E X X X yy X X X E X X X y E y X X X

X X X E yy E y E y X X X

X X

1 2ˆ( ) ( )TVar X X (3.8)

2

( ) ( ( ))( ( )) ( ) ( )

( ) ( ) ( )

( ) ( )

T T T

T

T

E yy E y E y y E y E y E y

Var y E y E y

I E y E y

iy ix


• (観測値yの分散)の推定

はの不偏推定量( )

10

2

22

1

1ˆ ˆ

1

N

i ii

y yN p

2 2 2ˆE

(3.9)


• Yの条件付き期待値がについて線形で、期待値周りの偏差が加法的に正規分布に従うとする。つまり、

• このYの各要素は互いに無相関で分散、は固定値– の分散は(3.8)と同様

– より、

したがって、

11

1, , pX X

1

01

( | , , )pp

j jj

Y E Y X X

X

2(0, )N

2 ix

1 1 1ˆ ( ) ( ) ( )T T T T T TX X X Y X X X X X X X

ˆ( )E

(3.10)1 2ˆ ( , ( ) )TN X X


•

は自由度(N-p-1)のカイ２乗分布に従う

• とは独立

• これらの性質は仮説検定やの信頼区間推定に使う

12

(3.11)2 2 2

1ˆ( 1) N pN p

2


• の検定

まずは、標準化スコア(Zスコア)を求める

この値は自由度(N-p-1)のt分布に従うため、絶対値が大きいときは帰無仮説

を棄却する。

が既知の場合はを置き換えるとは標準正規分布に従う

また、標本数が増えると(>100～)t分布と標準正規分布との差はほぼ無視できるようになる(下図図3.3)

13

0j

(3.12)

ˆ

ˆ

j

j

j

zv

1( )TX X

0j

jz

jv はの第j対角成分

1j N pz t


• 係数の優位性の検定(k個の変数をモデルから除外できるか？) ⇔ 対応するβが0か？

以下のF統計量を用いる：

RSS1は除外前の(p1+1)個の変数による最小二乗近似の残差二乗和

RSS0は(p1-p0)個を除外した(p0+1)個の変数による残差二乗和

分母,分子はそれぞれ大きい方、小さいほうの分散の推定値

小さいモデルが正しいという帰無仮説の下では、このFは分布に従う

• (3.12)のは、モデルからを取り除いた時のF値と一致(演習3.1)

• Nが大きくなるとの分位点はのものに近づく

• (3.13)分母はに等しい

• (3.13)分子は・・・？

14

(3.13)0 1 1 0

1 1

( ) / ( )

/ ( 1)

RSS RSS p pF

RSS N p

21

1 0 1, 1p p N pF

jz j

1 0 1, 1p p N pF 1 0

21 0/ ( )p p p p


• (3.10)式からβの(1-2α)信頼区間を求めることができる

– は正規分布のパーセント点である(％⇒σ)

– よって、がほぼ95%信頼区間となる( )

15

1 2ˆ ( , ( ) )TN X X

(3.14) (1 ) 1/2 (1 ) 1/2ˆ ˆˆ ˆ,j j j jz v z v

(1 )(1 )z

1 0.025 1.96z 1 0.05 1.645z

ˆ ˆ2 ( )se 1/2ˆ ˆ( )j jse v

3.2.1 例：前立腺がん

• 前立腺全摘出手術を受けようとしている患者の抗原のレベルと臨床的尺度の相関の調査用データ(表3.2)– Zスコアは(3.12)の通り、その変数を取り除いた際の影響度を示す

– lcavolは強い影響力を持っており、lweightやsviも同様

– 絶対値が2より大きいZスコアは5%水準で有意(この例では67個の標本と9個のパラメータがあり、分布の0.025裾分位点は±2.002)

– 別表によるとlcpはlcavolと相関が高いため(0.692)、高いZスコアを持つものの、 lcavolを含めたモデルではさほど重要ではない。

16

67 9t

3.2.1 例：前立腺がん

• 表3.2から、Zスコアの小さい4変数(age、lcp、gleason, pgg45)を取り除くF検定を行うと、

となり、有意差は確認できなかった。

• 目的変数lpsaの平均を推定に用いた際の評価誤差(基準誤り率)は1.057

• 最小二乗推定による評価誤差は0.521であった– 線形モデルで基準誤り率を約50%改善できたことになる

– この後紹介するいくつかの推定方法でこの例を取り扱う

17

1.67F 4,67 9Pr( 1.67) 0.17F

3.2.2 ガウス=マルコフの定理

• 最小二乗推定量はBLUEである– Best(最良つまり以下の条件を満たす中で最小分散)

– Linear(観測値の線形結合で推定する)

– Unbiased(不偏推定値の期待値＝真値)

– Estimator(推定量)

– 最良線形不偏推定量、ともいう

18

( の線形関数すべてを不偏に推定) ˆ( )T TE a a (3.18)

( 以外の線形不偏推定量に対して

⇒ より推定量の分散が小さい)

Tc y

(3.19)

ˆTa ( )T TE c y a ˆ( ) ( )T TVar a Var c y

3.2.2 ガウス=マルコフの定理

• Θを推定する際の統計量の平均二乗誤差は、

となる。第一項は分散、第二項はバイアスの二乗である。最小二乗推定量

はすべての線形不偏推定量の中で最も小さい平均二乗誤差がガウスマルコフによって示されているが、より小さい平均二乗誤差を持つ不変でない推定量が存在する可能性はある。

そのような推定量では、少しのバイアスの増加によって分散を大きく減少させており、実際の問題にそのような推定量が用いられることは多い。

この後の項で、そのような推定量の例をいくつか取り扱う。(変数選択、リッジ回帰、Lassoなど)

7章では、バイアスと分散の適切なバランスについて詳しく説明する。

19

2

2

MSE( ) [( ) ]

Var( ) [ ( )]

E

E

(3.20)

3.3 3.4 おしながき

• 最小二乗推定において算出された係数を減らしたり、0にすることで予測性能が向上することがある

• 予測変数を減らしてモデルをシンプルにしたい、という考え方も存在する

• 3.3節「変数選択」– 最小二乗法の次元を効率よく削減するための手法について

• 最良変数組み合わせ選択

• 前向き/後向き漸次的選択

• 前向き段階的選択

• 3.4節「縮小推定」– 次元は変えずに係数を減らす話

• リッジ回帰

• Lasso

• 最小角回帰

20

3.3.1 最良変数組み合わせ選択

• 各kに対して最も残差の少ないk変数の組み合わせを選択

• kごとの残差最小値を見比べてkを決定する– AICなどによって決めたりする

– 詳しくは7章

• 組み合わせが膨大になるため、pは30～40程度が限界

21

例：前立腺がん

3.3.2 前向き漸次的選択法

• 一個目の変数として、切片(バイアス項)を必ず入れる

• 二つ目以降は、最も残差を小さくする変数を順番に追加する(greedyアルゴリズム)

• デメリット– 全探索ではないので”準最適解”しか求まらない

• メリット– 速い p>>Nでも問題なく計算可能

– 統計学的理由最良選択よりも低分散高バイアス

22

3.3.2 後向き漸次的選択法

• 全説明変数を含めたモデルから始める

• ダメな子(いなくても残差があまり増えない)からはじく– N>pの場合しか使用不可(or変数減らしても残差0のままになる)

– Zスコアが最小のものは除外候補(演習3.10)

23

手法比較

24

TY X • の線形回帰を人工データに基づいて実行– これまでの3手法はどれも大差ない

3.3.3 前向き段階的近似(この後説明)

3.3.3 前向き段階的回帰

1. データ及び予測変数を中心化(全体から平均を引く)しておく

2. 予測変数βは0で初期化

3. 毎回、データ残差と相関の大きい変数を選択し(過去との重複を許す)、残差との単回帰係数をβに加算

4. 3を残差と相関を持つ変数がなくなるまで繰り返す

• ある変数がモデルに追加されても、他の変数の予測変数は更新されない

• 処理を終わるには非常に長い繰り返し回数が要求される– 先ほどの表の例では相関が10^-4以下になるまで1000回繰り返した

– 高次元のケースでは好都合らしい(⇒3.8.1節)

25

3.3.4 例：前立腺がん表3.3 様々な変数選択手法と縮小推定法で求めた係数と評価誤差。空欄はモデルから外されたことを示す

※モデル選択には10分割CV + 1標準誤差法(7.10節)を用いた

(最小予測誤差から1標準誤差内の最小変数のモデルを選択)

26

最小二乗法

最良部分選択

リッジ回帰

Lasso主成分回帰

部分最小二乗法

邦訳版の誤訳？次回今回

3.4 縮小推定

• 次元は変えずに係数を減らす話– リッジ回帰

– Lasso

– 最小角回帰

• 変数を入れる/入れないの2択ではなく、より連続的なモデル選択

27

3.4.1 リッジ回帰

• 残差二乗和そのものではなく、回帰係数の二乗和を加えたものの最小化を行う

– (≧0)は縮小度を決めるパラメータであり、大きく取るとが小さくなる

– ニューラルネットでは荷重減衰(weight decay)と呼ばれる

28

2

20

1 1 1

ˆ argminp pN

ridge i ij j ji j j

y x

(3.41)


• リッジ回帰は以下のようにも書くことができる

– (3.41)のと(3.42)のには1対1の対応がある

– モデル中に似た変数が多く含まれる場合、変数同士打ち消しあうことで係数の推定は不安定になり、分散は増大するが、このように係数の大きさに制約をかけることによって解消される。

29

2

01 1

ˆ argminpN

ridge i ij ji j

y x

(3.42)

2

1

p

jj

t

subject to

t


• リッジ回帰の解は入力変数の大きさに対して不変でないため(3.41)を解く前に入力変数を標準化しておく必要がある– 目的変数に定数を足しても、推定も同じようにはズレない

–

–

• これ以降は、入力変数はすべて中心化されており、入力の行列Xは(p+1)行ではなくp行であるとする

• 切片は罰則項からも除外される

30

i iy y y

ij ij ijx x x 本には明確な記載はないように見えますが、中心化だけでなく、標準偏差で割る操作

も本の意図に含まれているのでは？という指摘を頂いています(6/15追記)

(3.44)


• (3.41)を行列により書き直すと、

• これをで微分して=0を解くと、リッジ回帰の解が求まる

• は半正定、は正定(λ>0)より、逆行列は必ず存在– リッジ回帰が初めて登場したときはこのことが重要視され、(3.44)が

定義とされた

31

( ) ( ) ( )T TRSS y X y X (3.43)

( )

2 2( )

T T T T T T T

T T

RSS y y X X y X X y

X y X X I

1ˆ ( )T Tridge X X I X y

TX X I


• λを変化させたときの前立腺がんの推定パラメータの変化

• は”有効自由度”と呼ばれる(後述)

32

ˆridge

2

21

df ( )p

j

j j

d

d

最小二乗法による推定結果

0


• リッジ回帰は適切に選択した事前分布に基づく事後分布の平均値、あるいは最頻値、としても書ける(p77右下)– 証明は演習3.6に丸投げ

– 意味が読み取れませんでした

• 入力が正規直交している場合、リッジ推定量は最小二乗推定量の定数倍に過ぎない

33

ˆ ˆ / (1 )ridge

3.4.1 リッジ回帰の特異値分解による表現(p78～)

• 中心化された入力行列Xの特異値分解によりいくつかの知見が得られる

U,Vは直行行列(列ベクトル同士の内積が0または1)、

Uの列ベクトルはXの列空間を、Vの行空間はXの行空間を張る

DはXの特異値を対角成分に持つ対角行列

によって以下のように書くことができる。

(特異値分解の一般論、証明略)

以下、 , が成立するとする

34

TX UDV

, :D V p p, :X U N p

1 0pd d

(3.45)

T TpV V VV I 2T TD U UD D

こっちはあまり自明ではないかもなら成立

TpU U I

N>pを仮定？

3.4.1 リッジ回帰の特異値分解による表現

• 特異値分解から、以下が計算できる(訓練データ全体に対応する推定値の計算)

• はyの正規直交基底Uについての座標( はそのj番目)

• (3.47)は、yの成分を倍に縮小(<1)して出力していることを表している

• Xの特異値が小さいほど、成分は縮小される

35


ˆ TlsX UU y (3.46)

1

2

21

ˆ T Tridge

pj T

j jj j

X X X X I X y

du u yd

(3.47)

TU yTju y

2 2/ ( )j jd d ju

jd ju


• Xの特異値が小さい、とはどのようなことか？

⇒Xの主成分とつながりがある

• 入力データの共分散行列はで、また(3.45)から

これはの(N倍を無視すればSの)固有値分解である。– 固有ベクトル (Vの第i列)はXの第i主成分とも呼ばれる

– 第1主成分は、がXの列ベクトルが張る空間の中で最も大きな標本分散を持つ方向である

36

/TS X X N

2T TX X VD V (3.48)

TX Xiv

1v 1 1z Xv

上記標本分散＝2

1 1 1( ) ( ) /Var z Var Xv d N (3.49)

1 1 1

1 1

( ) /

/

T

T T T

Var Xv Xv Xv N

v VDU UDV v N


• 図3.9に2次元データの散布図と主成分が書かれている– データは第一主成分の方向に最も分散している(右上方向)

– リッジ回帰は、分散のより小さい方向の係数を抑え、分散が大きくなる可能性を抑える

37


• 図3.7に推定予測誤差とリッジ回帰の有効自由度との関係が示されている

– 通常、p変数の推定の自由度は、p

– リッジ回帰の場合、全変数に少しずつ制約をかける形であり、自由度を減らす=変数のいくつかが0になる、とはならない

– λ=0(正則化なし)のとき自由度はp

– λ=∞のとき、自由度は0

– 切片の分はカウントしない

– 3.4.4と7.4~7.6で詳細に論じる

– 前立腺の例では線形二乗回帰よりも

評価誤差が減少

38

1

2

21

df( ) [ ( ) ]

( )

T T

pj

j j

tr X X X I X

dtr H

d

(3.50)

3.4.2 Lasso

• Lasso推定は以下のように定義される(変数はすべて中心化)

39

2

01 1

ˆ argminpN

lasso i ij ji j

y x

(3.51)

1

p

jj

t

subject to

2

01 1

ˆ argminpN

ridge i ij ji j

y x

(3.42)

2

1

p

jj

t

subject to

リッジ回帰(再掲)

3.4.2 Lasso

• Lasso推定は以下のようにも書ける(ラグランジュ形式)

40

2

01 1 1

ˆ argminp pN

lasso i ij j ji j j

y x

(3.52)

2

20

1 1 1

ˆ argminp pN

ridge i ij j ji j j

y x

(3.41)

リッジ回帰(再掲)

3.4.2 Lasso

• リッジ回帰のような単純な解析解は得られない

• 解を得るためには2次計画問題(1次制約+目的関数が2次)を解く必要がある

• 制約の性質上、tを小さくすると係数のいくつかは完全に0

• tをととると、lasso推定量は最小二乗法に一致

• とすると、係数は平均で約50％縮小する– 縮小特性の詳細は3.4.4で扱う

41

01

ˆp

lsj

j

t

0 / 2t t

3.4.2 Lasso

42

1

ˆ/p

lsj

j

s t

• ごとの予測誤差推定値、それぞれの係数

– 3章で紹介する手法の中では2番目に優秀(CVによる予測誤差ベース)

– 係数変化は区分的に線形(⇒3.4.4) 図3.7 図3.10

3.4.3 考察：部分集合選択、リッジ回帰、Lasso

• 入力行列Xが正規直交している場合：

– リッジ回帰は一律に1/(1+λ)倍

• (3.6)式と(3.44)式からすぐわかる

– Lassoは絶対値が減る方向に最大λ動く

– 部分集合選択では第M番目の係数より小さいものは0にする

43

3.4.3 考察：部分集合選択、リッジ回帰、Lasso

• 直交しない場合のイメージ図(図3.12)：– Lasso回帰の制約はのひし形

– リッジ回帰の制約はの円形状

– 二乗誤差の等高線 (楕円になる)と最初に接するところが推定値

– 頂点のあるLasso回帰は解がSparseになりやすい

• 高次元の場合はよりSparseになりやすい

44

1 2 t 2 2 21 2 t

カステラ本勉強会 第三回

Data & Analytics

カステラ本勉強会第三回