量子統計モデリングのための基盤構築 スパース推定における情報量...

43
量子統計モデリングのための基盤構築 スパース推定における情報量規準 梅津 佑太 二宮 嘉行 九州大学 大学院数理学府 九州大学 マス・フォア・インダストリ研究所 2015/11/13 本報告は “AIC for Non-concave Penalized Likelihood Method” (Umezu & Ninomiya 2015: arXiv) の結果 +α である 梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 1 / 39

Upload: others

Post on 06-Nov-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

量子統計モデリングのための基盤構築

スパース推定における情報量規準

梅津 佑太 † 二宮 嘉行 ‡

† 九州大学 大学院数理学府

‡ 九州大学 マス・フォア・インダストリ研究所

2015/11/13

本報告は “AIC for Non-concave Penalized Likelihood Method”(Umezu & Ninomiya 2015: arXiv) の結果+αである

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 1 / 39

Page 2: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

目次

1 あらまし

2 モデルと推定量の漸近的性質

3 情報量規準

4 数値実験

5 罰則の拡張

6 まとめ・今後の課題

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 2 / 39

Page 3: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

目次

1 あらまし

2 モデルと推定量の漸近的性質

3 情報量規準

4 数値実験

5 罰則の拡張

6 まとめ・今後の課題

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 3 / 39

Page 4: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

問題意識

(おそらく)物理的な問題少ない標本から (解釈可能な)よりよい結果を得るために, “測定回数の削減”・“効率の良い推定”をおこないたい

▶ 効率の良い測定法:実験計画法, 能動学習▶ 精度の高い推定法:変数選択, スパース推定

統計的な問題p次元の説明変数のうち, 少数の有意な変数でモデリングしたい→ オッカムの剃刀, ケチの原理, less is more

e.g., Mallow’s Cp, AIC

minβ∈Rp

∥y − Xβ∥22 + 2σ2∥β∥0

パラメータ推定は 2p 個の組み合わせを探索する ℓ0最適化問題▶ pが大きいと現実的な時間での計算困難が伴う→NP困難▶ p ≈ nまたは p ≫ nだと通常の統計解析手法の実行は困難

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 4 / 39

Page 5: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

スパース推定の恩恵

y = X β + ε

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 5 / 39

Page 6: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

スパース推定の恩恵

y = X 無駄な情報

β

0

+ ε

パラメータ推定+変数選択=スパース推定!!

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 5 / 39

Page 7: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

Bridge (ℓγ-)正則化法:Frank & Friedman (1993)

yi:目的変数 & Xi:説明変数

argminβ∈B

n∑i=1

ℓ(yi ;Xiβ) + λn

p∑j=1

|βj |γ , γ > 0

ℓ:損失関数(ℓ2損失, 対数尤度関数など, おおむね凸関数)

λn (> 0):チューニングパラメータ∑pj=1 |βj |γ:Bridge罰則

▶ γ → 0 ⇒ NP困難:Best subset selection

▶ γ ∈ (0, 1) ⇒非凸最適化 & スパース解▶ γ = 1 ⇒凸最適化 & スパース解:Lasso (Tibshirani 1996)

▶ γ = 2 ⇒凸最適化 & 非スパース解:Ridge (Hoerl & Kennard 1970)

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 6 / 39

Page 8: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

余談:量子トモグラフィーにおけるスパース推定の例

argminρ∈S

n∑i=1

(yi − Tr[Miρ])2 + λn∥ρ∥γSγ , 0 < γ < 1

ρ ∈ S:密度行列, S = {ρ ∈ Rp×p; Tr(ρ) = 1, ρ ⪰ 0}

λn (> 0):チューニングパラメータ

∥ρ∥Sγ = (∑p

j=1 σj(ρ)γ)1/γ:Schatten-γノルム

▶ ρの特異値に対する Bridge罰則▶ 正確には quasi-norm:三角不等式の代わりに以下が成立

∥ρ+ σ∥Sγ ≤ K (∥ρ∥Sγ + ∥σ∥Sγ ), K > 1

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 7 / 39

Page 9: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

Bridge推定量のスパース性

minβ∈B

n∑i=1

ℓ(yi ;Xiβ) + λn

p∑j=1

|βj |γ = minβ∈B;∥β∥γ≤R

n∑i=1

ℓ(yi ;Xiβ)

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 8 / 39

Page 10: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

チューニングパラメータ選択の重要性

optimal

# of nonzero coefsRSS

スパース性とモデルの当てはまりの良さのトレードオフ

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 9 / 39

Page 11: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

チューニングパラメータの選択問題

計算機的手法

cross validation: Stone (1974)stability selection: Meinshausen & Buhlmann (2010), . . .

▶ 匠の技により, 高速に計算可能 (e.g., glmnet)

▶ 通常は計算付加が高い

λnのオーダーに関する手法Knight & Fu (2000); Radchenko (2005); Huang et al. (2008), . . .

▶ 推定量が良い性質を持つためのオーダーの決定(e.g., λn/

√n → 0 & λn/n

γ/2 → ∞)

▶ λnを定数倍しても同じ性質を持つため, λnの選択にはあまり使えない

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 10 / 39

Page 12: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

チューニングパラメータの選択問題

GIC型の情報量規準に基づく選択法Wang et al. (2009); Zhang et al. (2010); Fan & Tang (2013), . . .

▶ −2ℓ(βλ) + κn∥βλ∥0 に基づく基準▶ モデル選択の一致性を満たすような κn のオーダーを決定

(e.g., κn → ∞ & κn/√n → 0)

▶ κn を定数倍してもモデル選択の一致性は保たれる

AIC型の情報量規準に基づく選択法 (Lassoに限った基準)

Efron et al. (2004); Zou et al. (2007)▶ Stein’s identityを用いた Cp 型の情報量規準

▶ モデルの拡張が困難

Ninomiya & Kawano (2014)▶ 漸近理論に基づく情報量規準

▶ 一致性すら成立しない設定

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 11 / 39

Page 13: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

目標

Goal 1

Ninomiya & Kawano (2014)の結果を推定量の一致性を保証するよう拡張

できればOracle propertyなどの良い性質も保証したい

お手軽に使える基準ならなお良し

Goal 2

Lasso以外の罰則へ拡張

Bridge: Frank & Friedman (1993)

SCAD: Fan & Li (2001)

MCP: Zhang (2010)

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 12 / 39

Page 14: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

目次

1 あらまし

2 モデルと推定量の漸近的性質

3 情報量規準

4 数値実験

5 罰則の拡張

6 まとめ・今後の課題

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 13 / 39

Page 15: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

指数型分布族

f (y ;θ) = exp{yTθ − a(θ) + b(y)

}θ (∈ Θ):自然パラメータ

Θ:自然パラメータ空間▶ θ ∈ Θ◦ において E[y ] = a′(θ), V[y ] = a′′(θ)

V [y ]の正定値性を仮定▶ − log f (y ;θ)は強凸 w.r.t. θ

正規分布, 二項分布, ポアソン分布, etc.

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 14 / 39

Page 16: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

一般化線形モデル

yi ∈ Rr:独立な確率ベクトル

Xi ∈ X (⊂ Rr×p):説明変数行列(既知)

f (yi ;Xiβ) = exp{yTi Xiβ − a(Xiβ) + b(yi )

}θ = Xβ:自然連結関数

β (∈ B):推定すべきパラメータ

B (⊂ Rp):パラメータ空間▶ Bは開凸でパラメータの真値 β∗ を含むと仮定

線形回帰, ロジスティック回帰, ポアソン回帰, etc.

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 15 / 39

Page 17: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

説明変数に関する仮定

(C1) X はコンパクトであり, 任意のX ∈ X と β ∈ Bに対して, Xβ ∈ Θ◦

X が発散するような漸近論は扱わない

(C2) X 上の不変分布が存在する.特に,∑n

i=1 XTi a

′′(Xiβ)Xi/n → J(β)は正定値行列∑n

i=1 a(Xiβ)/nや∑n

i=1 XTi a

′(Xiβ)/nの極限の存在を保証

gi (β) = log f (yi ;Xiβ)に対して次が成立 (cf. Fahrmeir & Kaufmann1985; Ninomiya & Kawano 2014):

Lemma 1

(C1), (C2)のもと sn =∑n

i=1 g′i (β

∗)/√n

d→ s ∼ N(0, J(β∗))

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 16 / 39

Page 18: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

最尤法

最尤法Kullback-Leiblerの意味で “真の分布”との距離が最も近い分布を推測

E

[log

f (y ;Xβ∗)

f (y ;Xβ)

]= E[g(β∗)]− E[g(β)] → minimize

▶ 第 1項は真の分布にのみ依存する定数項▶ 第 2項を最小化する βを推定▶ しかしデータは有限

最尤推定量

β = argminβ∈B

− 1

n

n∑i=1

gi (β)

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 17 / 39

Page 19: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

Bridge推定量の漸近的性質

βλ = argminβ∈B

− 1

n

n∑i=1

gi (β) + λn

p∑j=1

|βj |γ , 0 < γ < 1

λn =√nγ0−2

λ, γ < γ0 ≤ 1

▶√nλn = λ (γ0 = 1), → 0 (γ < γ0 < 1) &

√n2−γ

λn → ∞▶ λn → 0より漸近的に罰則は消える

Lemma 2

(C1), (C2)のもと βλp→ β∗

Knight & Fu (2000)の定理 1と同様の議論による

Radchenko (2005)の結果を GLMへ拡張することで,

β(1)λ = (βλ,j)j∈{j ;β∗

j =0}に対して P(β(1)λ = 0) → 1も示せる

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 18 / 39

Page 20: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

Bridge推定量の漸近的性質

Theorem 3

(C1), (C2)のもと,√nγ0/γβ

(1)λ = op(1)が成立する.さらに,

1 0 < γ0 < 1 ⇒√n(β

(2)λ − β∗(2)) = J(22)(β∗)−1s(2)n + op(1)

2 γ0 = 1 ⇒√n(β

(2)λ − β∗(2)) = J(22)(β∗)−1(s(2)n − λη(2)) + op(1)

Hjort & Pollard (1993)の結果を非凸なランダム関数へ拡張する

この結果を用いることで P(J (2) = J (2)) → 1も示せる

Notation:

J (1) = {j ;β∗j = 0}, J (2) = {j ;β∗

j = 0}に対して,

s(k) = (sj)j∈J (k) , J(kl)(β∗) = (J(β∗)ij)i∈J (k),j∈J (l) などと表す

η(2) = (γsgn(β∗j )|β∗

j |γ−1)j∈J (2)

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 19 / 39

Page 21: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

Bridge推定量の漸近的性質

Theorem 3

(C1), (C2)のもと,√nγ0/γβ

(1)λ = op(1)が成立する.さらに,

1 0 < γ0 < 1 ⇒√n(β

(2)λ − β∗(2)) = J(22)(β∗)−1s(2)n + op(1)

2 γ0 = 1 ⇒√n(β

(2)λ − β∗(2)) = J(22)(β∗)−1(s(2)n − λη(2)) + op(1)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

−4 −2 0 2 4

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5 γ0 = 1

γ0 = 0.6

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 19 / 39

Page 22: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

目次

1 あらまし

2 モデルと推定量の漸近的性質

3 情報量規準

4 数値実験

5 罰則の拡張

6 まとめ・今後の課題

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 20 / 39

Page 23: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

情報量規準の目的

情報量規準の適用はその目的に依存するが, 気分的には次の形:

IC = −2n∑

i=1

log f (yi ; θ) + κn∥θ∥0

= (goodness of fit) + (model complexity)

e.g., AIC (κn = 2): AICc (κn = n/(n − p − 1)): BIC, MDL (κn = log n)

予測のための情報量規準:e.g., KL最小化▶ AIC, TIC, AICc, GIC, . . .

事後密度最大化のための情報量規準:e.g., BF最大化▶ BIC, PIC, GBIC, . . .

データ圧縮のための情報量規準:e.g., 符号語長最小化▶ MDL, DMS, . . .

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 21 / 39

Page 24: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

情報量規準:AIC

Kullback-Leibler divergence(の 2倍)

2E

[n∑

i=1

logf (yi ;Xiβ

∗)

f (yi ;Xi βλ)

]= 2E

[n∑

i=1

gi (β∗)

]− 2E

[n∑

i=1

gi (βλ)

]

第 2項の不偏推定量

−2n∑

i=1

gi (βλ) + 2E[zn]; zn =n∑

i=1

gi (βλ)− E

[n∑

i=1

gi (βλ)

]

znd→ z limitに基づく AIC型の情報量規準:−2

n∑i=1

gi (βλ) + 2E[z limit]

Notation:

gi (·): yi のコピー yi に基づく対数尤度関数

E[·]: (y1, y2, . . . , yn)に関する期待値

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 22 / 39

Page 25: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

情報量規準:AIC

Kullback-Leibler divergence(の 2倍)

2E

[n∑

i=1

logf (yi ;Xiβ

∗)

f (yi ;Xi βλ)

]= 2E

[n∑

i=1

gi (β∗)

]−2E

[n∑

i=1

gi (βλ)

]

第 2項の不偏推定量

−2n∑

i=1

gi (βλ) + 2E[zn]; zn =n∑

i=1

gi (βλ)− E

[n∑

i=1

gi (βλ)

]

znd→ z limitに基づく AIC型の情報量規準:−2

n∑i=1

gi (βλ) + 2E[z limit]

Notation:

gi (·): yi のコピー yi に基づく対数尤度関数

E[·]: (y1, y2, . . . , yn)に関する期待値

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 22 / 39

Page 26: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

漸近バイアスの導出 (0 < γ0 < 1)

1 バイアス項 (E[zn])の書き換え

E[zn] = E

[n∑

i=1

{gi (βλ)− gi (β

∗)}−

n∑i=1

{gi (βλ)− gi (β

∗)}]

2 期待値の中身の分布収束先とその期待値

n∑i=1

{gi (βλ)− gi (β

∗)}= s(2)Tn J (22)(β∗)−1s(2)n − s(2)Tn J (22)(β∗)−1s(2)n /2 + op(1)

d→ s(2)TJ (22)(β∗)−1s(2) − s(2)TJ (22)(β∗)−1s(2)/2n∑

i=1

{gi (βλ)− gi (β

∗)}= s(2)Tn J (22)(β∗)−1s(2)n − s(2)Tn J (22)(β∗)−1s(2)n /2 + op(1)

d→ s(2)TJ (22)(β∗)−1s(2) − s(2)TJ (22)(β∗)−1s(2)/2

よって, s(2), s(2) ∼ N(0, J (22)(β∗)) & s(2)⊥⊥ s(2) より

E[z limit] = E[s(2)TJ (22)(β∗)−1s(2) − s(2)TJ (22)(β∗)−1s(2)] = |J (2)|

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 23 / 39

Page 27: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

漸近バイアス

Theorem 4

(C1), (C2)のもと, 0 < γ0 ≤ 1に対して E[z limit] = |J (2)|が成立する

バイアスの増加分=バイアスの減少分

適当な条件の下で “期待値の収束”E[zn] → E[z limit]も示せる

提案:Bridge推定に対する AIC

AICBridgeλ = −2

n∑i=1

gi (βλ) + 2|J (2)|

J (2) = {j ; βλ,j = 0}:アクティブセット

AICBridgeλ が最小となるλを選択する

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 24 / 39

Page 28: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

目次

1 あらまし

2 モデルと推定量の漸近的性質

3 情報量規準

4 数値実験

5 罰則の拡張

6 まとめ・今後の課題

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 25 / 39

Page 29: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

数値実験:線形回帰

(β∗1 , β

∗2 ) = (0.5, 2) (β∗

1 , β∗2 ) = (1, 2)

(p, k, n) KL (sd) FP FN KL (sd) FP FN

(8,2,50) CV 0.676 (0.019) 0.30 1.58 0.645 (0.026) 0.30 1.29AIC 0.679 (0.018) 0.09 1.77 0.649 (0.022) 0.11 1.55

(8,2,100) CV 0.670 (0.016) 0.31 1.31 0.631 (0.018) 0.28 1.05AIC 0.672 (0.015) 0.05 1.61 0.634 (0.018) 0.07 1.27

(8,2,150) CV 0.666 (0.014) 0.32 1.24 0.632 (0.012) 0.40 0.86AIC 0.666 (0.013) 0.10 1.45 0.636 (0.014) 0.04 1.17

(8,1,100) CV 0.687 (0.008) 0.46 0.75 0.658 (0.017) 0.75 0.45AIC 0.687 (0.009) 0.12 0.81 0.658 (0.016) 0.13 0.54

(8,3,100) CV 0.655 (0.014) 0.24 1.86 0.615 (0.020) 0.24 1.40AIC 0.659 (0.012) 0.03 2.34 0.626 (0.019) 0.04 2.19

(12,3,100) CV 0.662 (0.014) 0.47 1.91 0.617 (0.021) 0.46 1.64AIC 0.665 (0.014) 0.15 2.38 0.624 (0.018) 0.06 2.17

(16,4,100) CV 0.652 (0.021) 0.41 3.03 0.610 (0.024) 0.69 2.47AIC 0.652 (0.017) 0.12 3.28 0.618 (0.021) 0.12 2.98

β∗ = (β∗1 , . . . , β

∗1︸ ︷︷ ︸

k

, β∗2 , . . . , β

∗2︸ ︷︷ ︸

k

, 0, . . . , 0︸ ︷︷ ︸p−2k

)

KL:KL divergence, FP = |{j ;β∗j = 0 ∧ βλ,j = 0}|, FN = |{j ;β∗

j = 0 ∧ βλ,j = 0}|梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 26 / 39

Page 30: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

数値実験:ロジスティック回帰

(β∗1 , β

∗2 ) = (0.5, 2) (β∗

1 , β∗2 ) = (1, 2)

(p, k, n) KL (sd) FP FN KL (sd) FP FN

(8,2,50) CV 0.462 (0.061) 0.01 1.28 0.406 (0.070) 0.04 1.21AIC 0.473 (0.153) 0.33 0.69 0.417 (0.129) 0.40 0.40

(8,2,100) CV 0.419 (0.044) 0.01 1.04 0.348 (0.047) 0.00 0.92AIC 0.398 (0.050) 0.31 0.43 0.307 (0.035) 0.50 0.19

(8,2,150) CV 0.394 (0.024) 0.00 0.94 0.307 (0.033) 0.01 0.67AIC 0.376 (0.018) 0.43 0.33 0.271 (0.018) 0.41 0.11

(8,1,100) CV 0.495 (0.029) 0.00 0.42 0.411 (0.021) 0.00 0.22AIC 0.513 (0.033) 0.61 0.21 0.423 (0.035) 0.63 0.02

(8,3,100) CV 0.408 (0.047) 0.00 1.92 0.348 (0.053) 0.00 1.74AIC 0.346 (0.042) 0.22 0.78 0.272 (0.087) 0.35 0.32

(12,3,100) CV 0.384 (0.031) 0.01 1.82 0.376 (0.056) 0.00 1.68AIC 0.397 (0.134) 0.75 0.58 0.346 (0.112) 0.73 0.35

(16,4,100) CV 0.392 (0.048) 0.01 2.72 0.407 (0.045) 0.00 2.66AIC 0.414 (0.122) 1.19 1.05 0.379 (0.137) 1.17 0.60

β∗ = (β∗1 , . . . , β

∗1︸ ︷︷ ︸

k

, β∗2 , . . . , β

∗2︸ ︷︷ ︸

k

, 0, . . . , 0︸ ︷︷ ︸p−2k

)

KL:KL divergence, FP = |{j ;β∗j = 0 ∧ βλ,j = 0}|, FN = |{j ;β∗

j = 0 ∧ βλ,j = 0}|梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 27 / 39

Page 31: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

目次

1 あらまし

2 モデルと推定量の漸近的性質

3 情報量規準

4 数値実験

5 罰則の拡張

6 まとめ・今後の課題

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 28 / 39

Page 32: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

Lasso(ℓ1-正則化法)

Lasso (Least Absolute Shrinkage and Selection Opleater): Tibshirani 1996XTy = z , XTX = I のとき,

βλ = argminβ∈Rp

1

2∥y − Xβ∥22 + λ∥β∥1

⇒ βλ,j = argminβ∈R

1

2(zj − β)2 + λ|β| = sgn(zj)max{|zj | − λ, 0}

小さな zj を正確に 0へ縮小

スパース↔変数選択XTX = I のときのOLS zjに対して, 必ずmin{|zj |, λ}のバイアスをもつ

-2 -1 0 1 2

-2-1

01

2

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 29 / 39

Page 33: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

Lasso(ℓ1-正則化法)

Lasso (Least Absolute Shrinkage and Selection Opleater): Tibshirani 1996XTy = z , XTX = I のとき,

βλ = argminβ∈Rp

1

2∥y − Xβ∥22 + λ∥β∥1

⇒ βλ,j = argminβ∈R

1

2(zj − β)2 + λ|β| = sgn(zj)max{|zj | − λ, 0}

小さな zj を正確に 0へ縮小

スパース↔変数選択XTX = I のときのOLS zjに対して, 必ずmin{|zj |, λ}のバイアスをもつ

-2 -1 0 1 2

-2-1

01

2

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 29 / 39

Page 34: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

ℓ1-型罰則

SCAD (Smoothly Clipped Absolute Deviction): Fan & Li (2001)MCP (Minimax Concave Penalty): Zhang (2010)

Lasso推定量のバイアスを改善

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

SCADMCP

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

0.0

0.1

0.2

0.3

0.4

0.5

SCADMCP

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 30 / 39

Page 35: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

モデルと仮定

βλ = argminβ∈B

− 1

n

n∑i=1

gi (β) +

p∑j=1

ηλn(βj)

λn =√nγ0−2

λ, 1 ≤ γ0 < 2

▶√nλn = λ (γ0 = 1), → ∞ (1 < γ0 < 2) & λn → 0

▶ cf. Bridgeでは γ < γ0 ≤ 1

(P1) ηλn(β)は原点でのみ微分不可能な Lipschitz連続関数であり, β = 0に関して対称かつ |β|に関して単調非減少

(P2) limβ→0

ηλn(β)/|β| = λn(1 + o(1)), limn→∞

ηλn(β) = 0

(P3) ある τ > 0が存在して, 任意の β ≥ τλnに対して η′λn(β) = 0

(P4) β = 0に対して limn→∞

η′′λn(β) = 0

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 31 / 39

Page 36: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

推定量の漸近分布

Theorem 5

(C1), (C2)および (P1) – (P4)のもと,

1 1 < γ0 < 2 ⇒√nγ0 βλ = op(1) &

√n(β

(2)λ − β∗(2)) = J(22)−1s(2)n + op(1)

2 γ0 = 1 ⇒√nβ

(1)λ = u(1)

n + op(1) &

√n(β

(2)λ − β∗(2)) = J(22)−1(s(2)n − J(21)u(1)

n ) + op(1)

が成立.ただし,

J(1|2) = J(11) − J(12)J(22)−1J(21), s(1|2)n = s(1)n − J(12)J(22)−1s(2)n

u(1)n = argmin

u(1)

{u(1)TJ(1|2)u(1)/2− u(1)Ts(1|2)n + λ∥u(1)∥1

}

1 < γ0 < 2ならば Bridgeの場合と同様に P(β(1)λ = 0) → 1および

P(J (2) = J (2)) → 1も示せる

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 32 / 39

Page 37: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

漸近バイアス

Theorem 6

(C1), (C2)および (P1) – (P4)のもと1 1 < γ0 < 2 ⇒ E[z limit] = |J (2)|2 γ0 = 1 ⇒ E[z limit] = |J (2)|+ K

が成立.ただし,

s(1|2) = s(1) − J(12)J(22)−1s(2),

u(1) = argminu(1)

{u(1)TJ(1|2)u(1)/2− u(1)Ts(1|2) + λ∥u(1)∥1

}に対して K = E

[u(1)Ts(1|2)

]

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 33 / 39

Page 38: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

情報量規準

提案:ℓ1-型正則化法に対する AIC1 1 < γ0 < 2のとき

AICℓ1-typeλ = −2

n∑i=1

gi (βλ) + 2|J (2)|

2 γ0 = 1のとき

AICℓ1-typeλ = −2

n∑i=1

gi (βλ) + 2|J (2)|+ 2K

J (2) = {j ; βλ,j = 0}:アクティブセットK:s ∼ N(0, J)に基づく K = E

[u(1)Ts(1|2)

]の経験平均

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 34 / 39

Page 39: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

目次

1 あらまし

2 モデルと推定量の漸近的性質

3 情報量規準

4 数値実験

5 罰則の拡張

6 まとめ・今後の課題

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 35 / 39

Page 40: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

まとめ・今後の課題

Bridge, SCAD, MCPなどの推定量の漸近分布の導出および AICを最小にするチューニングパラメータ選択の提案!

数値的には CVと同等もしくはよりよい結果が得られた(計算付加も低い)!

▶ LAD, Cox回帰, 行列分解などへのモデルの拡張

▶ n, p → ∞の高次元枠組みにおける正当性

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 36 / 39

Page 41: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

参考文献 I

Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2004). Least angle regression,The Annals of Statistics, 32, 407–499.

Fahrmeir, L. and Kaufmann, H. (1985). Consistency and asymptotic normality of themaximum likelihood estimator in generalized linear models, The Annals of Statistics,13, 342–368.

Fan, J. and Li, R. (2001). Variable selection via nonconcave penalized likelihood and itsoracle properties, Journal of the American Statistical Association, 96, 1348–1360.

Fan, Y. and Tang, C. Y. (2013). Tuning parameter selection in high dimensionalpenalized likelihood, Journal of the Royal Statistical Society: Series B, 75, 531–552.

Frank, L. E. and Friedman, J. H. (1993). A statistical view of some chemometricsregression tools, Technometrics, 35, 109–135.

Hjort, N. L. and Pollard, D. (1993). Asymptotics for minimisers of convex processes,arXiv preprint arXiv:1107.3806.

Hoerl, A. E. and Kennard, R. W. (1970). Ridge regression: Biased estimation fornonorthogonal problems, Technometrics, 12, 55–67.

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 37 / 39

Page 42: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

参考文献 II

Huang, J., Horowitz, J. L., and Ma, S. (2008). Asymptotic properties of bridgeestimators in sparse high-dimensional regression models, The Annals of Statistics, 36,587–613.

Knight, K. and Fu, W. (2000). Asymptotics for lasso-type estimators, The Annals ofStatistics, 28, 1356–1378.

Meinshausen, N. and Buhlmann, P. (2010). Stability selection, Journal of the RoyalStatistical Society: Series B, 72, 417–473.

Ninomiya, Y. and Kawano, S. (2014). AIC for the LASSO in generalized linear models,In ISM Research Memorandum, 1187.

Radchenko, P. (2005). Reweighting the lasso, In 2005 Proceedings of the AmericanStatistical Association [CD-ROM].

Stone, M. (1974). Cross-validatory choice and assessment of statistical predictions,Journal of the Royal Statistical Society: Series B, 36, 111–147.

Tibshirani, R. (1996). Regression shrinkage and selection via the lasso, Journal of theRoyal Statistical Society: Series B, 58, 267–288.

Umezu, Y. and Ninomiya, Y. (2015). AIC for Non-concave Penalized Method, arXivpreprint arXiv:1509.01688.

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 38 / 39

Page 43: 量子統計モデリングのための基盤構築 スパース推定における情報量 …bayes.sigmath.es.osaka-u.ac.jp/ftanaka/workshop/r15s/umezu.pdf · AIC型の情報量規準に基づく選択法(Lassoに限った基準)

参考文献 III

Wang, H., Li, B., and Leng, C. (2009). Shrinkage tuning parameter selection with adiverging number of parameters, Journal of the Royal Statistical Society: Series B,71, 671–683.

Zhang, C.-H. (2010). Nearly unbiased variable selection under minimax concave penalty,The Annals of Statistics, 38, 894–942.

Zhang, Y., Li, R., and Tsai, C.-L. (2010). Regularization parameter selections viageneralized information criterion, Journal of the American Statistical Association,105, 312–323.

Zou, H., Hastie, T., and Tibshirani, R. (2007). On the “degrees of freedom” of thelasso, The Annals of Statistics, 35, 2173–2192.

梅津 佑太 (九大数理) AIC for Sparse Estimation 2015/11/13 39 / 39