how to study stat

数理と機械と統計学（3-4回生向け）

2014年 11月 10日 12:00-13:00

今日の話の内容

たった 1時間で専門書を読むのは無理なので, 数理の連想ゲーム的に話を進めます.

よくある (フィッティングの)例

数理の立場

確率モデル P := {p(x, θ) | θ ∈ Θ}

MLE θ̂ := argmaxθ∈Θ

L(θ)

具体的な例: P = {N(µ, σ2) | (µ, σ2) =: θ ∈ Θ := R× R>0}観測値 x1, ..., xn とすると尤度関数は

L(θ) =

n∏i=1

ϕ(xi;µ, σ2), (θ = (µ, σ2))

であるから, MLEは

argmaxθ∈Θ

L(θ) =

1

n

n∑i=1

xi,1

n

n∑i=1

x2i −

{1

n

n∑i=1

xi

}2

となっている. この場合, 厳密解が求まって嬉しい 1.

(普通の)数理統計学. 稲垣本に載ってる.

機械の立場

argmaxθ∈Θ

L(θ)は求まるか?

モデルによっては (解析的に)計算するのが難しい. 仕方ないから勾配法.

L(θ + dθ)− L(θ)

dθ= |∇L(θ)| cos ξ + o(1)

→ |∇L(θ)| cos ξ (dθ → 0)

1嬉しいは大事

1

より

L(θ + dθ) ≈ L(θ) + |∇L(θ)| cos ξ · dθ

(ただし ξ は∇L(θ)と dθのなす角.) ∇L(θ) = dθのとき L(θ + dθ) > L(θ). よって θから∇L(θ)

方向に動けば関数を最大化出来るはず….

θ(0) = 0

θ(i+1) = θ(i) +∇L(θ)

∣∣∣∣θ=θ(i)

(うまくいけば)θ(i) → θ̂. 「最適化」の分野.

面倒な計算が不要: 機械を使えば万事解決?

パラメータは無限の彼方へ…: θ(i) → ∞.

じゃぁどうする

チューニングパラメータ α > 0の設定:

θ(i+1) = θ(i) + α∇L(θ)

∣∣∣∣θ=θ(i)

• α = 100: パラメータは無限の彼方へ.

• α = 0.001: 計算が遅い.

それって凸ですか?

L(θ)に Convexityがあるか?

L(tθ1 + (1− t)θ2) ≤ tL(θ1) + (1− t)L(θ2)

あれば嬉しい Convexity. 無いと困る.

世の中は厳しい: Convexじゃない (Concaveじゃない)関数も山ほどある. (Keywords: 局所的

最適解, 大域的最適解)

どうすれば...

人海戦術: 初期値を大量に用意する.

θ1, ..., θ100, ..., θ1000

それぞれの初期値から一斉にニュートン法. 少しはマシ. かなり強引.

NP-hardな問題. (Keywords: 計算量)

2

無理なら無理で割り切ろう

どうせ微妙な解しか求まらないなら

微妙だけど早いアルゴリズム考えようという姿勢. (MM-Algorithmなど)

じゃぁ数学要らなくないか

上記の流れを把握してないとドツボにはまる.

数学が活躍する現場

そもそも論

なぜ最尤法を使う? なぜ正規分布を使う? なぜそのアルゴリズムはうまくいく?

なぜ最尤法か?

最尤法とは:n∑

i=1

log p(xi | θ)の最大化.

− 1

n

n∑i=1

log p(xi | θ) = −∫

log p(x | θ)dQ̂(x)

→ −∫

log p(x | θ)dQ(x)

=: D(q, p)

裏に xの従う分布 Q(x)があって, Q(x)と P (x)の KL-divergence (分布の近さの度合いを測る指

標)を最小化しようとする. KL-divで求まる推定量は漸近有効. 統計を「距離」でとらえる: 情報

幾何学. (甘利俊一「情報幾何の新展開」2)

なぜ正規分布か?

モデル選択. Cross-Validation(CV)

1

n

n∑t=1

L(θ̂−(t))

を最小化するモデルを選ぶ. |CV −AIC| → 0 (Stone 1977). (北川源四郎「情報量規準」など.)

機械はあくまで「補助」

数学で考えて, 機械で実装する.

2最近発売されたばかり. 自分も今読んでいるところ.

3

「難しくてよく分からない」

リアルによくある. というか、ほとんどは「よく分からない」. 最適化が分からないなら、ニュー

トン法とか. 統計なら、ブートストラップ.

x1, ..., xni.i.d.∼ N [µ, σ2] のとき, x̄ ∼ N [µ, σ2/n]. これはカンタン. では x∗ := mode{x1, ..., xn}

はどんな分布に従う?

元々の観測データ

O := {x1, ..., xn}

からリサンプリング:

O1 := {x3, x1, x6, x6, ..., x2}

O2 := {x8, x5, x8, x3, ..., x5}...

Om := {x2, x9, x3, x2, ..., x1}

リサンプリングしたデータセット O1, ...,Om それぞれでmodeを求める:

ζ∗t := modeOt, t = 1, 2, ...,m

{ζ∗1 , ..., ζ∗m}のヒストグラムを描くと, modeX の従う分布関数の近似になっている.

ブートストラップやってみた

Xii.i.d.∼ N [0, 1]. のときmedX の分布を描いてみる: Rで次のコードを実行� �

dd <- rnorm(100,mean=0,sd=1); tt <- NULL

for(ii in 1:1000) tt <- append(tt,median(sample(dd,replace=T)))

hist(tt,breaks=20, main="dist. of med")� �α% 点の漸近的な挙動は, デルタ法を使えば (数理的に) 計算できる. (⇒ 556:Mathematical

Statistics I: Asymptitoc distribution of sample quantiles) この結果によると,

medXn ∼ AN [0, π/2n]

(より正確に書けば,√n ·medXn

d→ X ∼ N [0, π/2]) 解析的な結果を書き足したのが図 2.

4

dist. of med

−0.4 −0.2 0.0 0.1 0.2 0.3

05

1015

20

図 1: メディアンの分布

dist. of med

−0.4 −0.2 0.0 0.1 0.2 0.3

05

1015

20

−0.4 −0.2 0.0 0.1 0.2 0.3

0.0

1.0

2.0

3.0

図 2: メディアンの分布 (解析的な結果)

5

ブートストラップは実装がすごく簡単

プログラムがわずか 3 行で書けた. 簡単. では数理的にはどういう意味があるか? データ

{x1, ..., xn} ∼ Q(x)が与えられたとき,

経験分布関数 : Q̂(x) :=1

n

n∑i=1

I(x < xi)

は Q(x)をよく表している: Q̂(x)d→ Q(X). X ∼ Q(x)の medianを X̃ ∼ Q̂(x)の medianによっ

て近似したのがブートストラップ.

ブートストラップは観測データしか使わない

観測データ O := {x1, ..., xn} ∼ Qのみを使って, 分布 Qに対する統計量 f(Q)を近似: f(Q) ≈f(Q̂). 単純で実装が簡単な上に、ほとんどすべての統計量に対して使える. 凄い.

最後に:本の紹介

1. 稲垣か赤平 (「数理統計学」)は入門的. 鉄板.

2. 長尾「数理統計学」は少し応用的. Lehmanの TSH3 をかなり簡単にまとめなおした感じ.

3. 吉田「数理統計学」は解析寄り.そういうの好きな人は読むと良いかも.

4. 「計算機統計学の方法」ボチボチ分かりやすい. ブートストラップやMCMCを (まともに)

日本語で解説している文献は貴重な気がする.

5. Bradley Efron「An Introduction to the Bootstrap」は (ゼミで)読んだがなかなかハード.

専門にしたい人は読むと良いか?

6. Bishop「Pattern Recognition and Machine Learning」読みにくいと評判. でも詳しい. 石

井先生あたりの本を読むのが良いか?

7. 甘利俊一「情報幾何の新展開」すごく簡潔にまとまっているが, 情報幾何関係いでは最も読

みやすい. 最近買って読んでいる途中.

8. 東京大学工学教程「最適化と変分法」最近買ったので読んでないが, 最適化関係で重要なポ

イントがきれいにまとまっている.

3Testing Statistical Hypotheses: 有名だが高価だし重いし難しいし読むのは難しい. 　西内啓が和訳を出している.

6

how to study stat

Science