ベイズ統計学① - watanabe lab.watanabe- · (2) 事後確率最大化推測. p(w|x n)...

32
数理・計算科学 研究プロジェクト ベイズ統計学 このファイルは数理・計算科学系の学部3年生の 研究プロジェクト・総合演習のためのものです。 2年生向けの科目である確率論基礎 数理統計学 習っていることを前提として書かれています。

Upload: others

Post on 06-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

数理・計算科学 研究プロジェクト

ベイズ統計学 ①

このファイルは数理・計算科学系の学部3年生の研究プロジェクト・総合演習のためのものです。

2年生向けの科目である確率論基礎と数理統計学を習っていることを前提として書かれています。

Page 2: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

2

1 確率論 復習

Page 3: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

3

確率空間

2年生のとき確率論基礎で確率空間を習いました。

確率空間 (Ω, B, Q) は次の三組からなる。

Ω:集合B: Ωの部分集合の族Q: B から区間 [0,1] への関数

具体的には次のものを考えることが多い。Ω: 距離空間、例えば RNあるいは関数空間B: Ωの開集合を含む最小の完全加法族

あるいはその測度Qに基づく完備化

注意: 測度論は数学基礎論として決して容易ではありませんので学部生のうちは、深刻に考えすぎないようにすること。この研究プロジェクトでは高度な話は出てきません。

Page 4: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

4

確率変数

確率空間 (Ω, B, Q) から可測空間(たとえばRN) への可測関

数 X を確率変数という。X=X(ω)と書く。

確率空間 (Ω, B, Q) RN

Xω X(ω)

関数のことを確率変数と呼ぶ理由:Xの出力だけが観測できる人から見ると、ランダムに値を取るものと見分けがつかない。ランダムとは何かを定義せずにランダムでないとは言えないものが定義できた。

Page 5: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

5

確率変数の確率分布

RN の部分集合 A に対して 「X∈A」 となる確率を P(A) とかきP を X の確率分布という。P(A)=Q(X-1(A)) が成り立つ。

確率空間 (Ω, B, Q) RN

AX

注意:これ以後、RNだけが舞台となるので基礎となる確率空間は証明で必要にならない限り忘れてよいが明記されなくても確率空間は常に存在している。

X-1(A)

Page 6: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

6

確率密度関数

表記の注意. 確率変数 X の確率密度関数を p(x) と書き、確率変数 Y の確率密度関数を p(y) と書くことがある。普通は p(x) と p(y) はまったく関係のない関数である。

確率変数 X の確率分布を P とする。RN の可測集合 A に対して

となるとき、 p(x) を X の確率密度関数という。

P(A)= ∫A p(x) dx

RN の中でランダムに値をとるように見える変数 X が集合 A に入る確率が p(x) の積分で書けるということ。

Page 7: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

7

例:正規分布

p(x|w) = exp( - )1

(2πσ2)N/2

|| x – b ||2

2σ2

x : N 次元ベクトル。 パラメータは w = (b ,σ)。平均ベクトル b ,分散σ2 (標準偏差はσ)の正規分布

ここで exp(-x) = e-x を||x||はベクトル x の長さを表す。

公式 ∫exp(-a||x||2)dx=(π/a)N/2

2次元の正規分布

Page 8: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

8

同時確率密度関数

定義. (X,Y) を RM×RN に値をとる確率変数とし、同時確率密度関数 p(x,y) を持つとする。ここで x=(x1,x2,…,xM) y=(x1,x2,…,xN) という表記を用いた。

y

O

p(x,y)

x

上記の定義は、 確率変数 (X,Y) が集合 A の中に入る確率が

P((X,Y)∈ A) = ∫∫A

p(x,y) dxdy であるということである。

Page 9: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

9

周辺確率密度関数

定義.前ページの p(x,y) から定義される次の確率密度関数

p(x) = p(x,y) dy, p(y) = p(x,y) dx.

p(x,y)

p(y)

x

y

p(x)

を、それぞれ X および Y の周辺密度関数という。

p(x,y)=p(x)p(y) が成り立つときX と Y は独立であるという。

Page 10: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

10

条件つき確率密度関数

定義. p(x,y), p(x), p(y), をそれぞれ前ページまでのものとする。X が与えられたときの Y の条件つき確率 p(y|x) およびY が与えられたときの X の条件つき確率 p(x|y) をそれぞれ次式で定義する。

p(y|x) = p(x,y) / p(x), p(x|y) = p(x,y) / p(y).

注意. p(x)=0 となる x に対し p(y|x) は定義されないが 0・p(y|x)=0 と定める。

定理. (ベイズの定理) p(x,y)=p(y|x)p(x)=p(x|y)p(y).

定義より明らか。

Page 11: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

11

条件つき確率は確率的推論を表す

y

p(x,y)

O

p(x,y)

x

p(y|x) = p(x,y) / p(x) = p(x,y) / { p(x,y’)dy’ }

条件つき確率 p(y|x) は p(x,y) に比例していますが、y で積分したときに1になるように正規化したものになります。

Page 12: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

確率的推論は因果関係や制御可能性を意味しない

確率変数の組 (X,Y) は確率的な共起関係を表しているだけでありどちらがどちらの原因と結果であるというわけではない。

原則として同時密度関数から因果関係を取り出すことはできない。また、どちらか一方が原因で他方が結果であるということもない。

例.「春になると花が咲き(X)鳥が歌う(Y)」。XからYが推論できたとしても X が Y の原因であると限らない。X と Y の背後に共通の原因があることもある。「人間力で作られた物語は正しいとは限らない」

XからYへの条件つき確率あるいは回帰関数が得られたとき、XからYへの確率的な推論が可能になる。しかし、X を変化させることで Y を変化させる(つまりXを操作してYを制御する)ことができるとは限らない。

例.「冬になる(X)、鍋物を食べる(Y)」において Y から X への条件つき確率が計算できても、鍋物を食べて季節を変えることはできない。

Page 13: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

13

回帰関数の定義

定義. p(x,y), p(x), p(y), p(y|x), p(x|y) をそれぞれ前ページまでのものとする。次の関数 g(x) を X から Y への回帰関数という。

g(x) = y p(y|x) dy = y p(x,y) dy / { p(x,y’) dy’ }

y

p(x,y)

O

p(x,y)

x y=g(x)

Page 14: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

2 統計学 復習

Page 15: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

真の分布とサンプルの定義

ある集合(多くは実ユークリッド空間)上の確率密度関数 q(x) があり、確率変数 X1, X2, …, Xn は独立に q(x) に従うものとする。

密度関数 q(x) を真の分布と呼び、Xn=(X1, X2, …, Xn) をサンプルという。

※ 実問題において q(x) は不明である。未知の q(x) を推測したいのである。

Page 16: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

16

統計モデルと事前分布の定義

パラメータ集合の上の確率密度関数 φ(w) を事前分布という。

パラメータ w が与えられたときの x の確率密度関数 p(x|w) を統計モデルという。

※ 実問題において 真の分布 q(x) は不明であるので統計モデル p(x|w) と事前分布 φ(w) は人間が定める。p(x|w) と φ(w) として何を使ってもよいが、できるだけ未知の q(x) をうまく推測できるものを使いたい。その基盤となる理論と方法を与えるものが統計学である。

Page 17: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

事前分布と事後分布の定義

データ Xn が与えられたときのパラメータの条件つき密度関数を

p(w|Xn) = (1/Z) φ(w) Π p(Xi|w)

と定義し、事後密度関数という。ここで

Z= ∫ φ(w) Π p(Xi|w) dw

を周辺尤度という。事後分布による平均と分散を Ew[ ] および Vw[ ] と書く。

n

i=1

n

i=1

Page 18: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

18

予測分布の定義

ベイズ推測.統計モデルを事後分布で平均したもの

p(x|Xn) = ∫ p(x|w) p(w|Xn) dw = Ew[p(x|w)]

をベイズ予測分布と定義する。

※ 予測分布は、もちろん真の分布 q(x) と異なる。

Page 19: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

19

MAP法と最尤法の定義

(2) 事後確率最大化推測. p(w|Xn) を最大にする w* (事後確

率最大化推定量)を用いて p(x|w*) をMAP予測分布とする。

(3) 最尤推測.事前分布をパラメータ集合上で一定値としたとき

の w* (最尤推定量)を用いて p(x|w*) を最尤予測分布とする。

真の密度関数 q(x) を推測する予測分布を定める方法としてよく用いられるものとしてベイズ法のほかに次のものがある。

注意: 以上で、ベイズ法・MAP法・最尤法を定義しました。(哲学や主義から導出したのではありません。)

Page 20: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

真 q(x) データ

汎化誤差K(q||p*)

予測分布 p*(x)

事後分布

モデルと事前分布

統計的推測のプロセス

最尤推定量

MAP推定量

ひと

Page 21: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

q(x) = ( 1 / 2π)1/2 exp[ -x2/2 ]

学習モデル

p(x|a,s) = ( s / 2π)1/2 exp[ -s(x-a)2/2 ]

事前分布

φ(a,s) ∝ s1/2 exp( - sa2/2 - s)

Page 22: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

例題

Page 23: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

23

p(x|w) = ∑ ak exp( - )(sk)N/2

(2π)N/2

sk || x – bk ||2

2

K

k=1

φ(w) ∝ Πk=1K [ ( ak )αk-1 ]×[ sk

N/2 exp( - sk||bk||2/2 - sk) ]

事前分布 ハイパーパラメータ α=(α1,α2,…,αK)

学習モデル パラメータ w = {(ak , bk ,sk) ; k=1,2,…,K}

真の分布 学習モデルのパラメータを固定して設定

Page 24: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

例題

真の分布が学習モデルで実現可能なとき

真もモデルもK=5

Page 25: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

例題

真の分布が学習モデルで実現可能でないとき

真は K=5モデルは K=3

Page 26: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

統計学では何をしたいのか

① 真の分布は未知である。

② サンプルだけが与えられる。

③ ひとが 統計モデル と 事前分布 を設定することで

ある推測結果が得られる。

④ どんなモデルと事前分布を使っても推測はできるが

未知の分布に対して良い推測である保証はない。

⑤ 「自分の推測は、どの程度に正しいのだろう?」

⑥ この問いかけに数理科学で答える。

Page 27: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

3 「主義」と「論争」に注意しよう

Page 28: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

「主義」 に注意しよう

初めて統計学を習うとき、「真の分布がわからないのに、統計モデル、

事前分布、推測法があらかじめ定められているのはなぜだろう」と

感じる人が大多数です。理由を知ろうと思ってネットワークを検索すると、

「統計学は主義を基盤とする」という説明がたくさん見つかります。

しかしながら、以下で説明するように今日の統計学は主義ではなく

数理科学を基礎とするものであり、主義を検討する意味はありません。

従って「主義についての説明」もいらないのですが、いらないという

ことを知っていないと戸惑うことが多いので説明を行います。

Page 29: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

「主義による統計学」から「数理科学としての統計学」へ

20世紀前半、統計学が未熟だった時代には、「主義に基づく推測法の正当化」が争

われていました。例えば「最尤主義に基づいて最尤推測の結果だけが正しい」とか

「ベイズ主義に基づいてベイズ推測の結果だけが正しい」とか「お前はどちらの味方

か」という学問とは思えない不毛な論争が世界を覆っていたのです。統計学をこの荒

廃から救ったのは赤池弘次先生です。1970年ころ、赤池先生は「統計的推測は真の

分布に対する適切さで評価するとよい」という自然な考えかたに立って、「主義による

統計学」ではなく「学問としての統計学」を確立しました。

☆ 赤池先生の自然な着想の基盤には、そのことを実現可能にした数理科学の存在

がとても大切です。実際、【未知である真の分布に対する統計的推測の適切さを定量

的に測ること】は数学的法則に基づいて初めて可能になることであり、それまでは、

「不可能なことを実行するのだから主義が必要なのだ」と思われていたのでした。

Page 30: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

20世紀前半「主義の統計学」 悲しみの歴史

30

最尤主義客観の誤解

ベイズ主義主観の濫用

最尤主義に基づき最尤だけが正しい

ベイズ主義に基づきベイズだけが正しい

どちらの主義が正統かという論争

確率とは何かの哲学が統計学の基盤である

主義の戦いは無意味だった

推測が正しいかどうかは主義で定まるという考えのもとでキビシイ論争があった。何も生まれなかった。

Page 31: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

赤池先生(1970)以後の 「自然な統計学」

最尤法

ベイズ法

最尤推測は正しくない

ベイズ推測は正しくない

未知の真

ひと: 自由に何でも使ってよい。p(x|w) も φ(w) もモデリングします。

真の分布との誤差が小さい結果が、より適切な推測なのでそれを使いましょう。

未知の分布との誤差は数学的法則によって推定できる。

=数理科学こそが統計学の基盤である。

現代

Page 32: ベイズ統計学① - Watanabe Lab.watanabe- · (2) 事後確率最大化推測. p(w|X n) を最大にするw* (事後確 率最大化推定量)を用いてp(x|w*) をMAP予測分布とする。

現代では 主義も 論争も いりません。

現代の統計学において「主義」が無意味であることは、わかっている人はみなわかっているが、「導入本」「SNS上」「また聞き」には「ベイズ主義」、「頻度主義」という言葉や論争をあおる説明が書かれている場合が多く、これを読んだユーザーがいつも何度でも「どちらが正しいか」という問いかけを始めてしまいやすい。

【ムズカシイ数式がなくても統計学ができる】という本には注意を要する。そうした本は、最尤法やベイズ法を説明するとき初心者のための説明だからという言い訳のもとで、「なぜ、その方法が正しいか」の根拠に主義を持ち出してくることが多い。不自然な説明を「ナンカ オカシイ」と感じながら通りすぎる人が多いところです。

推奨: この話を続けると 心がギスギス・トゲトゲして 学問ができなくなりやすいので 「千と千尋の神隠し」の主題歌 「いつも何度でも」 を聴くことで心を癒すことを推奨します。論争はやめて学問に進みましょう。