mlapp 2章 「確率」(前編)
TRANSCRIPT
La théorie des probabilités n'est, au fond, que le bon sens
réduit au calcul
確率理論とは、実は数式に落とし込まれた常識にすぎない
―ピエール=シモン・ラプラス
確率とはなにか
確率論のおさらい
いろいろな確率分布
情報理論の基本的概念
きょうの話題
内容的に盛りだくさんになってしまった上、作者が夏休みまで時間が取れないため、前編の
みの公開とします m(_ _)m
確率とはなにか
確率値の2つの解釈
「この歪んだコインは、表が出る確率が0.6だ」……この言葉が意味するところはなにか?
そのコインを延々と投げ続けたら、6割の回数だけ表が出るってことさ
いや、ただ単に彼が『そのくらいだろう』と思っているだけだよ
確率とはなにか
確率値の2つの解釈
「この歪んだコインは、表が出る確率が0.6だ」……この言葉が意味するところはなにか?
そのコインを延々と投げ続けたら、6割の回数だけ表が出るってことさ
いや、ただ単に彼が『そのくらいだろう』と思っているだけだよ
客観確率 → 頻度主義
主観確率 →ベイズ主義
確率とはなにか
確率値の2つの解釈
「この歪んだコインは、表が出る確率が0.6だ」……この言葉が意味するところはなにか?
そのコインを延々と投げ続けたら、6割の回数だけ表が出るってことさ
いや、ただ単に彼が『そのくらいだろう』と思っているだけだよ
客観確率 → 頻度主義
主観確率 →ベイズ主義
「主観確率だなんて厳密さに欠く!」と仰る方々もいたようですが(Fisherとか Neymanとか…)、ちゃんと確率の公理を満たすものですし、自然科学に必要十分な客観性は備えています。
確率とはなにか
頻度主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
いまは分からないが、真の値が定まるはず
データはその「真の値」をもとに確率的に何度も生み出されるもの
確率とはなにか
頻度主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
いまは分からないが、真の値が定まるはず
データはその「真の値」をもとに確率的に何度も生み出されるもの
確率とはなにか
頻度主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
いまは分からないが、真の値が定まるはず
データはその「真の値」をもとに確率的に何度も生み出されるもの
→ 「真の値」と思われる値をピンポイントで推定する
(無限とは言わないまでも、たくさんの試行が必要)
確率とはなにか
頻度主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
いまは分からないが、真の値が定まるはず
データはその「真の値」をもとに確率的に何度も生み出されるもの
→ 「真の値」と思われる値をピンポイントで推定する
(無限とは言わないまでも、たくさんの試行が必要)
確率とはなにか
頻度主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
いまは分からないが、真の値が定まるはず
データはその「真の値」をもとに確率的に何度も生み出されるもの
→ 「真の値」と思われる値をピンポイントで推定する
(無限とは言わないまでも、たくさんの試行が必要)
ホントは点推定なので、信頼区間の推定が難しい
確率とはなにか
頻度主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
いまは分からないが、真の値が定まるはず
データはその「真の値」をもとに確率的に何度も生み出されるもの
→ 「真の値」と思われる値をピンポイントで推定する
(無限とは言わないまでも、たくさんの試行が必要)
ホントは点推定なので、信頼区間の推定が難しい
無限回の試行が前提なので、滅多に起きない現象が苦手
例)2020年までに南極の氷がとける確率は?
確率とはなにか
頻度主義によるパラメータ推定
たった今太陽は爆発したか?(今は夜なので分からない)
このニュートリノ検出器は太陽が超新星爆発を起こしたかどうかを検出する
それからサイコロを2つ振り、両方6なら
嘘をつく。そうでなければ本当のことを言う。
よしやってみよう。おい検出器!
太陽は超新星爆発したかい?
…はい。
ベイジアン
そうでない方に50ドルかけるね
頻度主義者
偶然こうなる確率は1/36=0.027
p値は0.05より小さいから、太陽はたしかに爆発したと
いうのが結論だ
https://xkcd.com/1132/話の本筋とは関係ないマンガです
確率とはなにか
ベイズ主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
よく分からないから、確率的なものとして扱う
得られたデータは現実なのだから確率的ではない「正しい」値である
確率とはなにか
ベイズ主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
よく分からないから、確率的なものとして扱う
得られたデータは現実なのだから確率的ではない「正しい」値である
確率とはなにか
ベイズ主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
よく分からないから、確率的なものとして扱う
得られたデータは現実なのだから確率的ではない「正しい」値である
→ パラメータの分布を推定する
(新たにデータが得られたら、その都度修正すれば良い)
確率とはなにか
ベイズ主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
よく分からないから、確率的なものとして扱う
得られたデータは現実なのだから確率的ではない「正しい」値である
→ パラメータの分布を推定する
(新たにデータが得られたら、その都度修正すれば良い)
確率とはなにか
ベイズ主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
よく分からないから、確率的なものとして扱う
得られたデータは現実なのだから確率的ではない「正しい」値である
→ パラメータの分布を推定する
(新たにデータが得られたら、その都度修正すれば良い)
分布を推定しているので、信頼区間の推定がカンタン!
確率とはなにか
ベイズ主義によるパラメータ推定
「このコインの表が出る確率は?」
{裏,表,表,裏,表……}
よく分からないから、確率的なものとして扱う
得られたデータは現実なのだから確率的ではない「正しい」値である
→ パラメータの分布を推定する
(新たにデータが得られたら、その都度修正すれば良い)
分布を推定しているので、信頼区間の推定がカンタン!
滅多に起きない現象も扱える!
確率とはなにか
ベイズ主義によるパラメータ推定
P(海が近い|貝殻を拾った)=
P(貝殻を拾った|海が近い)P(海が近い)
P(貝殻を拾った)
https://xkcd.com/1236/
統計的に言って、もしあなたが貝を拾ったとしてそれを耳にあてがわなければ、もしかすると海の
音が聞こえるかもしれない
やっぱり話の本筋とは関係ないマンガです
確率とはなにか
ベイズ主義によるパラメータ推定
―発言者不明。2005年統計関連学会連合広島大会
「科学的な推論の形式としての Bayes 統計」セッションの
久保拓弥による記録より抜粋
http://eprints.lib.hokudai.ac.jp/dspace/bitstream/2115/49477/8/kubostat2008g.pdf
“”
頻度論的な統計学を正しく使いこなせるのはFisher のような天才だけ
Bayesian は理解できてないバカが使っても間違いがない……それが Bayesian の良いところです
確率とはなにか
ベイズ主義と頻度主義
ベイズ主義 頻度主義
確率とは…どのくらい曖昧に考えているか
(主観確率)無限回の試行の偏り
(客観確率)
確率的なのは… パラメータ データ
推定するのはパラメータの…
分布 点
推定に必要な試行回数は…
0回~ たくさん
確率とはなにか
どちらの立場を取るか
ベイズ主義っしょ、どう考えても!
あくまで考え方の違いなので、お好きな方を。
でも、片方しか知らないのと、両方知った上で選ぶのは大違い。だからちゃんと勉強しましょう!
(ベイズ主義については5章で詳しくやります)
確率とはなにか
どちらの立場を取るか
ベイズ主義っしょ、どう考えても!
あくまで考え方の違いなので、お好きな方を。
でも、片方しか知らないのと、両方知った上で選ぶのは大違い。だからちゃんと勉強しましょう!
(ベイズ主義については5章で詳しくやります)
※この MLaPP(をはじめ PRML や ESL など)では基本的にベイズ主義に立っています
確率論のおさらい
確率変数とは
起こりうる事象に対して値の定まる変数
• 離散確率変数 (Discrete Random Variable)
– 例)ある人のこれまでの婚姻回数
• 連続確率変数 (Continuous Random Variable)
– 例)ある人の体重
の2種類がある
論文などではrvと略されることも
確率論のおさらい
確率変数とは
起こりうる事象に対して値の定まる変数
• 離散確率変数 (Discrete Random Variable)
– 例)ある人のこれまでの婚姻回数
• 連続確率変数 (Continuous Random Variable)
– 例)ある人の体重
の2種類がある
論文などではrvと略されることも
確率論のおさらい
確率変数とは
起こりうる事象に対して値の定まる変数
• 離散確率変数 (Discrete Random Variable)
– 例)ある人のこれまでの婚姻回数
• 連続確率変数 (Continuous Random Variable)
– 例)ある人の体重
の2種類がある同じ離散値でも、カテゴリカル変数(因子/factor)なのか順序変数なのかなども
意識したほうがいいことも!
論文などではrvと略されることも
確率論のおさらい
離散確率変数の確率関数
確率質量関数 (Probability Mass Function)
「X = となる確率」を表す関数 p( )
変数 が離散値なので、関数 p( ) も離散的になる
確率なので 0≤p( )≤1 で全て足すと1に
確率論のおさらい
連続確率変数の確率関数
累積分布関数 (Cumulative DistributionFunction)
「X ≤ となる確率」を表す関数 F( )
連続なので「X= となる確率」
は実質0
確率論のおさらい
連続確率変数の確率関数
累積分布関数 (Cumulative DistributionFunction)
「X ≤ となる確率」を表す関数 F( )
確率密度関数 (Probability DensityFunction)
…… 累積分布関数の導関数
確率論のおさらい
連続確率変数の確率関数
確率密度関数 (Probability DensityFunction)
…… 累積分布関数の導関数
ƒ( ) はあくまで微分値でPr(X= )そのものではないが
値の比には意味がある
全て積分すると1になるがp( )≤1 とは限らない!
確率論のおさらい
連続確率変数の確率関数
確率密度関数 (Probability DensityFunction)
…… 累積分布関数の導関数
連続確率変数で「~な確率」と言いたいなら
幅をもたせて計算してあげる
確率論のおさらい
分布を特徴づける量
世の中にはいろいろな分布がある• サイコロの出る目の分布
• 日本人の年収の分布
• トヨタ車の耐用年数の分布
• etc…
分布そのものを見るよりも、それを特徴付ける分かりやすい指標があったほうがいい!
確率論のおさらい
分布を特徴づける量:平均と分散
分布の特徴を端的に表す量として、以下がよく使われる
平均 (Mean) / 期待値 (Expected Value)
分散 (Variance)
分布の「真ん中」
分布の「ばらつき」
確率論のおさらい
分布を特徴づける量:平均と分散
分布の特徴を端的に表す量として、以下がよく使われる
平均 (Mean) / 期待値 (Expected Value)
分散 (Variance)
元のデータと同じ単位で比較したいなら標準偏差を使う
分布の「真ん中」
分布の「ばらつき」
確率論のおさらい
分布を特徴づける量:α分位点
分布の特徴を表す別の量として、以下も使われる
α分位点 (α-quantile)
分布を α:1-α に分割する点 = F-1(α)
α 1-α
F-1(α) F-1(α)
確率論のおさらい
分布を特徴づける量:α分位点
分布の特徴を表す別の量として、以下も使われる
α分位点 (α-quantile)
分布を α:1-α に分割する点 = F-1(α)
ちなみに
最小値 第1四分位点 中央値 第3四分位点 最大値
Minimum 1st Quartile Median 3rd Quartile Maximum
F-1(0) F-1(1/4) F-1(1/2) F-1(3/4) F-1(1)
確率論のおさらい
分布を特徴づける量:α分位点
分布の特徴を表す別の量として、以下も使われる
α分位点 (α-quantile)
分布を α:1-α に分割する点 = F-1(α)
ちなみに
最小値 第1四分位点 中央値 第3四分位点 最大値
Minimum 1st Quartile Median 3rd Quartile Maximum
F-1(0) F-1(1/4) F-1(1/2) F-1(3/4) F-1(1)
差=四分位範囲:分布の「ばらつき」
分布の「真ん中」
確率論のおさらい
分布を特徴づける量:最頻値
分布の特徴を表すさらに別の量として、以下も使われる
最頻値 (Mode)
分布の中で一番良く出てくる値 = argmax p( )(多峰分布の場合、一つとは限らないが…)
分布の「真ん中」
分布の「ばらつき」を表す量を対応付けるとすれば、
平均情報量→ 最終節
確率論のおさらい
分布を特徴づける量の比較
分布の「真ん中」
分布の「ばらつき」
外れ値への頑健性
大小関係(正に偏っているとき)
使える尺度基準
平均∫ p( )d
分散∫( -μ)2p( )d
× 小 間隔尺度以上
中央値F-1(1/2)
四分位範囲F-1(3/4)-F-1(1/4)
○ 中 順序尺度以上
最頻値argmax p( )
平均情報量∫p( ) log p( )d
◎ 大 名義尺度以上
負に偏っていれば大小関係は逆になるまた多峰分布等ではこの限りではない
確率論のおさらい
分布を特徴づける量の比較
分布の「真ん中」
分布の「ばらつき」
外れ値への頑健性
大小関係(正に偏っているとき)
使える尺度基準
平均∫ p( )d
分散∫( -μ)2p( )d
× 小 間隔尺度以上
中央値F-1(1/2)
四分位範囲F-1(3/4)-F-1(1/4)
○ 中 順序尺度以上
最頻値argmax p( )
平均情報量∫p( ) log p( )d
◎ 大 名義尺度以上
負に偏っていれば大小関係は逆になるまた多峰分布等ではこの限りではない
確率論のおさらい
分布を特徴づける量の比較
分布の「真ん中」
分布の「ばらつき」
外れ値への頑健性
大小関係(正に偏っているとき)
使える尺度基準
平均∫ p( )d
分散∫( -μ)2p( )d
× 小 間隔尺度以上
中央値F-1(1/2)
四分位範囲F-1(3/4)-F-1(1/4)
○ 中 順序尺度以上
最頻値argmax p( )
平均情報量∫p( ) log p( )d
◎ 大 名義尺度以上
負に偏っていれば大小関係は逆になるまた多峰分布等ではこの限りではない
普段使うのはこいつ!
確率論のおさらい
同時確率と条件付き確率
同時確率 (Joint Probability)
X1かつX2の確率 p( 1, 2)
条件付き確率 (Conditional Probability)
X2が分かった上でのX1の確率 p( 1| 2)
確率論のおさらい
同時確率と条件付き確率
同時確率 (Joint Probability)
X1かつX2の確率 p( 1, 2)
条件付き確率 (Conditional Probability)
X2が分かった上でのX1の確率 p( 1| 2)
確率論のおさらい
同時確率と条件付き確率
同時確率 (Joint Probability)
X1かつX2の確率 p( 1, 2)
条件付き確率 (Conditional Probability)
X2が分かった上でのX1の確率 p( 1| 2)
∫p( 1| 2)d 1 = 1
となるように
正規化しているだけ!
確率論のおさらい
同時確率と条件付き確率
同時確率 (Joint Probability)
X1かつX2の確率 p( 1, 2)
条件付き確率 (Conditional Probability)
X2が分かった上でのX1の確率 p( 1| 2)
∫p( 1| 2)d 1 = 1
となるように
正規化しているだけ!
確率論のおさらい
同時確率と条件付き確率
同時確率 (Joint Probability)
X1かつX2の確率 p( 1, 2)
条件付き確率 (Conditional Probability)
X2が分かった上でのX1の確率 p( 1| 2)
∫p( 1| 2)d 1 = 1
となるように
正規化しているだけ!
これを逆に使うと…
確率論のおさらい
確率の周辺化
周辺確率 (Marginal Probability)
p( 1, 2) に対する p( 2) のこと
p( 2) = ∫p( 1, 2)d 1
1はなんでもよいから
2の確率を知りたい
↓
あらゆる 1 に対してp( 1| 2) の期待値をとる
( 1の積分消去)
確率論のおさらい
各種公式のまとめ
p( 1| 2) = p( 1, 2) / p( 1)
p( 1, 2) = p( 1| 2) p( 1)
p( 1, 2)
p( 1| 2)
p( 2| 1)p( 2)
p( 1)
p( 2) = ∫p( 1, 2)d 1
p( 2) = ∫p( 1, 2)d 1
p( 2| 1) = p( 1, 2) / p( 2)
p( 1, 2) = p( 2| 1) p( 2)
確率論のおさらい
各種公式のまとめ
p( 1| 2) = p( 1, 2) / p( 1)
p( 1, 2) = p( 1| 2) p( 1)
p( 1, 2)
p( 1| 2)
p( 2| 1)p( 2)
p( 1)
p( 2) = ∫p( 1, 2)d 1
p( 2) = ∫p( 1, 2)d 1
p( 2| 1) = p( 1, 2) / p( 2)
p( 1, 2) = p( 2| 1) p( 2)
ここを直接変換するには?
確率論のおさらい
ベイズの公式
例)乳ガン検診実際に乳ガンがあった場合、結果が陽性になる確率は80%
じゃあ検診で陽性だった場合に、本当に乳ガンにかかってしまっている確率は?
80%!?
知りたいのはp(検査で陽性|乳がん罹患)
ではなくp(乳がん罹患|検査で陽性)
確率論のおさらい
ベイズの公式
例)乳ガン検診実際に乳ガンがあった場合、結果が陽性になる確率は80%
じゃあ検診で陽性だった場合に、本当に乳ガンにかかってしまっている確率は?
乳ガンがないのに陽性(偽陽性)になる確率30%、乳ガンの発症率0.4%という情報とベイズの公式を使えば、
p(乳がん罹患|検査で陽性) = 3.1%
と分かる!
計算してみよう!
確率論のおさらい
独立な確率変数
独立 (Independence)
一方の分布が、もう一方の変数の値によらないこと
例)サイコロを2回振って、出た目の値をそれぞれ X1, X2 とし、XSUM=X1+X2 とする
1回目の結果は、2回目に影響しないので X1 と X2 は独立だが、 XSUM には影響するので X1 と XSUM は独立でない
確率論のおさらい
独立な確率変数
独立 (Independence)
一方の分布が、もう一方の変数の値によらないこと
例)サイコロを2回振って、出た目の値をそれぞれ X1, X2 とし、XSUM=X1+X2 とする
1回目の結果は、2回目に影響しないので X1 と X2 は独立だが、 XSUM には影響するので X1 と XSUM は独立でない
このX1,X2 のように、独立に同じ分布に従う場合 independent and identically-distributed (iid) と言い、Xi∼p(X) と書くiid
確率論のおさらい
独立な確率変数
独立 (Independence)
一方の分布が、もう一方の変数の値によらないこと
言い換えると p( 1| 2)=p( 1) (逆もしかり)
例)サイコロを2回振って、出た目の値をそれぞれ X1, X2 とし、XSUM=X1+X2 とする
1回目の結果は、2回目に影響しないので X1 と X2 は独立だが、 XSUM には影響するので X1 と XSUM は独立でない
このX1,X2 のように、独立に同じ分布に従う場合 independent and identically-distributed (iid) と言い、Xi∼p(X) と書くiid
確率論のおさらい
独立な確率変数
独立 (Independence)
一方の分布が、もう一方の変数の値によらないこと
言い換えると p( 1| 2)=p( 1) (逆もしかり)
【定義】X1 と X2 が独立であるとは「X1⊥X2」と書き、
と定義される
確率論のおさらい
独立な確率変数
独立 (Independence)
一方の分布が、もう一方の変数の値によらないこと
言い換えると p( 1| 2)=p( 1) (逆もしかり)
【定義】X1 と X2 が独立であるとは「X1⊥X2」と書き、
と定義される
もっと変数が増えたらどうなるのか?
確率論のおさらい
多変数の独立性
変数がたくさんあっても、p( 1, 2,…, N)=p( 1)p( 2)…p( N)
が成り立っていれば、 { 1, 2,…, N} は独立
でも現実はそんなに甘くない!扱っている変数が完全に独立になるのはレアケース
確率論のおさらい
多変数の独立性
変数がたくさんあっても、p( 1, 2,…, N)=p( 1)p( 2)…p( N)
が成り立っていれば、 { 1, 2,…, N} は独立
でも現実はそんなに甘くない!扱っている変数が完全に独立になるのはレアケース
とは言え、逆に全部が全部からまって影響しあっていることは少なく、間接的にしか依存していない場合もある
→ その構造を見極めたい!
確率論のおさらい
多変数の独立性
変数がたくさんあっても、p( 1, 2,…, N)=p( 1)p( 2)…p( N)
が成り立っていれば、 { 1, 2,…, N} は独立
でも現実はそんなに甘くない!扱っている変数が完全に独立になるのはレアケース
とは言え、逆に全部が全部からまって影響しあっていることは少なく、間接的にしか依存していない場合もある
→ その構造を見極めたい!
確率論のおさらい
多変数の独立性
変数がたくさんあっても、p( 1, 2,…, N)=p( 1)p( 2)…p( N)
が成り立っていれば、 { 1, 2,…, N} は独立
でも現実はそんなに甘くない!扱っている変数が完全に独立になるのはレアケース
とは言え、逆に全部が全部からまって影響しあっていることは少なく、間接的にしか依存していない場合もある
→ その構造を見極めたい!
誰が仲介しているのか?がポイント
確率論のおさらい
多変数の独立性:条件付き独立
条件付き独立 (Conditionally Independent; CI)仲介役の変数が定まれば独立になる
「Zが与えられたもとでXとYは条件付き独立」といい「X⊥Y | Z」と書く
確率論のおさらい
多変数の独立性:条件付き独立
条件付き独立 (Conditionally Independent; CI)仲介役の変数が定まれば独立になる
「Zが与えられたもとでXとYは条件付き独立」といい「X⊥Y | Z」と書く
条件付き独立を活用するにはグラフィカルモデルが有用です
(詳細は10章にて…)