dbda03
TRANSCRIPT
Doing Baysian Data Analysis
Chap 3. What Is This Stuff Called Probability?
Yoshifumi Seki2013/08/03
@Matsuo Lab. Summer Seminar
3.1 The set of all possible events
• 確率を考えるために起こりうるすべての結果を考えよう
• コインを投げるとき– 表がでるのか– 裏がでるのか– 横になるのか
• 事象は2つ– コインが均一に作られていれば表がでる確率 : θ=0.5
• p(θ )を考える– コインが均一に作られている確率はいくらか– p(θ=0.5) = 0.99– p(θ=0.1) = 0.0001
• 「どのような結果がでるか」も「その結果がどれぐらい信頼できるか」も両方確率である.
3.1.1 Coin Flips: Why You Should Care?
• なんでそんなにコインを投げることにこだわるの????
• コインの表裏なんて人生に関係無いじゃん?– でも薬が効くか効かないかとかだったら重要だよね?– コインの表裏も薬の効果も本質的にはいっしょなんだよ!– だからみんながんばろうね!
3.2 Probability: outside or inside the head
• 確率の事象には outside なものと inside the head なものがある– outside
• この世で起こっている誰もが観察できる事象• コインの投げるとか、サイコロを振るとか• 一定数の試行によって一律に収束する
– inside the head• 主観的な確率 ( subjective belief )• ギャンブルの話
– 1月1日の大雪で道路が通行止めになると $100 ,コインが表だと$100 もらえるのいずれか» コインのほうを選ぶよね
– 明日雨が振ると $100 もらえる,サイコロが 1 をでると $100 もらえる» これだとどうだろうー» 雨を降る確率が 50% はないだろうけど, 10% ~ 20% ぐらいある
かもなーって思ってる感じ• こういった結果にたいする信頼性の度合いも確率で表現できる
3.3 Probability Distributions
• コインを投げるとか,サイコロを振るとかっていう話– 離散的な数値– 1 が 1/6 で出るとか
• 1 日に成人男性が消費するカロリー– 連続値– ex: 平均 2000 カロリー– あるときは 2345.223 かもしれない,あるときは 1734.2 かも
しれない• 確率的な話だけど離散値みたいには表現できない
– 区間に区切ってみよう• 1500 未満, 1500 以上 2000 未満 , 2000 以上 2500 未満 , 2500
以上• これなら確率として表現できるね!
probability density
• ボードゲームなどで使われる” spin” で針がどこを指すかを考える
• Spin が Fair であれば– 均等に2分割した時それぞれの領域が選ばれる確率は
0.5– 均等に N 分割したときそれぞれの領域が選ばれる確率は
1/N– N を大きくしていくと確率はどんどん小さくなっていく
• 人間にとってわかりにくい・計算しにくい
• Spin の針が指す確率を考える代わりに幅を考えることにしよう– これを確率密度という– 1/N の sector に止まる確率は 1/N => (1/N)/(1/N) = 1– その sector における probabilitu mass を表す– Fair な Spin においては確率密度はすべて 1
probability density
• scale を 0 から 0.5 にする– 0 から 0.1 を考える
• probability : 0.2• width : 0.1• density : 0.2/0.1 = 2
– 一般化• width: w• probabilty : 2w• density : 2
• scale を 1.0 から 100 に,進み方を対数にする– 図のような形になる
3.3 Probability Distributions
p([x,y]): x から y の確率
p(x) : 確率密度
3.3.3 Mean and Variance of a Distribution
• Mean– 期待値– サイコロ
• 1/6 * 1 + 1/6 * 2 + … + 1/6 * 6 = 3.5
– 連続値でどのように扱うか?
• Variance– 分散– 期待値からどれだけ分布が離れているか?
• Mean Squared Deviation (MSD)
3.3.3 Mean and Variance of a Distribution
3.3.2.2 The Normal Probability Density Function
• 一番有名な分布– ガウス分布・正規分布
– E[p(x)] = μ– Var[p(x)] = σ^2
Variance as Uncertainty in Beliefs
• p(θ) : θ の信頼出来る程度を示す
• Variance– どれだけ分布が広がっているか
• Var が大きいと正規分布だとよこにでかくなる
• Var が小さい=> certain である– ある領域に定まる
• Highest Density Interval(HDI)– 分布の W %がどの範囲に収ま
るか?
3.4 Two-Way Distribution
• 同時確率分布– コインを3こ同時になげたときにどうやって確率を表現する
か?• 表が何回でるか?• 何回結果が変わるか?
同時分布と周辺確率
• 同時確率– P( S, H )
• S 回入れ替わった時に H 回表がでる確率– S = 0, H = 0 : P(S, H) = 0.0 ( 裏裏裏 )– S = 1. H = 1 : P(S, H) = 0.25 ( 裏裏表 , 表裏裏 )
• 周辺確率 ( marginal )– P(S), P(H)
• P(S=0) = 2/8
3.4.1 Marginal Probability
• 離散値
• 連続値
3.4.2 Conditional Probability
• 条件付き確率• コインを3回投げるとき
– 表が2回でる時に,何回表裏が入れ替わるのか?• 表が2回でる事象
– 表表裏 : S=1 , 表裏表 : S=2, 裏表表 : S=1» P(S=1| H=2) = 2/3» P(S=2| H=2) = 1/3
– P(H=2,S=1) = 2/8 , P(H=2) = 3/8– P(S=1|H=2) = 2/3
3.4.3 Independence of Attributes
• 事象が独立であるときに,条件付き確率はどのようになるか?– サイコロを2こふったとき、1こ目が1だった時に2個めいく
つがでるか• まぁ関係ないよね!
– なので以下のようになる