chapter9
TRANSCRIPT
CHAPTER 9
ARGUMENTS FROM
PROBABILITY MODELS
KOSUKE TAKEUCHI
ランダムなデータを扱うには
・これまでの解析では、簡単な関数を使って手作業で関数を探し、関数のべき乗や係数を決定していた。
・正確にデータのモデルを作成するために、これからいくつかの「標準的な」モデルを紹介していく。
・これから紹介するモデルは、あくまでも「典型的で」ランダムなデータのみに当てはまる。したがって、一個のデータなど、「狭い領域」のデータには適応できない。
CONTENTS
・The Binomal Distribution and Bernoulli Trials
(二項分布とベルヌーイ試行)
・The Gaussian Distribution and Central Limit Theorem
(ガウス分布と中心極限定理)
・Power-Law Distributions and Non-Normal Statistics
(冪分布と非正規なデータ分布に関する統計学)
・Other Distributions (その他の分布)
1.二項分布とベルヌーイ試行
・ベルヌーイ試行は、「成功」と「失敗」の2つの事象を持つ。
・pが成功する確率で、1-pが失敗する確率
→ 単純なモデルだが、多くのデータについて当てはめる事ができる。
ベルヌーイ試行の例
1. コインを投げて、表が出たら「成功」。 p = 1/2
2. 公平なサイコロを投げて、1が出たら「成功」。 p = 1/6
2’. 1以外が出たら「成功」と定義しても良い。 p = 5/6
3. 壷にb個の黒い札とr個の赤い札がある。
壷から赤い札を引いたら「成功」。 p = r/(r+b)
4. 2枚のコインを投げて、2枚とも表なら「成功」。 p = 1/4
ベルヌーイ試行の結果は
二項分布の関数に従う。
P(k, n; p) = (nCk) × p^k × (1-p)^(n-k)
ただし、(nCk) = n! / k!(n-k)! : Combination
… k回成功、n-k回失敗する確率を表す。
平均値: μ = ∑k*P(k, N; p) = np
分散: σ = √np(1-p)
試行回数が多くなるにつれて、μ ~ n、 σ ~ √n に近づいていく 。
二項分布のグラフ
二項分布のビジネス応用
ベルヌーイ試行を繰り返すと、分布は「Mean-Field (平均場)」に近づいていく。
→このモデルをコールセンターのスタッフ配置にも適応できる
例えば、1000件オーダーに対し、クレームを1件対処できる場合は(p = 1/1000)、二項分布を使ってスタッフの配置を最適化できる。
k : クレーム対応に「成功する数」を変化させていくと、kが平均値npのときに、クレーム対処の成功確率P(k, n; p)が最大になる。
→つまり、100万件のオーダーがくるなら、1,000件くらいのクレームが
くることを前提としてスタッフを配置すればいい!
→分散を考えると、だいたい1,000±30くらいのクレームがくる可能性大
2.ガウス分布と中心極限定理
・世の中の多くの分布は「ガウス分布」に従う。
p(x; μ, σ) = 1/√(2π)σ * exp(-1/2 * (x-μ)/σ) :いわゆるベル・カーブ
なぜ多くの分布はガウス分布に従うか??
→「中心極限定理」により証明可能(証明略)
証明の前提
1. ∀Xn; independent
2. ∀Xn ∈ (Common Distribution)
3. μ, σ ≠ ±∞
→nが十分に大きい時、平均がxになる確率はガウス分布に従う
CENTRAL LIMIT THEOREM
ガウス分布を扱う際の注意点
中心極限定理より、 P(平均値=x) → p(x; μ, σ/√n)
ただし、xは前提をクリアした分布の確率変数
したがって、データの数を10倍すると、分散は1/√10≒30%減少する
逆に、ガウス分布の分散を10%減らしたい場合は100倍のデータが必要になる
なぜガウス分布にモデル化するか?
・中心付近にデータが集まっているので、中心部分に集中するだけでデータの性質がわかるから。
→つまり、重要なデータを中心付近に集めることで、
平均を見つめると私達の大切なデータの多くを見つめることができる
ただし、世の中は「Normal (尋常)」ではない!!
3.冪分布と非正規な分布
(例) ウェブサイトのアクセス情報
冪分布の特徴・例
・ガウス分布は、「外れ値」を無視して多数派に着目していた
→冪分布は外れ値である「ヘビーユーザー」にも着目する!
(経済界においては「20:80の法則..パレートの法則」の内、
20の方が多くの利益を生み出すから?)
・例えば、「地震の分布」、「本の厚み」、「紛争の規模」、「砂の大きさ」、「太陽フレアのレベル」、「人口密度」、「富の分布」など
・外れ値が大きいので、データを増やすとμは永遠に大きくなる
→中心極限定理が適応できない!
その他の分布モデル
1. 幾何分布
→ ベルヌーイ試行の狭義版
2. ポアソン分布
→ 二項分布の拡張版
3. 対数正規分布
→
GEOMETRIC DIST. (幾何分布)
・狭義の二項分布
p(k, p) = p(1-p)^(k-1)
: k回目に「成功」する確率
・μ = 1/p
・σ = √(1-p) / p
POISSON DIST. (ポアソン分布)
・二項分布はn回の試行でk回「成功」する確率を扱った
→ポアソン分布は事象がλの割合で発生する場合、tの間隔でk回事象が発生する確率を求めることが可能
p(k, t, λ) = (λt)^k/k! * exp(-λt) μ = λt σ = √λt
ポアソン分布の応用例
(例) コールセンターで、電話が1時間あたり15件来るとする。
t分の間隔で何件くらい電話が来るか??
λ = 0.25 calls/minutes
t = 1のとき、P(k, 1, 0.25)の分布から、0~1件ほどしか電話はかからない
t = 3のとき、P(k, 3, 0.25)の分布から、3~4件ほど電話がかかってくる可能性が高い
LOG-NORMAL DIST. (対数正規分布)
世の中のデータは完全に正規分布に従うわけではない。
例えば、ボクシングでは一瞬で試合が決まる場合は少ない。つまり、数分で試合が決まるときの選手のレベルは高いか低い。
ただし、完全に弱者と強者の試合時間が対称に分布されているわけではなく、弱者同士のマッチは強者同士のマッチよりも早く終る。
(弱者はガードが甘いので、すぐにノックアウトされてしまう)
したがって、分布は少々対称からずれる。
~μ = log(μ)とすると…
σ :カーブの形を決定するμ :カーブの大きさを決定する