課程五
DESCRIPTION
課程五. 機率. 機率. 機率是長期觀察隨機變數之後,事件發生的比例 樣本空間:所有事件的集合 事件:樣本空間的子集合 離散 連續. 機率規則. P(~A)=1-P(A) P(A∪B)=P(A)+P(B) if P(A∩B)=0 聯合 (joint) 機率: P(A∩B) 邊際 (marginal) 機率: P(A∩B1)+P(A∩B2)+… 條件機率: P(A|B) = P(A∩B)/P(B) P(B) ×P(A|B)= P(A∩B) 如果是獨立事件 P(A ∩ B)=P(A) ×P(B). 例. 各種機率. - PowerPoint PPT PresentationTRANSCRIPT
課程五
機率
機率機率是長期觀察隨機變數之後,事件發生
的比例樣本空間:所有事件的集合事件:樣本空間的子集合離散連續
機率規則P(~A)=1-P(A)P(A B)=P(A)+P(B) if P(A∩B)=0∪聯合 (joint) 機率: P(A∩B)邊際 (marginal) 機率: P(A∩B1)+P(A∩B
2)+…條件機率: P(A|B) = P(A∩B)/P(B)P(B) ×P(A|B)= P(A∩B)如果是獨立事件 P(A∩B)=P(A) ×P(B)
例上課時間
上午 A1 下午 A2
有無帶筆電上課
帶筆電 B1 31 23
沒帶筆電 B2
19 27
各種機率上午上課且帶筆電的(聯合)機率為: P
(A1∩B1) = 31/100 = 0.31上午上課的(邊際)機率為: P(A1∩B1)+
P(A1∩B2) = 0.31+0.19 = 0.5帶筆電的(邊際)機率為: P(B1∩A1)+ P
(B1∩A2) = 0.31+0.23 = 0.54已知某同學上午上課,他帶筆電的(條
件)機率: P(A1∩B1)/ P(A1) = 0.31/0.5
例假設在中國的 26 名省市委書記中,具有博
士學位黨職的有 8 人,出生在「 50 後」有14 人,有博士學位且出生在「 50 後」的有5 人。則有博士學位或是出生在「 50 後」的機率為?
P(A)=18/26=0.3. P(B)=14/26=0.53. P(A∩B)=5/26=0.19. P(A)+P(B)- P(A∩B)=0.64
機率分佈( Probability distribution)
在長時間重複觀察之後,特定事件發生的比例可以函數或是類似直方圖的方式表示
0 P(y) 1≦ ≦
離散變數的機率給變數 y 的每一個值一個機率計算觀察到每個值發生的次數再除以總次
數。機率分佈用直方圖表示,或稱為 probabilit
y mass function (pmf) 。平均值: Σy×P(y)
連續變數的機率連續變數可表示某一變數值或是區間所發
生的機率。函數下的面積應為 1機率分佈的參數為平均值 μ 及標準差 σ最常見的是常態分佈P(-σ < y < σ) = 0.68, 0.95 for 2σ ( A&F
圖 4.3 )
常態分佈的表示方式
),(~ 2Nyi
常態分佈函數
22 2/
2
1)(
xexf
標準化常態分佈的表示方式
)1,0(~ Nyi
Z 值表示 y 的某個值與其
平均值相差有多少標準差,也是一種標準化過程。
ii
yz
)1,0(~ Nzi
Z 值及機率分布 1
Z 值與機率之間可以互相對照,代表函數底下的面積,或者是累積機率,也是一種分位數。
例:在標準常態分佈下( μ = 0,σ = 1 ),平均值 +1 個標準差也就是 Z=1 ,累積機率為 0.84 ,也就是右尾累積機率約為 0.158
例: 95 %的機率是 1.644 ,查表可知當右尾機率為 0.0505 , Z 值為 1.64
Z 值及機率分布當 Z=0 ,對應為 0.5 的機率當 Z=1.0 ,對應的右尾累積機率為 0.1587 ,
也就是說平均值加 1 個標準差的累積機率為 0.5-0.1587 = 0.3413 ,因此平均值正負1 個標準差的機率則為 0.6826 ,或者是 68%。
當 Z=2.0 ,對應的右尾累積機率為 0.0228 ,因此平均值正負 2 個標準差的機率則為 1-2*0.0228 = 0.9544 ,或者是 95 %、 0.95 。
例當平均值是 100 、標準差為 16 時, 常態
分佈下的 99 %的 IQ 代表幾分?因為累積機率為 99 %或者是右尾剩餘機率
為 1 %,以標準常態分布而言,對應的 Z值為 2.32 ,所以 y=100+2.32*16=137.2
換句話說,當平均值是 100 、標準差為 16時, 在常態分佈下有 99 %的人不到 137.2
例美國人身高平均值為 70.2 吋,標準差為 2.
89 吋,那麼不到 6 呎的機率為?Z= ( 72-70.2 ) /2.89 = 0.62 。查表可知
右尾機率為 0.2676 。故 1-0.2676 = 0.73= 73 %
那麼身高介於 70.2 吋與 6 呎之間的機率為?73 % -50 %= 23 %
抽樣分佈抽樣分佈 (sampling distributions) 指的是根
據母體所得到的樣本統計資料,所呈現的分佈。
機率分佈 (probability distributions) 則是列出變數的所有可能發生事件。瞭解機率分佈可幫助我們瞭解從樣本推論到母體。
實際上,我們最多知道樣本分佈。
例—投票選擇(二元)民調顯示 56.5 %的民眾投給阿諾。假設已知母體(加州州民)有 50 %的民眾
投給阿諾。( μ = 0.5 )。0.565 是許多樣本統計的其中之一,每一
「個」樣本可視為許多觀察值的總合。樣本分佈則是把許多樣本以其樣本統計值
為 X 軸、次數為 Y 軸列成直方圖。
例—投票選擇(二元)續仿民意調查,我們隨機抽 2705 人,抽 300
0 次。已知母體支持阿諾的機率為 0.5 。經由常態分佈的模擬,可得到以下的樣本
比例:0.497, 0.515, 0.505, 0.489, 0.500, 0.504,
0.509, 0.507, 0.505, 0.508,….畫成直方圖表示樣本分佈,大多數集中在
0.5
例—投票選擇(二元)續或者模擬樣本數為 4— 統計值較少最小值為 : 0, 最大值為 : 1, 平均值為 : 0.5可先建立樣本分配 (sampling distribution)或是畫圖表示
平均值 y-bar 的抽樣分佈前述的投票選擇屬於二元的變數,稱為樣
本比例( sample proportion ),但是我們更關心連續變數 y 的平均數( y-bar )
不同樣本有不同 y-bar ,許多的 y-bar 可成為一個抽樣分佈。
眾多 y-bar 的平均值以及離散程度即這個y-bar 抽樣分佈的重要參數。
平均數與標準誤
)(yE
ny
例從任何一個母體分佈抽出若干樣本,樣本
數越大,抽樣分佈應該有越小的離散程度,而其平均值應該越接近母體。
假設有一個單一分佈的母體( N=100,000, μ=95.04, σ=20.2 )
Uniform distribution, N=1 million
y
De
nsi
ty
60 70 80 90 100 110 120 130
0.0
00
0.0
05
0.0
10
0.0
15
, σ-y-bar
抽出 100 個樣本,抽 100 次之後,平均值為 95.28, σ-y-bar=20.2/10=2.02( 實際: 2.09)
抽出 400 個樣本抽 100 次之後,平均值為94.97 , σ-y-bar=20.2/20=1.01( 實際: 0.94)
抽出 1000 個樣本抽 100 次之後,平均值為 95.17 , σ-y-bar=20.2/31=0.63( 實際:0.59)
n=100, size=100
x1
Fre
qu
en
cy
90 92 94 96 98 100
05
10
15
20
n=400, size=100
x2
Fre
qu
en
cy
92 93 94 95 96 97
05
10
15
20
n=400, size=100
x2
Fre
qu
en
cy
92 93 94 95 96 97
05
10
15
20
n=1000, size=100
x3
De
nsi
ty
93.5 94.0 94.5 95.0 95.5 96.0 96.5 97.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
小結因為實際上我們不可能知道 σ ,所以 σ-y-b
ar只是估計,但是可以看到它跟實際的抽樣分佈的離散程度相當接近。
而當樣本數 n越大,標準誤越小,因此抽樣分佈越集中在母體的平均值附近。
樣本比例如果 y 是二元變數,
母體的平均數為 p。變異數則是 p(1-p)但是許多的平均數所形成的抽樣分佈,標準誤為 σ-y-bar 。
當 p=0.5 , σ-y-bar=0.5/√n
pyE
n
ppy
)(
)1(
例母體的平均值為 0.5 ,那麼 σ-y-bar=0.5/√2
705=0.01 。因此,如果有 56.5% 的民眾投給阿諾, 0.
565 與母體平均值差距= 6.5 個標準誤。遠超過三個標準誤 [0.47, 0.53] 。
我們不知道 σ ,但是,不管母體是什麼分佈, n越大、抽樣分佈的標準誤越小,而且呈常態分佈。
抽樣誤差根據抽樣分佈的標準誤,可以反推需要多
少樣本。假設母體比例為 0.559 , σ-y-bar=0.497/√
2705=0.01當 n=400, 且 μ=0.559 , σ=0.497 , σ-y-b
ar=0.497/√400=0.025 。因此,樣本越大,μ 相同的情況下, y-bar越集中,抽樣誤差( sampling error )越小
中央極限定理不論母體的機率分佈為何,平均值的抽樣
分佈隨著樣本變大,越來越接近常態分佈。而根據經驗法則,幾乎所有平均值會落在
平均值加減 3 個標準誤的區間。理論上我們不知道 σ ,需要用樣本的 s估
計。如果樣本數越接近母體,抽樣誤差越小,樣本平均值也越接近母體平均值。
例假設有一連續變數,其分佈往左偏。可以觀察當抽出 30 個樣本、 100 個樣本,
抽樣分佈接近常態分佈。
總結瞭解機率的基本原則瞭解機率分佈的意義瞭解標準常態分佈 z 值之意義瞭解何謂抽樣分佈