課程五

課程五

機率

機率機率是長期觀察隨機變數之後，事件發生

的比例樣本空間：所有事件的集合事件：樣本空間的子集合離散連續

機率規則P(~A)=1-P(A)P(A B)=P(A)+P(B) if P(A∩B)=0∪聯合 (joint) 機率： P(A∩B)邊際 (marginal) 機率： P(A∩B1)+P(A∩B

2)+…條件機率： P(A|B) ＝ P(A∩B)/P(B)P(B) ×P(A|B)= P(A∩B)如果是獨立事件 P(A∩B)=P(A) ×P(B)

例上課時間

上午 A1 下午 A2

有無帶筆電上課

帶筆電 B1 31 23

沒帶筆電 B2

19 27

各種機率上午上課且帶筆電的（聯合）機率為： P

(A1∩B1) ＝ 31/100 ＝ 0.31上午上課的（邊際）機率為： P(A1∩B1)+

P(A1∩B2) ＝ 0.31+0.19 ＝ 0.5帶筆電的（邊際）機率為： P(B1∩A1)+ P

(B1∩A2) ＝ 0.31+0.23 ＝ 0.54已知某同學上午上課，他帶筆電的（條

件）機率： P(A1∩B1)/ P(A1) ＝ 0.31/0.5

例假設在中國的 26 名省市委書記中，具有博

士學位黨職的有 8 人，出生在「 50 後」有14 人，有博士學位且出生在「 50 後」的有5 人。則有博士學位或是出生在「 50 後」的機率為？

P(A)=18/26=0.3. P(B)=14/26=0.53. P(A∩B)=5/26=0.19. P(A)+P(B)- P(A∩B)=0.64

機率分佈（ Probability distribution)

在長時間重複觀察之後，特定事件發生的比例可以函數或是類似直方圖的方式表示

0 P(y) 1≦ ≦

離散變數的機率給變數 y 的每一個值一個機率計算觀察到每個值發生的次數再除以總次

數。機率分佈用直方圖表示，或稱為 probabilit

y mass function (pmf) 。平均值： Σy×P(y)

連續變數的機率連續變數可表示某一變數值或是區間所發

生的機率。函數下的面積應為 1機率分佈的參數為平均值 μ 及標準差 σ最常見的是常態分佈P(-σ < y < σ) = 0.68, 0.95 for 2σ （ A&F

圖 4.3 ）

常態分佈的表示方式

),(~ 2Nyi

常態分佈函數

22 2/

2

1)(

xexf

標準化常態分佈的表示方式

)1,0(~ Nyi

Z 值表示 y 的某個值與其

平均值相差有多少標準差，也是一種標準化過程。

ii

yz

)1,0(~ Nzi

Z 值及機率分布 1

Z 值與機率之間可以互相對照，代表函數底下的面積，或者是累積機率，也是一種分位數。

例：在標準常態分佈下（ μ ＝ 0,σ ＝ 1 ），平均值 +1 個標準差也就是 Z=1 ，累積機率為 0.84 ，也就是右尾累積機率約為 0.158

例： 95 ％的機率是 1.644 ，查表可知當右尾機率為 0.0505 ， Z 值為 1.64

Z 值及機率分布當 Z=0 ，對應為 0.5 的機率當 Z=1.0 ，對應的右尾累積機率為 0.1587 ，

也就是說平均值加 1 個標準差的累積機率為 0.5-0.1587 ＝ 0.3413 ，因此平均值正負1 個標準差的機率則為 0.6826 ，或者是 68％。

當 Z=2.0 ，對應的右尾累積機率為 0.0228 ，因此平均值正負 2 個標準差的機率則為 1-2*0.0228 ＝ 0.9544 ，或者是 95 ％、 0.95 。

例當平均值是 100 、標準差為 16 時，常態

分佈下的 99 ％的 IQ 代表幾分？因為累積機率為 99 ％或者是右尾剩餘機率

為 1 ％，以標準常態分布而言，對應的 Z值為 2.32 ，所以 y=100+2.32*16=137.2

換句話說，當平均值是 100 、標準差為 16時，在常態分佈下有 99 ％的人不到 137.2

例美國人身高平均值為 70.2 吋，標準差為 2.

89 吋，那麼不到 6 呎的機率為？Z= （ 72-70.2 ） /2.89 ＝ 0.62 。查表可知

右尾機率為 0.2676 。故 1-0.2676 ＝ 0.73＝ 73 ％

那麼身高介於 70.2 吋與 6 呎之間的機率為？73 ％ -50 ％＝ 23 ％

抽樣分佈抽樣分佈 (sampling distributions) 指的是根

據母體所得到的樣本統計資料，所呈現的分佈。

機率分佈 (probability distributions) 則是列出變數的所有可能發生事件。瞭解機率分佈可幫助我們瞭解從樣本推論到母體。

實際上，我們最多知道樣本分佈。

例—投票選擇（二元）民調顯示 56.5 ％的民眾投給阿諾。假設已知母體（加州州民）有 50 ％的民眾

投給阿諾。（ μ ＝ 0.5 ）。0.565 是許多樣本統計的其中之一，每一

「個」樣本可視為許多觀察值的總合。樣本分佈則是把許多樣本以其樣本統計值

為 X 軸、次數為 Y 軸列成直方圖。

例—投票選擇（二元）續仿民意調查，我們隨機抽 2705 人，抽 300

0 次。已知母體支持阿諾的機率為 0.5 。經由常態分佈的模擬，可得到以下的樣本

比例：0.497, 0.515, 0.505, 0.489, 0.500, 0.504,

0.509, 0.507, 0.505, 0.508,….畫成直方圖表示樣本分佈，大多數集中在

0.5

例—投票選擇（二元）續或者模擬樣本數為 4— 統計值較少最小值為 : 0, 最大值為 : 1, 平均值為 : 0.5可先建立樣本分配 (sampling distribution)或是畫圖表示

平均值 y-bar 的抽樣分佈前述的投票選擇屬於二元的變數，稱為樣

本比例（ sample proportion ），但是我們更關心連續變數 y 的平均數（ y-bar ）

不同樣本有不同 y-bar ，許多的 y-bar 可成為一個抽樣分佈。

眾多 y-bar 的平均值以及離散程度即這個y-bar 抽樣分佈的重要參數。

平均數與標準誤

)(yE

ny

例從任何一個母體分佈抽出若干樣本，樣本

數越大，抽樣分佈應該有越小的離散程度，而其平均值應該越接近母體。

假設有一個單一分佈的母體（ N=100,000, μ=95.04, σ=20.2 ）

Uniform distribution, N=1 million

y

De

nsi

ty

60 70 80 90 100 110 120 130

0.0

00

0.0

05

0.0

10

0.0

15

， σ-y-bar

抽出 100 個樣本，抽 100 次之後，平均值為 95.28, σ-y-bar=20.2/10=2.02( 實際： 2.09)

抽出 400 個樣本抽 100 次之後，平均值為94.97 ， σ-y-bar=20.2/20=1.01( 實際： 0.94)

抽出 1000 個樣本抽 100 次之後，平均值為 95.17 ， σ-y-bar=20.2/31=0.63( 實際：0.59)

n=100, size=100

x1

Fre

qu

en

cy

90 92 94 96 98 100

05

10

15

20

n=400, size=100

x2

Fre

qu

en

cy

92 93 94 95 96 97

05

10

15

20

n=400, size=100

x2

Fre

qu

en

cy

92 93 94 95 96 97

05

10

15

20

n=1000, size=100

x3

De

nsi

ty

93.5 94.0 94.5 95.0 95.5 96.0 96.5 97.0

0.0

0.1

0.2

0.3

0.4

0.5

0.6

小結因為實際上我們不可能知道 σ ，所以 σ-y-b

ar只是估計，但是可以看到它跟實際的抽樣分佈的離散程度相當接近。

而當樣本數 n越大，標準誤越小，因此抽樣分佈越集中在母體的平均值附近。

樣本比例如果 y 是二元變數，

母體的平均數為 p。變異數則是 p(1-p)但是許多的平均數所形成的抽樣分佈，標準誤為 σ-y-bar 。

當 p=0.5 ， σ-y-bar=0.5/√n

pyE

n

ppy

)(

)1(

例母體的平均值為 0.5 ，那麼 σ-y-bar=0.5/√2

705=0.01 。因此，如果有 56.5% 的民眾投給阿諾， 0.

565 與母體平均值差距＝ 6.5 個標準誤。遠超過三個標準誤 [0.47, 0.53] 。

我們不知道 σ ，但是，不管母體是什麼分佈， n越大、抽樣分佈的標準誤越小，而且呈常態分佈。

抽樣誤差根據抽樣分佈的標準誤，可以反推需要多

少樣本。假設母體比例為 0.559 ， σ-y-bar=0.497/√

2705=0.01當 n=400, 且 μ=0.559 ， σ=0.497 ， σ-y-b

ar=0.497/√400=0.025 。因此，樣本越大，μ 相同的情況下， y-bar越集中，抽樣誤差（ sampling error ）越小

中央極限定理不論母體的機率分佈為何，平均值的抽樣

分佈隨著樣本變大，越來越接近常態分佈。而根據經驗法則，幾乎所有平均值會落在

平均值加減 3 個標準誤的區間。理論上我們不知道 σ ，需要用樣本的 s估

計。如果樣本數越接近母體，抽樣誤差越小，樣本平均值也越接近母體平均值。

例假設有一連續變數，其分佈往左偏。可以觀察當抽出 30 個樣本、 100 個樣本，

抽樣分佈接近常態分佈。

總結瞭解機率的基本原則瞭解機率分佈的意義瞭解標準常態分佈 z 值之意義瞭解何謂抽樣分佈

課程五

Documents