課程五

46
課課課 課課

Upload: melanie-ashley

Post on 30-Dec-2015

20 views

Category:

Documents


0 download

DESCRIPTION

課程五. 機率. 機率. 機率是長期觀察隨機變數之後,事件發生的比例 樣本空間:所有事件的集合 事件:樣本空間的子集合 離散 連續. 機率規則. P(~A)=1-P(A) P(A∪B)=P(A)+P(B) if P(A∩B)=0 聯合 (joint) 機率: P(A∩B) 邊際 (marginal) 機率: P(A∩B1)+P(A∩B2)+… 條件機率: P(A|B) = P(A∩B)/P(B) P(B) ×P(A|B)= P(A∩B) 如果是獨立事件 P(A ∩ B)=P(A) ×P(B). 例. 各種機率. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 課程五

課程五

機率

Page 2: 課程五

機率機率是長期觀察隨機變數之後,事件發生

的比例樣本空間:所有事件的集合事件:樣本空間的子集合離散連續

Page 3: 課程五

機率規則P(~A)=1-P(A)P(A B)=P(A)+P(B) if P(A∩B)=0∪聯合 (joint) 機率: P(A∩B)邊際 (marginal) 機率: P(A∩B1)+P(A∩B

2)+…條件機率: P(A|B) = P(A∩B)/P(B)P(B) ×P(A|B)= P(A∩B)如果是獨立事件 P(A∩B)=P(A) ×P(B)

Page 4: 課程五

例上課時間

上午 A1 下午 A2

有無帶筆電上課

帶筆電 B1 31 23

沒帶筆電 B2

19 27

Page 5: 課程五

各種機率上午上課且帶筆電的(聯合)機率為: P

(A1∩B1) = 31/100 = 0.31上午上課的(邊際)機率為: P(A1∩B1)+

P(A1∩B2) = 0.31+0.19 = 0.5帶筆電的(邊際)機率為: P(B1∩A1)+ P

(B1∩A2) = 0.31+0.23 = 0.54已知某同學上午上課,他帶筆電的(條

件)機率: P(A1∩B1)/ P(A1) = 0.31/0.5

Page 6: 課程五

例假設在中國的 26 名省市委書記中,具有博

士學位黨職的有 8 人,出生在「 50 後」有14 人,有博士學位且出生在「 50 後」的有5 人。則有博士學位或是出生在「 50 後」的機率為?

P(A)=18/26=0.3. P(B)=14/26=0.53. P(A∩B)=5/26=0.19. P(A)+P(B)- P(A∩B)=0.64

Page 7: 課程五

機率分佈( Probability distribution)

在長時間重複觀察之後,特定事件發生的比例可以函數或是類似直方圖的方式表示

0 P(y) 1≦ ≦

Page 8: 課程五

離散變數的機率給變數 y 的每一個值一個機率計算觀察到每個值發生的次數再除以總次

數。機率分佈用直方圖表示,或稱為 probabilit

y mass function (pmf) 。平均值: Σy×P(y)

Page 9: 課程五

連續變數的機率連續變數可表示某一變數值或是區間所發

生的機率。函數下的面積應為 1機率分佈的參數為平均值 μ 及標準差 σ最常見的是常態分佈P(-σ < y < σ) = 0.68, 0.95 for 2σ ( A&F

圖 4.3 )

Page 10: 課程五

常態分佈的表示方式

),(~ 2Nyi

Page 11: 課程五

常態分佈函數

22 2/

2

1)(

xexf

Page 12: 課程五

標準化常態分佈的表示方式

)1,0(~ Nyi

Page 13: 課程五

Z 值表示 y 的某個值與其

平均值相差有多少標準差,也是一種標準化過程。

ii

yz

)1,0(~ Nzi

Page 14: 課程五
Page 15: 課程五

Z 值及機率分布 1

Z 值與機率之間可以互相對照,代表函數底下的面積,或者是累積機率,也是一種分位數。

例:在標準常態分佈下( μ = 0,σ = 1 ),平均值 +1 個標準差也就是 Z=1 ,累積機率為 0.84 ,也就是右尾累積機率約為 0.158

例: 95 %的機率是 1.644 ,查表可知當右尾機率為 0.0505 , Z 值為 1.64

Page 16: 課程五
Page 17: 課程五

Z 值及機率分布當 Z=0 ,對應為 0.5 的機率當 Z=1.0 ,對應的右尾累積機率為 0.1587 ,

也就是說平均值加 1 個標準差的累積機率為 0.5-0.1587 = 0.3413 ,因此平均值正負1 個標準差的機率則為 0.6826 ,或者是 68%。

當 Z=2.0 ,對應的右尾累積機率為 0.0228 ,因此平均值正負 2 個標準差的機率則為 1-2*0.0228 = 0.9544 ,或者是 95 %、 0.95 。

Page 18: 課程五
Page 19: 課程五

例當平均值是 100 、標準差為 16 時, 常態

分佈下的 99 %的 IQ 代表幾分?因為累積機率為 99 %或者是右尾剩餘機率

為 1 %,以標準常態分布而言,對應的 Z值為 2.32 ,所以 y=100+2.32*16=137.2

換句話說,當平均值是 100 、標準差為 16時, 在常態分佈下有 99 %的人不到 137.2

Page 20: 課程五
Page 21: 課程五

例美國人身高平均值為 70.2 吋,標準差為 2.

89 吋,那麼不到 6 呎的機率為?Z= ( 72-70.2 ) /2.89 = 0.62 。查表可知

右尾機率為 0.2676 。故 1-0.2676 = 0.73= 73 %

那麼身高介於 70.2 吋與 6 呎之間的機率為?73 % -50 %= 23 %

Page 22: 課程五
Page 23: 課程五

抽樣分佈抽樣分佈 (sampling distributions) 指的是根

據母體所得到的樣本統計資料,所呈現的分佈。

機率分佈 (probability distributions) 則是列出變數的所有可能發生事件。瞭解機率分佈可幫助我們瞭解從樣本推論到母體。

實際上,我們最多知道樣本分佈。

Page 24: 課程五

例—投票選擇(二元)民調顯示 56.5 %的民眾投給阿諾。假設已知母體(加州州民)有 50 %的民眾

投給阿諾。( μ = 0.5 )。0.565 是許多樣本統計的其中之一,每一

「個」樣本可視為許多觀察值的總合。樣本分佈則是把許多樣本以其樣本統計值

為 X 軸、次數為 Y 軸列成直方圖。

Page 25: 課程五

例—投票選擇(二元)續仿民意調查,我們隨機抽 2705 人,抽 300

0 次。已知母體支持阿諾的機率為 0.5 。經由常態分佈的模擬,可得到以下的樣本

比例:0.497, 0.515, 0.505, 0.489, 0.500, 0.504,

0.509, 0.507, 0.505, 0.508,….畫成直方圖表示樣本分佈,大多數集中在

0.5

Page 26: 課程五
Page 27: 課程五

例—投票選擇(二元)續或者模擬樣本數為 4— 統計值較少最小值為 : 0, 最大值為 : 1, 平均值為 : 0.5可先建立樣本分配 (sampling distribution)或是畫圖表示

Page 28: 課程五
Page 29: 課程五

平均值 y-bar 的抽樣分佈前述的投票選擇屬於二元的變數,稱為樣

本比例( sample proportion ),但是我們更關心連續變數 y 的平均數( y-bar )

不同樣本有不同 y-bar ,許多的 y-bar 可成為一個抽樣分佈。

眾多 y-bar 的平均值以及離散程度即這個y-bar 抽樣分佈的重要參數。

Page 30: 課程五

平均數與標準誤

)(yE

ny

Page 31: 課程五

例從任何一個母體分佈抽出若干樣本,樣本

數越大,抽樣分佈應該有越小的離散程度,而其平均值應該越接近母體。

假設有一個單一分佈的母體( N=100,000, μ=95.04, σ=20.2 )

Page 32: 課程五

Uniform distribution, N=1 million

y

De

nsi

ty

60 70 80 90 100 110 120 130

0.0

00

0.0

05

0.0

10

0.0

15

Page 33: 課程五

, σ-y-bar

抽出 100 個樣本,抽 100 次之後,平均值為 95.28, σ-y-bar=20.2/10=2.02( 實際: 2.09)

抽出 400 個樣本抽 100 次之後,平均值為94.97 , σ-y-bar=20.2/20=1.01( 實際: 0.94)

抽出 1000 個樣本抽 100 次之後,平均值為 95.17 , σ-y-bar=20.2/31=0.63( 實際:0.59)

Page 34: 課程五

n=100, size=100

x1

Fre

qu

en

cy

90 92 94 96 98 100

05

10

15

20

Page 35: 課程五

n=400, size=100

x2

Fre

qu

en

cy

92 93 94 95 96 97

05

10

15

20

n=400, size=100

x2

Fre

qu

en

cy

92 93 94 95 96 97

05

10

15

20

Page 36: 課程五

n=1000, size=100

x3

De

nsi

ty

93.5 94.0 94.5 95.0 95.5 96.0 96.5 97.0

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Page 37: 課程五

小結因為實際上我們不可能知道 σ ,所以 σ-y-b

ar只是估計,但是可以看到它跟實際的抽樣分佈的離散程度相當接近。

而當樣本數 n越大,標準誤越小,因此抽樣分佈越集中在母體的平均值附近。

Page 38: 課程五

樣本比例如果 y 是二元變數,

母體的平均數為 p。變異數則是 p(1-p)但是許多的平均數所形成的抽樣分佈,標準誤為 σ-y-bar 。

當 p=0.5 , σ-y-bar=0.5/√n

pyE

n

ppy

)(

)1(

Page 39: 課程五

例母體的平均值為 0.5 ,那麼 σ-y-bar=0.5/√2

705=0.01 。因此,如果有 56.5% 的民眾投給阿諾, 0.

565 與母體平均值差距= 6.5 個標準誤。遠超過三個標準誤 [0.47, 0.53] 。

我們不知道 σ ,但是,不管母體是什麼分佈, n越大、抽樣分佈的標準誤越小,而且呈常態分佈。

Page 40: 課程五

抽樣誤差根據抽樣分佈的標準誤,可以反推需要多

少樣本。假設母體比例為 0.559 , σ-y-bar=0.497/√

2705=0.01當 n=400, 且 μ=0.559 , σ=0.497 , σ-y-b

ar=0.497/√400=0.025 。因此,樣本越大,μ 相同的情況下, y-bar越集中,抽樣誤差( sampling error )越小

Page 41: 課程五

中央極限定理不論母體的機率分佈為何,平均值的抽樣

分佈隨著樣本變大,越來越接近常態分佈。而根據經驗法則,幾乎所有平均值會落在

平均值加減 3 個標準誤的區間。理論上我們不知道 σ ,需要用樣本的 s估

計。如果樣本數越接近母體,抽樣誤差越小,樣本平均值也越接近母體平均值。

Page 42: 課程五

例假設有一連續變數,其分佈往左偏。可以觀察當抽出 30 個樣本、 100 個樣本,

抽樣分佈接近常態分佈。

Page 43: 課程五
Page 44: 課程五
Page 45: 課程五
Page 46: 課程五

總結瞭解機率的基本原則瞭解機率分佈的意義瞭解標準常態分佈 z 值之意義瞭解何謂抽樣分佈