sec 3-6 信賴區間與信心水準的解讀

25
B4 Ch3 率與統計 (I) 1 Sec 3-6 信區間與信心水準的解讀 信區間與信心水準的解讀 信區間與信心水準的解讀 信區間與信心水準的解讀 重點理 重點理 重點理 重點理 學習現代統計學的主要目的,是利用抽樣資料,來對母體的分配作推論,這 是所的推論統計(inferential statistics)。而推論的意思是根證作出結 論。而統計推論( statisyical inference )是根樣本所供的證,對母體作出 結論。在數學領域作結論,是要從某些假設(hypothesis)開始,然後根邏 推演,證明結論絕對成立;而統計卻不一樣。統計結論不是百分之百確定的,因 為樣本不等於個母體。所以統計推論除了結論以外,還要說明結論的不確定程 度。在這裡我們用率語言來表示不確定的程度。而我們之前學的率和敘述統 計,是推論統計的基礎。 1. 變數( Random Variable )我們用一個簡的例子引進變數的觀念: EX一袋中有 5 個白球,3 個紅球,2 個黑球,從袋中任取一球,試求下列事件 發生的率: (1) A :取出的是白球; (2) B :取出的是白球或紅球; Sol我們將球編號,1 5 號是白球,6 8 號是紅球,9 號、10 號是黑球。再 引入變數 X ,用 X i = 表示取出的是 i 號球。( 1,2,3,...,10 i = )則: (1) ( ) [( 1) ( 2) ( 3) ( 4) ( 5)] PA P X X X X X = = + = + = + = + = 5 1 1 1 ( ) 5 10 2 i PX i = = = = = (2) 2 4 ( ) 1 ( ) 1 [( 9) ( 10)] 1 10 5 PB PB P X X = - = - = + = = - = 由上例知,我們可以用變數 X 取不同的值來代表試驗中不同的結果。也

Post on 28-Jul-2015

477 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 1

Sec 3-6 信賴區間與信心水準的解讀信賴區間與信心水準的解讀信賴區間與信心水準的解讀信賴區間與信心水準的解讀

重點整理重點整理重點整理重點整理

學習現代統計學的最主要目的,就是利用抽樣資料,來對母體的分配作推論,這

就是所謂的推論統計(inferential statistics)。而推論的意思就是根據證據作出結

論。而統計推論( statisyical inference )就是根據樣本所提供的證據,對母體作出

結論。在數學領域作結論,是要從某些假設(hypothesis)開始,然後根據邏輯

推演,證明結論絕對成立;而統計卻不一樣。統計結論不是百分之百確定的,因

為樣本不等於整個母體。所以統計推論除了結論以外,還要說明結論的不確定程

度。在這裡我們用機率語言來表示不確定的程度。而我們之前學的機率和敘述統

計,就是推論統計的基礎。

1. 隨機變數( Random Variable ):

我們用一個簡單的例子引進隨機變數的觀念:

EX:

一袋中有 5 個白球,3 個紅球,2 個黑球,從袋中任取一球,試求下列事件

發生的機率:

(1) A:取出的是白球;

(2) B :取出的是白球或紅球;

Sol:

我們將球編號,1 到 5 號是白球,6 到 8 號是紅球,9 號、10號是黑球。再

引入變數 X ,用 X i= 表示取出的是 i號球。( 1,2,3,...,10i = )則:

(1) ( ) [( 1) ( 2) ( 3) ( 4) ( 5)]P A P X X X X X= = + = + = + = + =

5

1

1 1( ) 5

10 2i

P X i=

= = = ⋅ =∑

(2) 2 4

( ) 1 ( ) 1 [( 9) ( 10)] 110 5

P B P B P X X′= − = − = + = = − =

由上例知,我們可以用變數 X 取不同的值來代表隨機試驗中不同的結果。也

Page 2: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 2

就是說可以用變數 X 描述隨機試驗和隨機事件。我們稱 X 為隨機變數。

我們定義:設 ( , )S P 是機率空間,一個隨機變數 X 就是樣本空間 S 上的一個

實數值函數: :X S R→ 。

2. 常態分布(Normal Distribution):

(1) 前言:

十九世紀時德國數學家高斯在研究和處理誤差時發現了最小平方法,這是處

理統計學中迴歸分析(regression)的重要方法,同時他所發現的常態分布為

統計學奠定了重要的基礎,雖然他是在處理誤差時由誤差的一些特性導出來

的。在幣值為 10 元的德國馬克上,就有高斯的相片和常態分配曲線。由於

每次測量造成的誤差事先無法知道,且理論上誤差的範圍會在 −∞ 與∞ 之

間,因此測量誤差很明顯是一個隨機變數。一般而言,一個隨機變數的變化

如果由大量微小的隨機因素的共同作用所引起的,那麼它常常會是一個常態

分布。

(2) 下表為 94年大學指考,國文科的摘要統計表(含人數與成績)

Page 3: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 3

在次數分配的直方圖(histogram)中,以各組的組中點為端點畫出的次數分

配折線圖(frequency polygon),它呈現左右兩側對稱,近似鐘形曲線的現象。

事實上,這曲線近似於一類叫做常態分配的曲線,如下圖:

(2) 常態分布的定義:

若隨機變數 X 的機率密度函數(PDF, Probability Density Function)為

2

2

( )

21( )

2

x

f x eµ

σ

πσ

−−= , x R∈ ,其中

1lim(1 ) 2.71828n

ne

n→∞= + ≐ ;則稱隨機變數

X 有平均數為µ ,變異數為 2σ 的常態分布,記為 2~ ( , )X N µ σ 。

3. 常態曲線(normal curve)的性質:

(1) 其圖形為一鐘形曲線,此曲線在 x軸的上方,且曲線下與 x軸所圍的面積

為1。

(2) 常態分配變數的平均數(即算術平均數)、中位數、眾數是一樣的。

Page 4: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 4

(3)常態分布曲線以直線 x µ= 為對稱軸,即在 [ 2 , ]µ σ µ σ− + 之間的面積與

[ , 2 ]µ σ µ σ− + 之間的機率相等。

(4) 2σ 決定曲線的形狀:當算術平均數 µ 相同時,標準差σ 不同的常態曲

線,它們的對稱軸相同,而曲線變化不同,σ 越小圖形越尖,或隨機變數相

對集中於 x µ= 的附近;σ 越大圖形越平,或隨機變數相對分散於 x µ= 的兩

側。即標準差較小的常態曲線其形狀較陡,較窄,表示數據較集中。

(5) 當σ 不變時,不論µ 為何值,它們的圖形都是一樣的,可以看成相互平

移。由平均數決定圖形的中心位置,如下圖所示,這表示各組數據中,數據

間的差異是一樣的。

(6) 常態分布曲線由最高點往左右兩側滑下,剛開始圖形降得非常快,但是

到某一點後,下降的速度開始緩和,離中心愈遠曲線就降得愈慢, 這個曲率

發生改變的位置(稱作反曲點),就是在平均數兩側各距離一個標準差的地

方。

(7) 在任何常態分布曲線當中,已知此組資料的算術平均數為µ ,標準差為

σ ,則我們可大約估算出(由積分運算):

有 68.26%的資料落在區間 ( , )µ σ µ σ− + 內,

有 95.44%的資料落在區間 ( 2 , 2 )µ σ µ σ− + 內,

有 99.73%的資料落在區間 ( 3 , 3 )µ σ µ σ− + 內。

Page 5: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 5

(8) 數據資料的標準化( Normalize ):設隨機變數X

σ−= ,則 ~ (0,1)Z N ;

即標準常態分配。

(9) 當樣本數夠大時(大於等於 30時),我們有時以 6 個標準差來代替全距。

由上可知,只要給定算術平均數及標準差,就可以描述出特定的常態曲線。

4. 由抽樣推測母體平均:

(1) 估計 ( estimation ):

統計推論是根據樣本數據來對母體作討論。用來描述母體的數稱為參數

( parameter )。要估計母體參數時,我們從母體中取一樣本,並利用從樣本算

出來的某個統計量的值來當我們的估計值。

(2) 中央極限定理(Central limit Theorey):

常態分配的重要,關鍵在於機率論的一個重要事實:中央極限定理。此定理

是說,無論母體(population)的分配為何,只要樣本數(sample)夠大,則

樣本平均數會趨近於常態分配。因此,只要樣本夠多,就可利用上述的常態

分配的特性與規則。也就是說只要每次抽取的樣本數 n夠大,(例如 30n ≥ ),

則抽取 1000 次所得的 X 的分布會近似常態分布,且其標準差為n

σ,說明

如下。

(3) 母體平均數(Population mean):

把母體中每個樣本所具備的數值,相加後除以母體總數,可得母體平均數

Page 6: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 6

µ ,再考慮離均差的平方的算術平均數可以得母體變異數 2σ 。即:

1

1 N

ii

xN

µ=

= ∑ , 2 2

1

1( )

N

ii

xN

σ µ=

= −∑ 。

不管母體 X 服從什麼樣的分布,樣本平均值 X 都有很好的統計性質:

設期望值 ( )E X µ= ,變異數 2( ) ( )D X Var X σ= = ,我們可以得到:

1 1

1 1 1( ) ( ) ( ) ( )

n n

i ii i

E X E x E x nn n n

µ µ= =

= = = =∑ ∑ ;

21 1

1 1( ) ( ) ( )

n n

i ii i

Var X Var x Var xn n= =

= =∑ ∑2

22 2

1

1 1 (1 )( ) ( )

n

ii

pq p pVar x n

n n n n n

σσ=

−= = = = =∑

當然標準差(1 )

( )X

pq p pVar X

n nn

σσ −= = = = ;

當母體為常態分配時,即 2~ ( , )X N µ σ ,易知2

~ ( , )X Nn

σµ ,將其標準化得:

~ (0,1)X

N

n

µσ

若母體的平均數µ ,標準差σ 皆為未知,我們可以用抽樣的平均數 X ,樣本

標準差 S 來代替。這樣導致的誤差在可以接受的範圍內。

(4) 信心水準(confidence level)與信賴區間(confidence interval):

母體的個數為 N ,算術平均數為µ ,標準差為σ ,抽出n 個樣本的平均數為

X ,樣本標準差為 S,由中央極限定理得知多次抽樣的 X 近似常態分配,且

標準差為S

n,所以由68 95 99.7− − 經驗法則(68 95 99.7− − rule)可知:

我們有68%的信心可以確定µ 落在區間 ( , )S S

X Xn n

− + 內;

我們有95%的信心可以確定µ 落在區間 ( 1.96 , 1.96 )S S

X Xn n

− ⋅ + ⋅ 內;

我們有99.7%的信心可以確定µ 落在區間 ( 3 , 3 )S S

X Xn n

− ⋅ + ⋅ 內;

Page 7: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 7

5. 信賴區間與信心水準的意義:

一個參數的 95%信賴區間有兩個部份:

一個是由數據計算出來的區間;當然所有樣本中的 95%會包含真正母體參數

的區間。

而 95%的信心水準是指不斷重複抽樣時,區間會抓到真正參數值的機率為

95%。

一般來說,在信心水準和區間寬度之間,沒辦法做到兩全其美。如果要從同

一個樣本要求較高的信心水準,我們就必須接受較大的誤差界限(較寬的區

間)。樣本變大,信賴區間就會變窄。如果我們想要提高信心水準,同時又

想要較窄的區間,就必須取更大量的樣本。樣本大小增加時,樣本統計量的

精確度也增加。也就是說,抽樣分布的標準差變小了。那就表示如果信心水

準固定,則樣本越大,信賴區間越短。事實上, p 的信賴區間長度,隨著樣

本的平方根成比例的下降。要把區間的長度縮成一半,觀測數目就應該是原

來的 4倍。

我們常於報章雜誌中,讀到如:「過去一年中,高達 45%的民眾因為治安的

關係而害怕在夜晚出門。調查於 4月 19日至 4月 20日進行,成功訪問 1068

位成年民眾,在 95%的信心水準下,抽樣誤差在正負 3 個百分點之內」,而

這句話的意義到底是要怎麼解讀呢?以下,我們將一一為你解答。

(1) 上述的 45%為此次抽樣的比例,我們稱它為統計數,常用符號 p̂ 表示。

當然這是樣本比例( sample proportion )。即( )

ˆ( )

n Ap

n Sample= 。而我們想知道的

是母體的真正比例 p,我們稱描述母體的數為參數(Population parameter)。

而我們知道樣本的結果「大約是 45%」通常不會和母體的比例一樣,於是我

們用信賴區間將這個「大約」具體化。

(2) 「抽樣誤差在正負 3 個百分點之內」:

即真正的比例 p 會介於 0.42到 0.48之間,我們用區間符號[0.42,0.48]表示,

Page 8: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 8

在統計學上我們將此區間稱為信賴區間。

Note :

開區間: { }( , ) |a b x a x b= < < (open interval)

閉區間: { }[ , ] |a b x a x b= ≤ ≤ (closed interval)

(3) 參數和統計量:

參數是描述母體的數字,比如說母體中擁有某個我們感興趣的特質之比例是

一個參數,我們稱為 p 。在一個統計推論的問題裡面,母體參數是固定的數

字,但是我們不知道它的值。

統計量是描述樣本資料的數字。舉例說,樣本中某個我們感興趣的特質比例

是統計量,稱為 p̂ 。統計量的值隨樣本而變。我們用統計量的值來取得關於

未知參數的資訊。

(4)「95%的信心水準」:

在調查中,母體真正的比例通常都是未知的,而抽樣是一種估計值,因此一

定會有誤差。亦即真正的比例不一定會在我們所說的信賴區間內,而 95%的

信心水準是說:如果我們多次抽樣,每次會得到一個信賴區間,則這些區間

大約會有 95%的區間會包含母體參數 p。當然 95%信賴區間是從不斷抽取的

樣本數據計算出來的一個區間保證在所有樣本當中,有 95%會把真正的母體

參數包含在區間中。底下我們會在對此信心水準作進一步說明。

(5) 樣本比例的抽樣分布:

一個統計量的抽樣分布是指同一個母體所抽出,同樣大小的簡單隨機樣本,

其統計量的值的分布。從一個成功比例為 p 的很大母體,抽取一個大小為 n的

簡單隨機樣本。用 p̂ 表示成功的樣本比例。則當樣本夠大時:

p̂ 值的分布會很接近以 p 為中心點的近似常態分布;

抽樣分布的平均數和 p 相等;即 ˆ( )E p p= ;

Page 9: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 9

抽樣分布的標準差是(1 )

ˆ( )p p

Var pn

−= 。

6. 二項分配(Binomial Distribution):

(1) 伯努利試驗(Bernoulli Trial):

如果一個試驗,只有成功及失敗兩種情形,則稱其為伯努利試驗。若成功的

機率為 p ,失敗的機率為 1q p= − ,伯努利試驗的機率密度函數為

1( )

0 1

pf x

q p

→= → = −

其數學期望值為 ( ) 1 0E X p q p= ⋅ + ⋅ = ,

變異數(方差)為

2 2( ) [ ( )] ( ) [ ( )] (1 )Var X E X E X E X E X p p p p pq= − = − = − = − =

(2) 二項分配的意義如果重複 n次相互獨立的伯努利試驗,則稱此試驗為二

項分配。

(3) 二項分配的性質:

將成功機率為 p 的伯努利試驗,互相獨立的重複 n次,若以 X 表 n次中成功

的次數,當 n夠大時, X 的次數分布會近似於常態分布,且:

期望值為 ( )E X np= ;

標準差為 (1 )np pσ = − 。【證明留到數學(I)的 Sec1-2】

(4) 我們的調查如果是二分的,例如喜歡或不喜歡、滿意或不滿意等等,這

就是一種伯努利試驗,如果調查的次數為 n次,就形成了所謂的二項分配。

若 n的次數夠多,由上述性質可知,其成功(我們關注的事項)的次數就會

近似常態分配,因此,我們可以藉由常態分配來推估我們的抽樣分配。

(5) 在一個二項分配的抽樣中,母體的成功比例為 p(成功的機率),樣本成

功比例為 p̂ ,抽樣的大小(次數)為 n,若 n夠大,則:

成功次數的分布近似於常態分配。

成功次數的平均數 ( )E X np= 為常態分配的平均數。

Page 10: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 10

成功次數的標準差為 (1 )np pσ = − 為常態分配的標準差。

由常態分配可知,樣本成功的次數 ˆnp落在平均數 np左右 1.96個標準差

的機率為95%,即:

ˆ| | 1.96 (1 )np np np p− ≤ −

兩邊同除以 n,可得:

(1 )

ˆ| | 1.96p p

p pn

−− ≤

(1 )

ˆ| | 1.96p p

p pn

−⇒ − ≤

(1 ) (1 )

ˆ ˆ1.96 1.96p p p p

p p pn n

− −⇒ − ≤ ≤ +

其意義表示,大約有95%的機會,(1 ) (1 )

ˆ ˆ[ 1.96 , 1.96 ]p p p p

p pn n

− −− + 會包

含 p 值。事實上母體的真正平均數 p 是未知的,但當樣本數 n很大的時候, p̂

和 p 相當接近,因此,未知的 p 值可以用 p̂ 值來估計。參數 p 的一個近似 95%

信賴區間為ˆ ˆ ˆ ˆ(1 ) (1 )

ˆ ˆ[ 1.96 , 1.96 ]p p p p

p pn n

− −− + 。而(1 )

1.96p p

n

−又稱為區

間半徑。

(6) 95%的信賴區間:

母體比例的 95%信賴區間有我們熟悉的形式:

估計值± 誤差界限

在一個大母體中,其成員擁有某項特質的比例為 p ,若從母體中隨機抽出 n

個樣本( n要夠大),樣本中擁有此特質的比例為 p̂ ,則區間:

ˆ ˆ ˆ ˆ(1 ) (1 )ˆ ˆ[ 1.96 , 1.96 ]

p p p pp p

n n

− −− + 稱為 p 的一個「95%的信賴區間」,或

稱為「在95%信心水準下的信賴區間」。

(7) 在 95%的信心水準之下,抽樣誤差在 3%± 以內,為什麼要抽 1068人?

pf :

Page 11: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 11

2 21 1 1ˆ ˆ ˆ ˆ ˆ(1 ) ( )

2 4 4p p p p p− = − + = − − + ≤∵

ˆ ˆ(1 ) 11.96 1.96 3%

4

p p

n n

−∴ ≤ =

2 22

2

1.96 1.960.03 1067.1 1068

4 4 0.03n

n⇒ = ⇒ = = ≈

×

Note:

在上例中:「過去一年中,高達45%的民眾因為治安不好的關係而害怕在夜

晚出門。調查於 4 月 19日至 4 月 20日進行,成功訪問 1068位成年民眾,

在95%的信心水準下,抽樣誤差在正負 3 個百分點之內」。有些時候,有人

會將95%的信心水準解讀成如下機率:

有95%的機率,國內民眾因為害怕治安不好而害怕在夜晚出門的比例介於

42%到48%之間。即母體參數落在42%到48%之間的機率為95%。這句話

是不正確的。因為母體的參數雖不知道,但一定是定值,且此定值只有兩種

可能:一是其值落在42%到48%之間,或是不在42%到48%之間。也就是

不是全對,就是全錯,不會有時對有時錯的情形。

事實上,95%的信心水準應如下解讀:

如果我們重複進行抽樣,當然重複抽樣的結果是不同的。而我們只能確認,

Page 12: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 12

在所有的樣本中,有95%的區間會涵蓋真正的母體參數 p ,有5%不會。上

圖是從問題的背後去探討。鉛直線代表母體比例的真正值 p。圖上方的常態

曲線是樣本的統計量 p̂ 的抽樣分布,中心點就在真正的 p 的位置。為什麼我

們說這是從問題的背後探討?因為在真實世界做統計時,我們是不知道 p 值

的。我們重複進行了 21次抽樣,從 21個簡單隨機樣本中所得到的 95%信賴

區間,一個接一個畫在常態曲線的下方。區間中的圓點代表 p̂ 值,位於區間

的正中央。圓點兩邊的箭頭一直延伸到區間的兩端。長期下來,除了一次以

外,其餘區間都涵蓋了母體參數 p 。因此我們不能期望 21個區間中,恰有

95%抓到真正的參數值。

如果不停的重複抽樣,就會有95%的區間包含母體參數 p。但現實上我們只

作了一次抽樣,我們不知道這組區間是屬於95%包含的那組,還是5%不包

含的那組。因此我們只能說我們有95%的「信心」這個信賴區間包含參數 p。

7. 信賴區間的實際操作:

全班 40人,每人丟 50次硬幣測正面的個數,得到 40個正面比率 1p̂ 、 2p̂ 、…、

40p̂ 。

代入95%信心水準的信賴區間公式:

ˆ ˆ ˆ ˆ(1 ) (1 )ˆ ˆ1.96 , 1.96

50 50i i i i

i i

p p p pp p

− −− +

,則可預估約有 38個信賴區間會

包含真正的正面機率;

Page 13: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 13

由上圖可看出:若提高信心水準,則信賴區間的長度必須增長,但抽樣誤差

也會提高,此時可以增加丟硬幣的次數。

8. 大數法則:

從一母體隨機抽出 n個樣本,則當 n 很大時,樣本平均數會很接近母體平均

數。

(1) 柴比雪夫不等式:

設隨機變數 X 的期望值為 ( )E X ,方差為 ( )Var X ,則對任意正數ε ,不等式

2

( )[| ( ) | ]

Var XP X E X ε

ε− ≥ ≤ 恆成立。

(2) 柴比雪夫定理:

設隨機變數 1X 、 2X 、…、 nX 互相獨立,且期望值均為 µ ,方差均為 2σ ,

則對任意正數ε ,恆有:1

1lim [| | ] 1

n

in

i

P Xn

µ ε→∞ =

− < =∑

(3) 伯努力定理:

設 p 是事件 A在每次試驗中發生的機率,1

1 n

ii

Xn =∑ 是n 次重複獨立試驗中事件

A發生的機率,則對任意正數ε ,恆有:1

1lim [| | ] 1

n

in

i

P X pn

ε→∞ =

− < =∑ 。

Page 14: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 14

精選範例精選範例精選範例精選範例

1. 某校高三學生在一次考試中,成績呈常態分配,且已知其分數之平均數為

70分,標準差為 10分。若從這次考試的學生中,隨機抽取一位學生,則這

位學生的成績低於 60分的機率最接近以下那一個選項?

(1) 0.16 (2) 0.32 (3) 0.34 (4) 0.68 (5) 0.85

【99指定科目考試】

2. 某次數學小考成績的算術平均數 72,標準差 12,假設考試分數之分布為常

態分配,且全校該年級人數為 240人,試求:

(1) 全校超過 60分者有____人;

(2) 某生考 96分,則此生成績在班上之排名為____。(此兩格以整數表示)

202,6

3. 某校高一數學測驗, X 表示 1000位參加考試的同學的個人成績,已知平均

分數為 40X = 分,標準差 5XS = 分,該校數學老師認為因題目過難而使成績

普遍不佳,將每為同學的成績依下列方法作調整: 10[ 7]X

X XY

S

−= + ,下列

敘述何者正確?

(A)新成績的平均分數為 60Y = 分

(B)新成績的標準差 5YS = 分

Page 15: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 15

(C)新成績的標準差 10YS = 分

(D)原始成績為35分的同學,經調整分數後即可達到及格分數60分

(E)若此次測驗的分佈為常態分配,經調整分數後可達及格分數60的人數

超過800人

4. 若某校 1000位學生的數學段考成績平均分數是 65.24分,樣本標準差是 5.24

分,而且已知成績分布呈現常態分配,試問全校約有多少人數學成績低於

60分?

(A)約 80 人 (B)約 160人 (C)約 240人 (D)約 320人 (E)約

400人

5. 已知本校 1000位高二同學的數學科第二次段考成績呈常態分布,算術平均

數為 50分,標準差為 10分,則大約有多少同學的成績介於 40到 70分之間?

(A)520人 (B)680人 (C)815人 (D)950人 (E)997人

6. 下圖是根據 100 名婦女的體重所作出的直方圖(圖中百分比數字代表各體重

區間的相對次數,其中各區間不包含左端點而包含右端點)。該 100 名婦女

體重的平均數為 55公斤,標準差為 12.5公斤。曲線 N 代表一常態分布,其

平均數與標準差與樣本值相同。在此樣本中,若定義『體重過重』的標準為

體重超過樣本平均數 2 個標準差以上(即體重超過 80 公斤以上),則下列敘

述哪些正確?

(A)曲線 N(常態分布)中,在 55公斤以上所佔的比例為 50%

(B)曲線 N(常態分布)中,在 80公斤以上所佔的比例為 2.5%

Page 16: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 16

(C)該樣本中,體重的中位數大於 55公斤

(D)該樣本中,體重的第一四分位數大於 45公斤

(E)該樣本中,「體重過重」(體重超過 80公斤)的比例大於或等於 5%

【95學科能力測驗】

7. 95%信賴區間為何?

(A) 保證有 95%的樣本是正確的

(B) 95%的樣本會把真正的母體參數包含在區間內

(C) 95%的意見調查是值得信賴的

(D) 以上皆正確

答案: (B)

8. 當信賴區間變短時,則下列何者正確?

(A)信心水準變大

Page 17: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 17

(B)信心水準變小

(C)信心水準不變

(D)無法判斷

答案: (B)

解析: 信賴區間變短,曲線下面積變小,所以信心水準變小.

9. 在 95%的信心水準之下,當樣本數變大時,則下列何者正確?

(A)信賴區間變大

(B)信賴區間變小

(C)信賴區間不變

(D)無法判斷

答案: (B)

解析: ∵ � (1 )1.96

p pp p

n

− − ≤ × , ∴當 n變大,則區間變小.

10. 隨機抽樣 100位剛配眼鏡的同學,其中有 81位選擇安全鏡片,則所有新配

眼鏡者選擇安全鏡片比例的 95%信賴區間為______。

11. 隨機抽樣 300次飛航紀錄,有 74%是準時到達的.則所有準時到達的比例的

95%信賴區間為______;誤點的班次比例的 95%信賴區間為______。

12. 設大學管理學院研究所畢業生的起薪為一常態分配,若起薪的平均數和標準

差未知,但已知起薪在 28000 元以下的人占 16%,在 43000 元以上的占

2.5%,則此分配的平均數為______,標準差為______。

13. 過去資料顯示P 之值為 0.2。為達到 95%的信心水準樣本比例在母體比例的

0.02± 內,樣本數應為______。

14. 根據民意調查,「你是否會投票給甲候選人?」假如我們相信有 36%的人將

回答「是」,則在 95%的信心水準下,若抽樣誤差為± 0.1,需抽______人;

若抽樣誤差為± 0.04,需抽______人;若抽樣誤差為± 0.06,需抽______人;

所以一般當抽樣誤差降低時,樣本大小會變______。

Page 18: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 18

15. 隨機抽取 300位民眾做市場調查,想了解民眾對於升學教育制度的滿意,發

現覺得滿意的人有 75位,請問實際上對於教育制度滿意的比例值 95%信賴

區間為何?

16. 國一學生 30萬人,智商測驗的結果是「平均數 100,標準差 15」的常態分

配。若以智商 130以上做為甄選國一學生為資優生的門檻,則根據這次測驗

的結果判斷下列選項中的敘述,那些是正確的?

(A) 約有 5%的國一學生通過資優生的甄選門檻

(B) 約有 15萬名國一學生的智商在 100以上

(C) 超過 20萬名國一學生智商介於 85至 115之間

(D) 隨機抽出 1000名國一學生,可期望有 25名資優生

(E) 如果某偏遠學校只有 14名的國一學生,那麼該校不會有資優生

【98指定科目考試】

17. 想要了解台灣的公民對某議題支持的程度所作的抽樣調查,依性別區分,所

得結果如下表:

女性公民 男性公民

贊成此議題的比例 p̂ 0.52 0.59

p̂ 的標準差ˆ ˆ(1 )p p

n

− 0.02 0.04

請問從此次抽樣結果可以得到下列那些推論?

(1) 全台灣男性公民贊成此議題的比例大於女性公民贊成此議題的比例

(2) 在 95%的信心水準之下,全台灣女性公民贊成此議題之比例的信賴區間

為[0.48,0.56]

(3) 此次抽樣的女性公民數少於男性公民數

(4) 如果不區分性別,此次抽樣贊成此議題的比例 p̂ 介於0.52與0.59之間

Page 19: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 19

(5) 如果不區分性別,此次抽樣 p̂ 的標準差ˆ ˆ(1 )p p

n

−介於0.52與0.59之間

【99學科能力測驗】

18. 某縣市教育局欲瞭解高中生參加課外活動社團的意願,開學日隨機調查高

一、高二、高三學生各 1067名,詢問本學期是否要參加課外活動社團。已

知該縣市的高一、高二、高三學生人數幾乎一樣多,各年級學生調查如下圖:

試問下列選項中的敘述,哪些是正確的?

(A) 學生要參加課外活動社團之比例隨年級增加而遞減

(B) 由上述資訊可以估算全體學生要參加課外活動社團的比例

(C) 在 95%的信心水準下,每一個年級學生要參加課外活動的比例的信賴區

間,都可以由題目中已知的數據算出

(D) 在 95%的信心水準下,三個年級的調查結果,以高一學生要參加課外活

動社團的比例的信賴區間最長

(E) 在 95%的信心水準下,三個年級的調查結果,以高三學生要參加課外活

動社團的比例的信賴區間最短

【98指定科目考試】

19. 某廠商委託民調機構在甲、乙兩地調查聽過某項產品的居民佔當地居民之百

分比(以下簡稱為「知名度」)。結果如下:在95% 信心水準之下,該產品在

甲、乙兩地的知名度之信賴區間分別為 [ 0.50 , 0.58 ]、[ 0.08 , 0.16 ]。試問

下列哪些選項是正確的?

Page 20: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 20

(A) 本次的參訪者中,54% 的人聽過該產品

(B) 此次民調在乙地的參訪人數少於在甲地的參訪人數

(C) 此次調查結果可解讀為:甲地全體居民中有一半以上的人聽過該產品的

機率大於95%

(D) 若在乙地以同樣方式進行多次民調,所得知名度有95% 的機會落在區間

[ 0.08 , 0.16 ]

(E)經密集廣告宣傳後,在乙地再次進行民調,並增加參訪人數達原人數的

四倍,則在 95% 信心水準之下該產品的知名度之信賴區間寬度會減半(即

0.04)

【98學科能力測驗】

20. 老師在籤筒內放 10 支籤,其中有 6 支是中獎籤分給忠班 40 位同學,孝班

40位同學來抽,忠班每人抽 1n 次,孝班每人抽 2n 次,每人算出中獎比例後,

忠班依 %a 信心水準作信賴區間如圖(一),孝班依 %b 信心水準作信賴區間如

圖(二),則下列選項何者為真?

(A) 很有可能 % %a b≤

(B) 很有可能 % %a b≥

(C) 很有可能 1 2n n≤

(D) 很有可能 1 2n n≥ (A)(D)

Page 21: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 21

HOMEWORK

1. 對某社區 1000位居民的睡眠時數進行調查,發現居民的睡眠時數分配

近似常態分配,且平均睡眠時間為 6.5小時,標準差為 1.5小時,根據

68–95–99.7規則,有______人每天睡不到 5小時。166

2. 已知某校 3000位同學的體重呈常態分配,且平均體重為 57公斤,標準

差為 7公斤,則該校學生中,體重介於 50公斤與 71公斤之間的學生,

約有______人。(四捨五入取整數) 2445

3. 根據數學 SAT考試規定,該項測驗的總分如果超過 800分,一律以 800

分記錄。已知今年 SAT考試呈現常態分布,其平均 560,標準差 120。

試求:約有多少比例的考生會收到 800分的成績單?2.5%

4. 臺北市高三學生的第一次聯合模擬考的數學成績呈常態分配,已知平均

分數為 45分,且有 30%的同學分數介於 40分到 55分之間,試問有百

分之多少的同學分數介於 35分與 50分之間?

(A)25% (B)30% (C)35% (D)40% (E)50%

答案: (B)

解析: 設 t表學生分數,∵常態分配對稱直線 45x = ,

∴ (40 55) (35 50) 30%P t P t≤ ≤ = ≤ ≤ = .

常態分布中

與 相等.

5. 在常態分配中,下列敘述何者為真?

Page 22: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 22

(A)平均數和中位數相等 (B)曲線為一對稱圖形 (C)眾數和平均數相

異 (D)在 x 軸上任取一點,然後加上一個標準差,則在此兩點之間的

區域占 34% (E)曲線下的面積為 1

答案: (A)(B)(E)

6. 常態分配中,下列敘述何者為真?

(A)標準差變大,曲線會加寬

(B)標準差變大,曲線會變窄

(C)標準差變小,曲線會加寬

(D)標準差變小,曲線會變窄

(E)曲線的最高點的 x坐標就是算術平均數

答案: (A)(D)(E)

7. 已知本校 3000位同學的身高呈常態分布,算術平均數為 175公分,標

準差為 4公分,則下列敘述何者為真?

(A)183公分以上的同學約有 75人

(B)不到 163公分的同學約有 5人

(C)介於 175公分到 179公分的同學約有 1020人

(D)介於 171公分到 183公分的同學約有 2445人

(E)小明身高為 187公分,約有 5位同學比他高

8. 針對臺灣地區的詐騙電話做調查後發現:「有 95%的信心認為約有 70%

到 76%的人曾接過詐騙電話」

(1)此次調查約抽樣多少人?

(2)樣本中曾接過詐騙電話的約有多少人?

9. 臺北銀行委託民調公司調查發現:「約有 65%的臺灣地區民眾在過去一

年中曾購買過樂透彩券,且有 95%的信心認為其誤差在正負 2.5個百分

點之內。」試計算:

(1)民調公司抽查的樣本約為多少人?

Page 23: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 23

(2)樣本中曾購買過樂透彩券的約有多少人?

(3)我們可以有 95%的信心認為曾購買過樂透彩券的民眾比例在多少到

多少之間?1400,910,[65.2%,67.5%]

10. 在 95%的信心水準之下,當 p̂ p− 區間減小為原來的1

4,則樣本大小 n有

何變化?

(A)變大 4 倍 (B)變大 8 倍 (C)變大 16倍 (D)減半 (E)減為1

4

答案: (C)

解析: 設 ℓ表 p̂ p− 的區間長度,

則(1 )

2 1.96p p

n

−= × ×ℓ

2 2 (1 )(2 1.96)

p p

n

−⇒ = × ×ℓ

22

(1 )(2 1.96)

p pn

−⇒ = × ×

ℓ,

則2

22 2

(1 ) 4 1.96 (1 )(2 1.96) 16 16

14

p p p pn n

− × −′ = × ⋅ = =

ℓℓ

.

11. 在同樣的信心水準之下,當 p̂ p− 增大為原來的 2 倍,則樣本大小 n有

何變化?

(A)變大 2 倍 (B)變大 4 倍 (C)不變 (D)減半 (E)減為1

4

答案: (E)

解析: 設 ℓ表 p̂ p− 的區間長度,

則(1 )

2 1.96p p

n

−= × ×ℓ

2 2 (1 )(2 1.96)

p p

n

−⇒ = × ×ℓ

22

(1 )(2 1.96)

p pn

−⇒ = × ×

ℓ.

設 2′ =ℓ ℓ

Page 24: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 24

則 2 22 2

(1 ) (1 )(2 1.96) 4 (2 1.96)

(2 )

p p p pn n n

− −′ ′= × × ⇒ = × × =ℓ ℓ

.

4

nn′⇒ =

12. 下列哪些選項可以使信賴區間變小?

(A)增加抽取的樣本數

(B)減少抽取的樣本數

(C)提高信心水準

(D)降低信心水準

(E)將資料平移

答案: (A)(D)

解析:

�∵ � (1 )p pp p t

n

− − ≤ ⋅ ,

∴當 n增加,則區間變小.

�在常態分配曲線中, x軸所取區間愈小,則曲線下面積愈小,因此信心

水準愈小

13. 下列敘述何者為真?

(A)欲使信賴區間有效,需使用簡單隨機抽樣

(B)欲使信賴區間有效,樣本需使用常態分配

(C)常態分配曲線只有一種

(D)常態分配曲線是對稱的

(E)常態分配曲線是連續的

答案: (A)(B)(D)(E)

14. 已知某食品公司生產之蜜餞的包裝內容量為常態分配,而每包均標示

500 10± 克,其中 500克為算術平均數,10克為標準差,則消費者買到

超過 520克之蜜餞機率為______%。2.5%

Page 25: Sec 3-6 信賴區間與信心水準的解讀

B4 Ch3 機率與統計 (I) 25

15. 已知 X 為一具有平均數 1000與標準差 200的常態分配,則 X 介於 600

與 1200之間的機率為______。81.5%

16. 廣告中,可以持續使用 5000小時的省電燈泡為一具有平均數 5200小時

與標準差 200小時的常態分配,則一個燈泡的壽命超過廣告數據的機率

為______。85%

17. 乘坐計程車從士林到中和有兩條路可走;第一條的路程較短,但交通擁

塞,所需時間為一平均數 50分鐘,標準差為 10分鐘之常態分配;第二

條路線的路程較長,但交通較順暢,所需時間為一平均數 65分鐘,標

準差為 5 分鐘的常態分配。如果你有 70分鐘的時間可以利用,則應走

哪一條路線較為有利?一

18. 假設某工廠生產之產品重量呈現常態分配,且得知產品重量之標準差為

5公克,今隨機抽取 64件產品檢查,發現其平均重量為 60公克,則此

產品平均重量之 95%信賴區間為______。[50,70]

19. 假設有 5000位民眾受訪喜不喜歡運動,其中有 2000人表示喜歡,其餘

則否,試求喜愛運動者的 95%信賴區間。[0.3864,0.4136]

20. 某大學醫學系的教授研究過緊的領帶對流至腦中的血液的影響,以及是

否可能降低大腦對視覺的反應能力。商業週刊的樣本顯示其中 80%的人

領帶繫得太緊。假設此樣本為 100位上班族,則領帶過緊的母體的 95%

信賴區間的估計值為何?[0.7216,0.8784]