1 slide slide 第 3 章 敘述統計 ii :數值方法. 2 slide slide 敘述統計 ii...

99
1 1 第 3 第 第第第第 II 第第第第

Post on 20-Dec-2015

241 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

11 11 SlideSlide

SlideSlide

第 3 章

敘述統計 II :數值方法

Page 2: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

22 22 SlideSlide

SlideSlide

敘述統計 II :數值方法Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值 的偵測

3.4 探究性資料分析 3.5 兩變數的相關性量數 3.6 加權平均數與群組資料的處理

Page 3: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

33 33 SlideSlide

SlideSlide

3.1 位置量數

測量值是由樣本資料計算測量值是由樣本資料計算而得,則稱之為樣本統計量而得,則稱之為樣本統計量

(sample statistics)(sample statistics) 。。

若是由整個母體計算而得,若是由整個母體計算而得,則稱之為母體參數則稱之為母體參數

(population parameters)(population parameters) 。。

統計推論中,樣本統計量是指統計推論中,樣本統計量是指相對應的母體參數的相對應的母體參數的

點估計量點估計量 (point estimator)(point estimator) 。。

平均數 中位數 眾數 百分位數 四分位數

Page 4: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

44 44 SlideSlide

SlideSlide

平均數 一個變數最重要的位置量數或許是平均數 (mean 或 average value) 。

若此資料來自某一母體,則以希臘字母 μ 表示之。

若此資料來自某一樣本,則樣本平均數記為 x 。 平均數是一種中央位置量數。

Page 5: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

55 55 SlideSlide

SlideSlide

觀察值的樣本數觀察值的樣本數觀察值的樣本數觀察值的樣本數

資料集中 資料集中 nn 個觀察值個觀察值的總和的總和

資料集中 資料集中 nn 個觀察值個觀察值的總和的總和

ixx

n ix

xn

樣本平均數 x

Page 6: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

66 66 SlideSlide

SlideSlide

母體所有元素的個數母體所有元素的個數母體所有元素的個數母體所有元素的個數

資料集中 資料集中 N N 個觀察值個觀察值的總和的總和

資料集中 資料集中 N N 個觀察值個觀察值的總和的總和

ix

N

ix

N

母體平均數

Page 7: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

77 77 SlideSlide

SlideSlide

平均數實例 假設某大學的就業輔導室寄出一份問卷給被抽中的商學院畢業生,以調查工作起薪。

表 3.1 為所蒐集的資料。

Page 8: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

88 88 SlideSlide

SlideSlide

平均數實例 樣本中 12 個商學院畢業生之平均起薪計算如下。

294012

3528012

28802950285012

1221

xxx

n

xx i

Page 9: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

99 99 SlideSlide

SlideSlide

中位數

• 將資料值由小排到大時,中位數為中間的那一個值。

• 根據傳統的中位數定義,將中間兩個值之平均數當作中位數。

• 若資料個數為奇數時,中位數即位於中間的數值;若資料項目為偶數時,就沒有單一的中間項。

• 中位數 (median) 是變數的另一種中央位置量數。

Page 10: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

1010 1010 SlideSlide

SlideSlide

中位數 將資料遞增排列 ( 即由小到大排列 )

a) 資料值為奇數項時,中位數為此資料之中間值。b) 資料值為偶數項時,中位數為此資料之中間兩個數值

的平均數。

Page 11: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

1111 1111 SlideSlide

SlideSlide

中位數實例 計算表 3.1 商學院 12 位畢業生起薪的中位數 將資料遞增排列後如下

因為 n= 12 是偶數,故有兩個中間值: 2,890和2,920 ,中位數為此兩個值之平均。

2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325

中間兩個值

29052

29202890 中位數

Page 12: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

1212 1212 SlideSlide

SlideSlide

眾數

• 眾數 (mode) 眾數是資料集中出現次數最多的資料值。

• 當資料集中出現次數最多的值有兩個或以上時,眾數就不只一個。

• 若資料集恰有兩個眾數,則稱此資料為雙峰(bimodal) 。

• 若出現兩個以上的眾數時,則稱為多峰(multimodal) 。

Page 13: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

1313 1313 SlideSlide

SlideSlide

眾數實例表 2.2 的清涼飲料購買狀況調查整理成如下的次數分配。

眾數,即最常購買的清涼飲料,是 Coke Classic 。

第 3 章敘述統計 II :數值方法 Part A 第 81-82 頁

Page 14: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

1414 1414 SlideSlide

SlideSlide

百分位數

• 百分位數 (percentile) 也是一種位置量數,有助於瞭解資料在最小值與最大值間的分布情況。

• 針對那些沒有太多重複的資料集而言, p- 百分位數可將資料分割成兩部分,大約 p- 百分比的觀察值會小於 p- 百分位數;而大約有 (100- p) 百分比的觀察值會大於 p- 百分位數。

第 3 章敘述統計 II :數值方法 第 82 頁

Page 15: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

1515 1515 SlideSlide

SlideSlide

百分位數 p- 百分位數表示至少有 p- 百分比 ( 百分之 p) 的觀察值小於或等於它,而至少有 (100- p) 百分比的觀察值大於或等於它。

Page 16: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

1616 1616 SlideSlide

SlideSlide

將資料遞增排列,即由小到大排序。將資料遞增排列,即由小到大排序。

計算指標計算指標 ii

pp 為百分位,為百分位, nn 為觀察值的個數。為觀察值的個數。

ii = ( = (pp/100)/100)nn

若 若 ii 不是整數,無條件進位後的整數即 不是整數,無條件進位後的整數即 pp-- 百分位數百分位數的位置。的位置。

若若 ii 是整數,則是整數,則 pp-- 百分位數為資料排序後的第百分位數為資料排序後的第 i i 個與個與第第 ii++ 1 1 個觀察值之平均數。個觀察值之平均數。

百分位數

Page 17: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

1717 1717 SlideSlide

SlideSlide

百分位數實例 求表 3.1 起薪資料的 85- 百分位數。

步驟 1. 將資料集的所有資料由小到大排序。2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325

步驟 2.

步驟 3. 因為 i 不為整數,無條件進位為 11 ,即 85- 百分位數的位置指標。因此, 85 百分位數排在第 11 位。

2.1012100

85

100

n

Pi

Page 18: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

1818 1818 SlideSlide

SlideSlide

百分位數實例 再看看 50- 百分位數的計算過程,由步驟 2 得知

因為 i 是整數,步驟 3(b) 指出 50- 百分位數為排序資料的第 6 個與第 7 個數值的平均數;因此, 50- 百分位數為 (2890+ 2920)/2= 2905 。要注意的是,此處的 50- 百分位數也是中位數。

61210050

100

n

Pi

第 3 章敘述統計 II :數值方法 第 83 頁

Page 19: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

1919 1919 SlideSlide

SlideSlide

四分位數

• 四分位數 (quartiles) 是百分位數的特例。• Q1 = 第一四分位數或 25- 百分位數• Q2 = 第二四分位數或 50- 百分位數 ( 即中位數 )

• Q3 = 第三四分位數或 75- 百分位數

第 3 章敘述統計 II :數值方法 第 83 頁

Page 20: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

2020 2020 SlideSlide

SlideSlide

四分位數

第 3 章敘述統計 II :數值方法 第 83 頁 圖 3.1

Page 21: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

2121 2121 SlideSlide

SlideSlide

四分位數實例 將起薪資料再次重新由小到大排序後,第二四分位數 ( 即中位數 )為 2905 。2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325

我們需利用找出 25與 75- 百分位數的規則來得到第一四分位數 Q1與第三四分位數 Q3,計算如下。

第 3 章敘述統計 II :數值方法 Part A (3.1~3.2) 第 83 頁

Page 22: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

2222 2222 SlideSlide

SlideSlide

四分位數實例對 Q1而言:

因為 i 是整數,步驟 3(b) 指出第一四分位數,或25- 百分位數,為第 3 個與第 4 個資料之平均數。因此, Q1 = (2850+ 2880)/2= 2865 。

31210025

100

n

Pi

Page 23: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

2323 2323 SlideSlide

SlideSlide

四分位數實例對 Q3而言:

因為 i 為整數,步驟 3(b) 指出第三四分位數,或75- 百分位數,為第 9 個與第 10 個資料之平均數,因此, Q3 = (2950+ 3050)/2= 3000 。

91210075

100

n

Pi

第 3 章敘述統計 II :數值方法 Part A (3.1~3.2) 第 84 頁

Page 24: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

2424 2424 SlideSlide

SlideSlide

四分位數實例 四分位數將 12 個資料分成四部分,而每一部分均包含 25% 的觀察值。

我們定義了 25- 百分位數、 50- 百分位數、 75- 百分位數等三個四分位數後,便可利用計算百分位數的規則求出四分位數。

第 3 章敘述統計 II :數值方法 第 84 頁

Page 25: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

2525 2525 SlideSlide

SlideSlide

3.2 離散量數

• 除了位置量數外,我們還常希望能知道離散量數或變異量數。

• 例如,選擇兩家不同的供應商訂貨,不僅要考慮其平均運送時間,還要考慮其運送時間的變異性。

第 3 章敘述統計 II :數值方法 第 88 頁

Page 26: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

2626 2626 SlideSlide

SlideSlide

3.2 離散量數

全距 四分位數距 變異數 標準差 變異係數

第 3 章敘述統計 II :數值方法 第 88-91 頁

Page 27: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

2727 2727 SlideSlide

SlideSlide

全距

• 最簡單的離散量數就是全距 (range) 。

• 全距 = 最大值 - 最小值

• 全距僅用到資料中的兩個值,因此深受極端值的影響。

第 3 章敘述統計 II :數值方法 第 88-89 頁

Page 28: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

2828 2828 SlideSlide

SlideSlide

全距實例 參考表 3.1 商學院畢業生的起薪資料,最大值是

3,325 ,最小值是 2,710 ,全距就是 3325- 2710= 615 。

假設有一位畢業生的每月起薪是 $10,000 ,此例中的全距變為 10000- 2710= 7290 而不是 615 ,這個值並不是非常適合描述資料集的變動性,因為 12 個資料中的 11 個資料均是在 2,710 與 3,130 之間。

第 3 章敘述統計 II :數值方法 第 89 頁

Page 29: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

2929 2929 SlideSlide

SlideSlide

四分位數距

• 四分位數距 (inter-quartile range, IQR) 這個離散量數是第三四分位數 Q3 與第一四分位數 Q1 的差。

• IQR = Q3 - Q1

• IQR 為中間 50% 資料的全距。

• 能克服極端資料值的離散量數。

第 3 章敘述統計 II :數值方法 第 89 頁

Page 30: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

3030 3030 SlideSlide

SlideSlide

四分位數距實例 參考表 3.1 商學院畢業生的起薪資料,對每月起薪資料而言,第三四分位數與第一四分位數分別為 Q3= 3000 與 Q1= 2865 ,因此, IQR 為 3000- 2865= 135 。

第 3 章敘述統計 II :數值方法 第 89 頁

Page 31: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

3131 3131 SlideSlide

SlideSlide

變異數變異數 (variance)(variance) 是利用到全部資料的離散量數。是利用到全部資料的離散量數。

變異數

變異數是根據每一個觀察值變異數是根據每一個觀察值 ( ( xxi i )) 與平均數之差而與平均數之差而求得。每一個觀察值 求得。每一個觀察值 xxii 與平均數與平均數 ((  為樣本平均 為樣本平均數,數, μμ 為母體平均數為母體平均數 )) 之差稱為之差稱為離差離差 (deviation (deviation about the mean)about the mean) 。。

xx

第 3 章敘述統計 II :數值方法 第 89 頁

Page 32: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

3232 3232 SlideSlide

SlideSlide

變異數之定義如下:變異數之定義如下:

當樣本平均數的差距平方和除以當樣本平均數的差距平方和除以 nn-- 11 ,而非,而非 nn時,此樣本變異數為母體變異數的不偏估計量時,此樣本變異數為母體變異數的不偏估計量

樣本變異數樣本變異數 母體變異數母體變異數

N

xi

22

)(

N

xi

22

)( s

xi x

n2

2

1

( )s

xi x

n2

2

1

( )

變異數

第 3 章敘述統計 II :數值方法 第 89-90 頁

Page 33: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

3333 3333 SlideSlide

SlideSlide

變異數實例 利用 3.1 節中 5 個大學班級人數的樣本為例。

46 54 42 46 32

資料的彙總在表 3.3 ,包括離差及離差的平方。離差平方的總和為 Σ( xi - )2 = 256 。因此,在n- 1= 4 時,樣本變異數為

644

256

1

)( 22

n

xxs

i 644

256

1

)( 22

n

xxs

i

第 3 章敘述統計 II :數值方法 第 90 頁

x

Page 34: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

3434 3434 SlideSlide

SlideSlide

變異數實例

第 3 章敘述統計 II :數值方法 第 90 頁 表 3.3

Page 35: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

3535 3535 SlideSlide

SlideSlide

變異數實例表 3.1 的起薪資料為例,說明樣本變異數的計算,在 3.1 節中,我們算出樣本平均起薪值為 2,940 。樣本變異數 (s2= 27,440.91) 的結果列於表 3.4 。

表 3.3與 3.4 中值得注意的是,我們算出離差與離差平方的總和。對於任何資料集,離差的總和必為 0 。因此,如同表 3.3 與表 3.4 顯示 Σ( xi - )

= 0 ,這是恆成立的,因為正的離差與負的離差會相互抵消,而使得離差的總和為 0 。

第 3 章敘述統計 II :數值方法 第 90 頁

x

Page 36: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

3636 3636 SlideSlide

SlideSlide

表 3.4 起薪資料樣本變異數的計算

第 3 章敘述統計 II :數值方法 第 91 頁 表 3.4

Page 37: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

3737 3737 SlideSlide

SlideSlide

標準差標準差 (standard deviation)(standard deviation) 的定義是變異數的的定義是變異數的正平方根。正平方根。

標準差比變異數容易解釋,因為標準差的標準差比變異數容易解釋,因為標準差的衡量衡量單位與資料相同單位與資料相同。。

標準差

第 3 章敘述統計 II :數值方法 第 91 頁

Page 38: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

3838 3838 SlideSlide

SlideSlide

由變異數得到標準差的方法如下。由變異數得到標準差的方法如下。

樣本標準差樣本標準差 母體標準差母體標準差

s s 2s s 2 2 2

標準差

第 3 章敘述統計 II :數值方法 第 91 頁

Page 39: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

3939 3939 SlideSlide

SlideSlide

標準差實例 以表 3.1 的起薪資料為例,樣本標準差為

s = = 165.65 。27440.91

第 3 章敘述統計 II :數值方法 第 91 頁

Page 40: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

4040 4040 SlideSlide

SlideSlide

變異係數計算如下:變異係數計算如下:

變異係數計算如下:變異係數計算如下:

變異係數

%100

平均數標準差

%100

平均數標準差

變異係數是變異性的相對衡量,它衡量標準差變異係數是變異性的相對衡量,它衡量標準差相對於平均值的大小。相對於平均值的大小。變異係數是變異性的相對衡量,它衡量標準差變異係數是變異性的相對衡量,它衡量標準差相對於平均值的大小。相對於平均值的大小。

第 3 章敘述統計 II :數值方法 第 91-92 頁

Page 41: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

4141 4141 SlideSlide

SlideSlide

變異係數實例 CV 是量測相對 ( 於期望值 ) 分散程度的量數,表示標準差佔期望值的百分比,通常小於 1

例 :( 起薪的資料 ) 樣本平均數 2940 與樣本標準差 165.65 ,

變異係數為

表示薪資的分散程度約為期望值的 5.6%

一般而言,欲比較具有不同的標準差與平均數的資料之離散程度時,變異係數是一個有用的統計量。

第 3 章敘述統計 II :數值方法 第 92 頁

%6.5(%)100940,2

65.165CV

Page 42: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

4242 4242 SlideSlide

SlideSlide

生活中的實例 設甲、乙兩班某次數學考試成績,甲班樣本平均數為 60 分,樣本標準差為 18 分,乙班樣本平均數為 65 分,樣本標準差為 13 分。則 甲班成績之變異係數為

乙班成績之變異係數為

所以乙班變異係數較小。

Page 43: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

4343 4343 SlideSlide

SlideSlide

3.3 分配的形狀的量數,相對位置,以及離群值的偵測

分配的形狀 z 分數柴比雪夫定理經驗法則 離群值的偵測

第 3 章敘述統計 II :數值方法 第 95-98 頁

Page 44: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

4444 4444 SlideSlide

SlideSlide

分配的形狀:偏度 (skewness)

• 一分配形狀的重要數值衡量則是偏度 (skewness)。

• 計算偏度的公式有些複雜。• 衡量樣本的偏度公式是:

• 但是若以統計軟體來計算,則是輕而易舉。

3

)2)(1(

sxx

nnn i偏度

第 3 章敘述統計 II :數值方法 第 95 頁

Page 45: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

4545 4545 SlideSlide

SlideSlide

分配的形狀:偏度 (skewness) 對稱 ( 不偏 )

偏度為 0 。 對稱分配的平均數及中位數是相等的。

第 3 章敘述統計 II :數值方法 第 95-96 頁 圖 3.3

Page 46: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

4646 4646 SlideSlide

SlideSlide

分配的形狀:偏度 (skewness) 適度左偏

偏度為負值。 平均數常小於中位數。

第 3 章敘述統計 II :數值方法 第 95-96 頁 圖 3.3

Page 47: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

4747 4747 SlideSlide

SlideSlide

分配的形狀:偏度 (skewness)

適度右偏 偏度是正值。 平均數通常大於中位數。

Page 48: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

4848 4848 SlideSlide

SlideSlide

分配的形狀:偏度 (skewness)高度右偏

偏度是正值。 (通常大於 1.0) 平均數通常大於中位數。

Page 49: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

4949 4949 SlideSlide

SlideSlide

zz 分數通常稱為分數通常稱為標準化值標準化值 (standardized value)(standardized value) 。。zz 分數通常稱為分數通常稱為標準化值標準化值 (standardized value)(standardized value) 。。

每個 每個 xxii 會有一個稱之為 會有一個稱之為 zz 分數分數 ((zz -score)-score) 的數值的數值與之對應。與之對應。每個 每個 xxii 會有一個稱之為 會有一個稱之為 zz 分數分數 ((zz -score)-score) 的數值的數值與之對應。與之對應。

zx x

sii

zx x

sii

z 分數

zz 分數是分數是每一個分數與平均數之差除以標準差每一個分數與平均數之差除以標準差,,可用來表示某一分數與平均數之距離為幾個標準差可用來表示某一分數與平均數之距離為幾個標準差zz 分數是分數是每一個分數與平均數之差除以標準差每一個分數與平均數之差除以標準差,,可用來表示某一分數與平均數之距離為幾個標準差可用來表示某一分數與平均數之距離為幾個標準差

Page 50: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

5050 5050 SlideSlide

SlideSlide

• 資料集小於樣本平均數則 z 分數小於 0 。• 資料集大於樣本平均數則 z 分數大於 0 。• 資料集等於樣本平均數則 z 分數等於 0 。

• 可表示該數值於分布中的相對位置。• 轉換過程稱為 Z 轉換 (Z-transformation)或標準化 (standardization)。

z 分數

Page 51: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

5151 5151 SlideSlide

SlideSlide

z 分數實例

表 3.5 是班級人數資料的 z 分數,之前算出平均數為 = 44 ,樣本標準差為 s= 8 。第 5 個觀察值的 z 分數為 - 1.50 ,是離平均數最遠的資料值,比平均數小 1.50 個標準差。

x

Page 52: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

5252 5252 SlideSlide

SlideSlide

柴比雪夫定理

在資料集內,至少有 在資料集內,至少有 (1(1-- 1/1/kk22) ) 百分比的觀察值百分比的觀察值與平均數的差距必須在 與平均數的差距必須在 k k 個標準差之內,個標準差之內, k k 為任為任何大於 何大於 1 1 之值。之值。

在資料集內,至少有 在資料集內,至少有 (1(1-- 1/1/kk22) ) 百分比的觀察值百分比的觀察值與平均數的差距必須在 與平均數的差距必須在 k k 個標準差之內,個標準差之內, k k 為任為任何大於 何大於 1 1 之值。之值。

Page 53: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

5353 5353 SlideSlide

SlideSlide

柴比雪夫 Chebyshev 定理 在任何的資料分配中,觀測值落於平均數左右 k個標準差的區間內之比例,至少為

2

11

k

)k

11(

2至少

ksx x ksx

Page 54: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

5454 5454 SlideSlide

SlideSlide

各種不同 k值之 Chebyshev定理的應用各種不同 k值之 Chebyshev定理的應用

k 區間 落於該區間內觀測值的比例

1

2

2.5

3

( , )x s x s

( 2 , 2 )x s x s

( 2.5 , 2.5 )x s x s

( 3 , 3 )x s x s

3( 75%)

4至少為 至少

21( 84%)

25至少為 至少

8( 89%)

9至少為 至少

柴比雪夫定理

至少為 0( 至少 0%)

Page 55: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

5555 5555 SlideSlide

SlideSlide

經驗法則針對鐘形分配的資料集而言:

大約 大約 68.26% 68.26% 的觀察值與平均數的差距在一個標準差內。的觀察值與平均數的差距在一個標準差內。大約 大約 68.26% 68.26% 的觀察值與平均數的差距在一個標準差內。的觀察值與平均數的差距在一個標準差內。

大約 大約 95.44% 95.44% 的觀察值與平均數的差距在二個標準差內。的觀察值與平均數的差距在二個標準差內。大約 大約 95.44% 95.44% 的觀察值與平均數的差距在二個標準差內。的觀察值與平均數的差距在二個標準差內。

大約 大約 99.72%(99.72%(幾乎所有的觀察值幾乎所有的觀察值 ))與平均數的差距在三個標準差內。與平均數的差距在三個標準差內。大約 大約 99.72%(99.72%(幾乎所有的觀察值幾乎所有的觀察值 ))與平均數的差距在三個標準差內。與平均數的差距在三個標準差內。

大約 大約 98.76% 98.76% 的觀察值與平均數的差距在的觀察值與平均數的差距在 2.52.5 個標準差內。個標準差內。大約 大約 98.76% 98.76% 的觀察值與平均數的差距在的觀察值與平均數的差距在 2.52.5 個標準差內。個標準差內。

大約 大約 86.64% 86.64% 的觀察值與平均數的差距在的觀察值與平均數的差距在 1.51.5 個標準差內。個標準差內。大約 大約 86.64% 86.64% 的觀察值與平均數的差距在的觀察值與平均數的差距在 1.51.5 個標準差內。個標準差內。

Page 56: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

5656 5656 SlideSlide

SlideSlide

經驗法則

xxm – 3s m – 1s

m – 2sm + 1s

m + 2sm + 3smm

68.26%

95.44%

99.72%

Page 57: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

5757 5757 SlideSlide

SlideSlide

柴比雪夫定理實例 若某學院商用統計課程有 100 位學生修課,期中考成績之平均數為 70 ,標準差為 5 。有多少學生的分數介於 60 與 80 之間?又有多少學生的分數介於 58 與 82 之間?

(1) 我們注意到 60 的值是小於平均數 2 個標準差,而 80 則是大於平均數 2 個標準差。利用柴比雪夫定理,我們可看出至少 0.75 或至少 75% 的觀察值與平均數的差距必須在兩個標準差之內。因此, 100 個學生至少有 75 人分數介於 60 與 80 之間。

Page 58: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

5858 5858 SlideSlide

SlideSlide

柴比雪夫定理實例(2) 而分數介於 58 與 82 的人數又是多少?我們可看出 (58- 70)/5=- 2.4 ,表示 58 是小於平均數 2.4 個標準差;而 (82- 70)/5=+ 2.4 ,表示 82 大於平均數 2.4 個標準差。利用柴比雪夫定理 z= 2.4 ,我們可得到

至少有 82.6% 的學生的分數必須介於 58與 82 。

Page 59: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

5959 5959 SlideSlide

SlideSlide

假定從一批產品隨機抽出 20 個量測其長度 ( 公分 ) ,記錄如下:1.8,1.9,2.0,2.1,2.3,2.4,2.5,2.5,2.5,2.7,2.8,2.9,3.0,3.2,3.2,3.3,3.7,3.8 試利用 Chebyshev 定理求出,有多少比例的觀測值落於 (1.495,3.835) 的區間內。

495.1

ksx 665.2

x

835.3

ksx

先求 mean & std再求 k 代入 Chebyshev 定理

2

585.0665.2835.3

585.0665.2495.1

k

k

k

實際上則有 13個觀測值當資料分配愈近似對稱分配,則經驗法則更精確。

實際上則有 20 個觀測值落於此區間

個即區間落於有

利用經驗法則

136.1320%68)25.3,08.2(%68

個即區間落於有

利用經驗法則

1920%95)835.3,495.1(%95

2 2

1 11 1 75%

2k

個即至少區間落於至少有

定理利用

1520%75)835.3,495.1(%75

Chebyshev

Page 60: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

6060 6060 SlideSlide

SlideSlide

隨堂練習 某學期統計學期末成績,陳老師打算當掉 6%的修課學生,若期末成績的全班平均分數為 52分,標準差 6 分,且呈鐘形分配。( 1)試依 Chebyshev 定理,計算及格分數。( 2)試依經驗法則,計算及格分數。( 3)哪一方法較適合?

Page 61: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

6161 6161 SlideSlide

SlideSlide

Chebyshev 定理

2

2

2

11 0.88

10.12

8.33

2.

52 2.89 6 34.66

89

k

k

k

pass score

k

Page 62: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

6262 6262 SlideSlide

SlideSlide

經驗法則

9544.0288.08664.05.1

kxk

k

5772.1

8664.09544.0

8664.088.0

5.12

5.1

x

x

內插法

54.426)5772.1(52 scorepass

Page 63: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

6363 6363 SlideSlide

SlideSlide

3.4 探究性資料分析五數彙總箱形圖

Page 64: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

6464 6464 SlideSlide

SlideSlide

五數彙總 (five-number summary)

11 最小值最小值 第一四分位數 第一四分位數 ((QQ11))

中位數 中位數 ((QQ22))

第三四分位數 第三四分位數 ((QQ33))

最大值最大值

22

33

44

55

Page 65: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

6565 6565 SlideSlide

SlideSlide

五數彙總 (five-number summary) 實例 表 3.1 中 12 位商業學校畢業生的薪資若以遞增順序排列的話可以得到下列資料。

由 3.1 節已知中位數為 2905, Q1= 2865且 Q3=3000 。再回顧此資料集之最小值為 2710 ,而最大值為 3325 。因此,此資料集之五數彙總為 2710, 2865, 2905, 3000, 3325 。大約有 1/4或 25% 的資料值會介於這五數的兩兩間隔之間。

27102710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 33252755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 QQ11=2865 Q=2865 Q22=2905 Q=2905 Q33=3000=3000

(( 中位數中位數 ))

第 3 章敘述統計 II :數值方法 第 102 頁

Page 66: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

6666 6666 SlideSlide

SlideSlide

• 箱形圖 (box plot) 是根據五數彙總而繪製的圖形。

• 繪製箱形圖的關鍵在中位數與四分位數 (Q1與 Q3) ,也用到四分位數距 IQR = Q3 - Q1 。

• 箱形圖是另一種辨別離群值的方法。但是這種方法不見得會與用 z 分數找出的離群值相同。運用兩種方法或只用任一種方法皆可行。

箱形圖

Page 67: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

6767 6767 SlideSlide

SlideSlide

箱形圖圖 3.5 為月薪資料的箱形圖以及上、下界線。

第 3 章敘述統計 II :數值方法 第 103 頁 圖 3.5

Page 68: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

6868 6868 SlideSlide

SlideSlide

箱形圖 繪製箱形圖的步驟如下:

1. 箱形的製作以第一四分位數、第三四分位數為前後邊。以起薪資料為例, Q1= 2865, Q3= 3000 ,箱形包含中間 50% 的資料值。

2. 箱形中的垂直線位置為中位數 ( 以起薪資料而言是 2905) 。因此,中位數位置的直線將所有資料分割成兩等分。

3. 使用四分位數距 IQR= Q3- Q1 時,必須設定界限 (limits) ,箱形圖的界限分別位於 Q1 之下 1.5(IQR) 或 Q3 之上 1.5(IQR) 。對起薪資料而言, IQR= Q3-Q1 = 3000- 2865= 135 。因此,界限為 2865-1.5(135)= 2662.5 與 3000+ 1.5(135)= 3202.5 。在界限之外的值為離群值。

Page 69: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

6969 6969 SlideSlide

SlideSlide

箱形圖4. 圖 3.5 的虛線稱之為鬚 (whiskers) 。鬚的畫法是從

步驟 3 中箱形的兩邊至界限內最大值與最小值,以圖 3.5 為例,分別是 2710 與 3130 。

5. 最後,以 * 表示離群值的位置;在圖 3.5 中,可看到一個離群值 3,325 。

圖 3.5 中有標示上、下界限的直線。這些線用來標示資料的範圍,雖然我們會算出這些數值,

但在箱形圖中通常不會顯示出來。圖 3.6 是起薪資料的箱形圖的一般形式。

Page 70: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

7070 7070 SlideSlide

SlideSlide

3.5 兩變數的相關性量數共變異數 相關係數

Page 71: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

7171 7171 SlideSlide

SlideSlide

共變異數

共變異數為正值表示正相關。為負值表示負相關。共變異數為正值表示正相關。為負值表示負相關。共變異數為正值表示正相關。為負值表示負相關。共變異數為正值表示正相關。為負值表示負相關。

共變若觀察資料的序對呈現狹長的帶狀分佈,共變若觀察資料的序對呈現狹長的帶狀分佈,則表示兩變數具有線性關聯,分布越集中,越有關聯。則表示兩變數具有線性關聯,分布越集中,越有關聯。共變若觀察資料的序對呈現狹長的帶狀分佈,共變若觀察資料的序對呈現狹長的帶狀分佈,則表示兩變數具有線性關聯,分布越集中,越有關聯。則表示兩變數具有線性關聯,分布越集中,越有關聯。

共變異數共變異數 (covariance)(covariance) 是兩變數間線性相關的是兩變數間線性相關的敘述量數。敘述量數。是量測兩量化變數之間線性關聯程度的量數是量測兩量化變數之間線性關聯程度的量數。。

共變異數共變異數 (covariance)(covariance) 是兩變數間線性相關的是兩變數間線性相關的敘述量數。敘述量數。是量測兩量化變數之間線性關聯程度的量數是量測兩量化變數之間線性關聯程度的量數。。

Page 72: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

7272 7272 SlideSlide

SlideSlide

樣本共變異數樣本共變異數

樣本共變異數樣本共變異數

樣本共變異數樣本共變異數

母體共變異數母體共變異數

sx x y y

nxyi i

( )( )

1s

x x y ynxy

i i

( )( )

1

xyi x i yx y

N

( )( )

xy

i x i yx y

N

( )( )

共變異數

第 3 章敘述統計 II :數值方法 第 107 頁

Page 73: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

7373 7373 SlideSlide

SlideSlide

共變異數實例回顧 2.4 節立體音響設備店的例子。該店的經理有興趣研究未來幾個週末的電視廣告與銷售量的關係,樣本資料列於表 3.7 中。

Page 74: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

7474 7474 SlideSlide

SlideSlide

共變異數實例 圖 3.7 為兩變數的散佈圖,其顯示出一種正向的關係:較高的銷售量 (y) 伴隨著較高的廣告次數 (x) 。

Page 75: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

7575 7575 SlideSlide

SlideSlide

共變異數實例 為了測量廣告次數 x 與銷售額 y 的線性關係之強度,我們利用式 (3.10) 計算樣本共變異數。表3.8 是 的計算過程。請注意  = 30/10= 3且  = 510/10= 51 ,利用式(3.10) ,可得共變異數為

119

99

1

))((

n

yyxxS ii

xy

))(( yyxx ii

x y

Page 76: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

7676 7676 SlideSlide

SlideSlide

共變異數實例

Page 77: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

7777 7777 SlideSlide

SlideSlide

共變異數的意義 以圖 3.8 來解釋樣本共變異數。

第 3 章敘述統計 II :數值方法 第 108 頁 圖 3.8

Page 78: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

7878 7878 SlideSlide

SlideSlide

圖 3.9 樣本共變異數的解釋

第 3 章敘述統計 II :數值方法 第 109 頁 圖 3.9

Page 79: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

7979 7979 SlideSlide

SlideSlide

圖 3.9 樣本共變異數的解釋

Page 80: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

8080 8080 SlideSlide

SlideSlide

圖 3.9 樣本共變異數的解釋

第 3 章敘述統計 II :數值方法 第 109 頁 圖 3.9

Page 81: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

8181 8181 SlideSlide

SlideSlide

相關係數

一個樣本相關係數為-一個樣本相關係數為- 1 1 代表兩變數 代表兩變數 x x 與 與 y y 之間之間是完全負線性相關。是完全負線性相關。一個樣本相關係數為-一個樣本相關係數為- 1 1 代表兩變數 代表兩變數 x x 與 與 y y 之間之間是完全負線性相關。是完全負線性相關。

樣本相關係數為 樣本相關係數為 1 1 代表兩變數 代表兩變數 x x 與 與 y y 之間是完全之間是完全正線性相關。正線性相關。樣本相關係數為 樣本相關係數為 1 1 代表兩變數 代表兩變數 x x 與 與 y y 之間是完全之間是完全正線性相關。正線性相關。

相關係數相關係數 (Correlation Coefficient)(Correlation Coefficient) 的範圍由−的範圍由− 11 到到 +1+1 。 。 相關係數相關係數 (Correlation Coefficient)(Correlation Coefficient) 的範圍由−的範圍由− 11 到到 +1+1 。 。

Page 82: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

8282 8282 SlideSlide

SlideSlide

皮爾生相關係數皮爾生相關係數

皮爾生相關係數皮爾生相關係數

樣本資料樣本資料 母體資料母體資料

rs

s sxyxy

x yr

s

s sxyxy

x y

xy

xy

x y

xy

xy

x y

相關係數

第 3 章敘述統計 II :數值方法 第 110 頁

Page 83: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

8383 8383 SlideSlide

SlideSlide

兩變數間的高度相關並不表示兩變數間必然有兩變數間的高度相關並不表示兩變數間必然有因果關係。因果關係。兩變數間的高度相關並不表示兩變數間必然有兩變數間的高度相關並不表示兩變數間必然有因果關係。因果關係。

相關係數讓我們瞭解兩個變數間線性相關的相關係數讓我們瞭解兩個變數間線性相關的程度,而非因果關係存在與否。程度,而非因果關係存在與否。相關係數讓我們瞭解兩個變數間線性相關的相關係數讓我們瞭解兩個變數間線性相關的程度,而非因果關係存在與否。程度,而非因果關係存在與否。

相關係數

Page 84: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

8484 8484 SlideSlide

SlideSlide

相關係數實例 以立體音響設備店的資料為例,求其樣本相關係數。利用表 3.8 的資料,我們便能計算兩變數的樣本標準差。

因為 sxy= 11 ,可得到樣本相關係數為

我們的結論是:廣告次數與銷售量之間存在強大正的線性關係。更明確地說,廣告次數增加時,銷售量也增加。

Page 85: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

8585 8585 SlideSlide

SlideSlide

相關係數實例 假設某一特定資料集顯示 x 與 y 間有正線性相關但不是完全正線性相關, rxy 之值將會小於 1 ,表示在散佈圖上的點並非全部落在一條直線上。當資料點愈來愈偏離完全正線性相關, rxy的值會愈變愈小。

rxy之值等於零表示 x 與 y 之間沒有線性關係,且 rxy之值接近零表示一種微弱的線性相關。

第 3 章敘述統計 II :數值方法 第 112 頁

Page 86: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

8686 8686 SlideSlide

SlideSlide

3.6 加權平均數與群組資料的處理 加權平均數 群組資料的樣本平均數 群組資料的樣本變異數 群組資料的標準差

第 3 章敘述統計 II :數值方法 第 114-118 頁

Page 87: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

8787 8787 SlideSlide

SlideSlide

加權平均數

i i

i

wxx

w

i i

i

wxx

w

其中:

xi = 第 i 個觀察值 wi = 第 i 的觀察值的權重

第 3 章敘述統計 II :數值方法 Part B (3.3~3.6) 第 115 頁

加權平均數加權平均數 (weighted mean)(weighted mean) 是在某些情況為了是在某些情況為了反映個別觀察值的重要性,計算平均數時要對反映個別觀察值的重要性,計算平均數時要對每一觀察值加上權重,以此方式計算而得到的值每一觀察值加上權重,以此方式計算而得到的值

加權平均數加權平均數 (weighted mean)(weighted mean) 是在某些情況為了是在某些情況為了反映個別觀察值的重要性,計算平均數時要對反映個別觀察值的重要性,計算平均數時要對每一觀察值加上權重,以此方式計算而得到的值每一觀察值加上權重,以此方式計算而得到的值

Page 88: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

8888 8888 SlideSlide

SlideSlide

加權平均數實例 以下是一個加權平均數的例子,我們以過去 3 個月所做的 5 次採購來做說明。

第 3 章敘述統計 II :數值方法 第 115 頁

Page 89: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

8989 8989 SlideSlide

SlideSlide

加權平均數實例 我們可以由資料中觀察到,每磅成本由 $2.80 至

$3.40 不等,而且採購數量在 500至 2,750磅之間,假設經理想要瞭解原料每磅的平均成本,由於訂購數量各有不同,所以我們必須應用加權平均數的觀念。資料顯示 5筆原料每磅成本分別為 x1=3.00, x2= 3.40, x3 = 2.80, x4= 2.90 ,以及 x5=3.25 ,則每磅成本的加權平均成本等於每項成本乘上其對應採購量加權而得。

第 3 章敘述統計 II :數值方法 Part B (3.3~3.6) 第 115 頁

Page 90: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

9090 9090 SlideSlide

SlideSlide

加權平均數實例 所以,本例的權重分別為 w1= 1200, w2= 500, w3 =

2750, w4= 1000 ,以及 w5 = 800 ,應用式 (3.15) ,我們可以求得加權平均數:

因此,由加權平均數的計算,可以得到原料的每磅平均成本等於 $2.96 。值得注意的是,若我們使用式 (3.14) 而非加權平均數的公式,將誤導結果。因為, (3.00+ 3.40+ 2.80+ 2.90+ 3.25)/5= 15.35/5= $3.07 。這個結果高估了每磅平均採購成本。

第 3 章敘述統計 II :數值方法 Part B (3.3~3.6) 第 115 頁

Page 91: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

9191 9191 SlideSlide

SlideSlide

群組資料• 在大部分的案例中,位置與離散量數都是利用個別資料計算而得。

• 有時僅有群組資料 (grouped data) 或是次數分配形式的資料。

• 為了計算群組資料的平均數,我們視每組中點為此分組所有數值的代表。

• 應用加權平均數的式 (3.15) ,而且以 Mi 作為資料值,次數 fi 作為權重。

第 3 章敘述統計 II :數值方法 第 116-117 頁

Page 92: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

9292 9292 SlideSlide

SlideSlide

群組資料的平均數

i if Mx

n i if M

xn

N

Mf iiN

Mf ii

其中: fi = 第 i 組的次數 Mi = 第 i 組的組中點

• 群組資料的樣本平均數

• 群組資料的母體平均數

第 3 章敘述統計 II :數值方法 第 116.118 頁

Page 93: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

9393 9393 SlideSlide

SlideSlide

群組資料的變異數

sf M x

ni i2

2

1

( )s

f M xn

i i22

1

( )

22

f M

Ni i( ) 2

2

f M

Ni i( )

• 群組資料的樣本變異數

• 群組資料的母體變異數

第 3 章敘述統計 II :數值方法 第 117.118 頁

Page 94: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

9494 9494 SlideSlide

SlideSlide

群組資料的實例在 2.2 節中,我們做出 Sanderson and Clifford 會計事務所完成年度稽核時間 (天 ) 的次數分配,並以20家公司為樣本,做出稽核時間的次數分配如表3.11 。

第 3 章敘述統計 II :數值方法 第 116 頁 表 3.11

Page 95: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

9595 9595 SlideSlide

SlideSlide

群組資料的實例五個分組的組中點與加權平均數的計算在表 3.12 中,如表所示,樣本平均稽核時間為 19 天。

Page 96: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

9696 9696 SlideSlide

SlideSlide

群組資料的實例 根據表 3.11 稽核時間的群組資料,將樣本變異數的計算過程列在表 3.13 ,計算結果可知樣本變異數為 30 。

第 3 章敘述統計 II :數值方法 第 117 頁 表 3.13

Page 97: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

9797 9797 SlideSlide

SlideSlide

群組資料的實例 群組資料的標準差即是變異數的平方根。以稽核時間而言,樣本標準差

48.530 s

第 3 章敘述統計 II :數值方法 第 117 頁

Page 98: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

9898 9898 SlideSlide

SlideSlide

評註 在計算群組資料的敘述統計量時,組中點用來近似該分組的資料值,結果是群組資料的敘述統計量只會近似於直接使用原始資料所得到的敘述統計量。因此,我們建議儘可能從原始資料而不是群組資料來計算敘述統計量。

第 3 章敘述統計 II :數值方法 第 118 頁

Page 99: 1 Slide Slide 第 3 章 敘述統計 II :數值方法. 2 Slide Slide 敘述統計 II :數值方法 Part A 3.1 位置量數 3.2 離散量數 3.3 分配的形狀的量數,相對位置,以及離群值

9999 9999 SlideSlide

SlideSlide

End of Chapter 3