chapter 3 如何描述數據

41
CHAPTER 3 CHAPTER 3 如如如如如如 如如如如如如 常常常常常常常 常常常常常常常 常常常常常常 常常常常常常 常常常 常常常 (mean) (mean) 常常常 常常常 (median) (median) 常常 常常 (mode) (mode) 常常常常常常 常常常常常常 常常 常常 (range) (range) 常常常 常常常 (variance) (variance) 常常常 常常常 (standard (standard deviation) deviation)

Upload: ruth-baldwin

Post on 03-Jan-2016

57 views

Category:

Documents


0 download

DESCRIPTION

常用的統計量數 集中趨勢量數 平均數 (mean) 中位數 (median) 眾數 (mode). 離散趨勢量數 全距 (range) 變異數 (variance) 標準差 (standard deviation). CHAPTER 3 如何描述數據. 平均數. 設有 n 筆樣本資料 : X 1 , X 2 , … , X n 則其樣本平均數 設有 n 筆母體資料 : X 1 , X 2 , … , X N 則其母體平均數. 平均數是資料的平衡點 ( 重心 ) 平均數的優點是使用到所有資料訊息 平均數的缺點是易受極端值的影響 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: CHAPTER 3   如何描述數據

CHAPTER 3 CHAPTER 3 如何描述數據如何描述數據

常用的統計量數常用的統計量數 集中趨勢量數集中趨勢量數

平均數 平均數 (mean) (mean) 中位數 中位數 (median)(median) 眾數 眾數 (mode)(mode)

離散趨勢量數離散趨勢量數 全距 全距 (range)(range) 變異數 變異數 (variance) (variance) 標準差 標準差 (standard (standard deviation)deviation)

Page 2: CHAPTER 3   如何描述數據

平均數平均數

設有設有 nn 筆樣本資料筆樣本資料 ::XX1 1 , X, X2 2 ,,……, X, Xnn

則其樣本平均數則其樣本平均數

設有設有 nn 筆母體資料筆母體資料 ::XX1 1 , X, X2 2 ,…, X,…, XNN

則其母體平均數則其母體平均數

1 2 nX X X

Xn

1 2 NX X X

N

Page 3: CHAPTER 3   如何描述數據

平均數的性質平均數的性質

平均數是資料的平衡點平均數是資料的平衡點 (( 重心重心 )) 平均數的優點是使用到所有資料訊息平均數的優點是使用到所有資料訊息 平均數的缺點是易受極端值的影響平均數的缺點是易受極端值的影響 平均數可進行代數演算平均數可進行代數演算

Page 4: CHAPTER 3   如何描述數據

分組資料平均數的計算分組資料平均數的計算

組中點組中點 次數次數   

mm ff mm‧‧ffm1m1 f1f1 m1m1‧‧f1f1

m2m2 f2f2 m2m2‧‧f2f2

.. .. ..

.. .. ..

.. .. ..

.. .. ..

.. .. ..

mkmk fkfk mkmk‧‧fkfk   Σf=nΣf=n ΣmΣm‧‧ff

n

fmX

Page 5: CHAPTER 3   如何描述數據

範例範例

59.78110

8645X

組中點組中點 次數次數   

mm ff mm‧‧ff34.534.5 22 6969

44.544.5 22 8989

54.554.5 44 218218

64.564.5 1919 1225.51225.5

74.574.5 2424 17881788

84.584.5 3939 3295.53295.5

94.594.5 1515 1417.51417.5

104.5104.5 33 313.5313.5

114.5114.5 22 229229

   110110 86458645

Page 6: CHAPTER 3   如何描述數據

組中點組中點    次數次數   

mm xx ff xx‧‧ff34.534.5 -4-4 22 -8-8

44.544.5 -3-3 22 -6-6

54.554.5 -2-2 44 -8-8

64.564.5 -1-1 1919 -19-19

74.574.5 00 2424 00

84.584.5 11 3939 3939

94.594.5 22 1515 3030

104.5104.5 33 33 99

114.5114.5 44 22 88

      110110 4545

59.78

5.7410110

45

X

Page 7: CHAPTER 3   如何描述數據

中位數中位數 n n 是奇數,是奇數, 中位數是位置在最中間的該筆資料的值中位數是位置在最中間的該筆資料的值

n n 是偶數,是偶數, 中位數是位置在最中間的兩筆資料的平均中位數是位置在最中間的兩筆資料的平均

X ndM )2

1(

2

)12

()2

( XX nn

dM

Page 8: CHAPTER 3   如何描述數據

範例範例 某英國小鎮在最近五週內所發生的竊盜案件數某英國小鎮在最近五週內所發生的竊盜案件數

分別為分別為 1414 、、 1717 、、 2020 、、 2222 ,與,與 1717 件。請找件。請找出這個小鎮這五週內竊盜案件數的中位數。出這個小鎮這五週內竊盜案件數的中位數。

解解 : : 將上列五個數依照大小排列依序為 將上列五個數依照大小排列依序為

1414 、、 1717 、、 1717 、、 2020 、、 2222

∵n=5 ∴∵n=5 ∴

17)3()( 215 xxmd

Page 9: CHAPTER 3   如何描述數據

範例範例 1212 堂道安講習中,出席的違規駕駛人人數堂道安講習中,出席的違規駕駛人人數分別為分別為 3737 、、 3232 、、 2828 、、 4040 、、 3535 、、 3838 、、4040 、、 2424 、、 3030 、、 3737 、、 3232 與與 4040 。請求出。請求出其中位數。其中位數。

解解 : : 將這些數據依照大小順序排列得將這些數據依照大小順序排列得24 28 30 32 32 24 28 30 32 32 35 3735 37 37 38 40 40 40 37 38 40 40 40

∵ ∵n=12 n=12

∴∴ 22)7()6()1()( 2

122

12 xxxxmd

362

3735

Page 10: CHAPTER 3   如何描述數據

分組資料中位數的計算分組資料中位數的計算

組界組界 次數次數 累加次數L~UL~U ff F

29.5~39.529.5~39.5 22 2

39.5~49.539.5~49.5 22 4

49.5~59.549.5~59.5 44 8

59.5~69.559.5~69.5 1919 27

69.5~79.569.5~79.5 2424 51

79.5~89.579.5~89.5 3939 90

89.5~99.589.5~99.5 1515 105

99.5~109.599.5~109.5 33 108

109.5~119.109.5~119.55

22 110

   110110  

53.80439

105.79)55( XM d

Page 11: CHAPTER 3   如何描述數據

步驟說明步驟說明1.1. 計算次數總和計算次數總和 n=Σf=110n=Σf=1102.2. 中位數中位數 Md=xMd=x(55)(55) (∵110(∵110 的ㄧ半是的ㄧ半是 55)55)

3.3. 增加一欄位累加次數增加一欄位累加次數 FF4.4. 找出找出 xx(55)(55) 是落在第是落在第 66 組組 79.5~89.579.5~89.5 內內

的第的第 44 個數據 個數據 (∵(∵ 累積到第累積到第 55 組共組共 5151 個數據個數據 ))

5.5. 79.5~89.579.5~89.5 內內 3939 個數據的間距是個數據的間距是6.6.

39

10

53.80439

105.79)55( XM d

Page 12: CHAPTER 3   如何描述數據

中位數的特質中位數的特質

中位數只計算到數列中間位置的一二中位數只計算到數列中間位置的一二個數值個數值

中位數的優點是不受極端值的影響中位數的優點是不受極端值的影響 中位數的缺點是對數據的變化不敏感中位數的缺點是對數據的變化不敏感

Page 13: CHAPTER 3   如何描述數據

眾數眾數

出現次數大於一而且最多次的數值出現次數大於一而且最多次的數值 22 、 24 、 23 、 24 、 27 、 25 、 24 、 20 、 24 Mo=24Mo=24 22 、 24 、 23 、 24 、 22 、 25 、 24 、 20 、 22 Mo=22Mo=22和和 2424 22 、 24 、 23 、 26 、 27 、 25 、 28 、 30 、 34 MoMo不存在不存在

Page 14: CHAPTER 3   如何描述數據

眾數的性質眾數的性質

眾數可能有多個或一個都沒有眾數可能有多個或一個都沒有 眾數不受極端值影響眾數不受極端值影響 眾數對數據的變化不敏感眾數對數據的變化不敏感 眾數適合用於類別資料眾數適合用於類別資料

Page 15: CHAPTER 3   如何描述數據

皮爾生經驗法則皮爾生經驗法則)(3 MdXXMo

Page 16: CHAPTER 3   如何描述數據

統計 量數

優 點 缺 點

1.資料的重心。 1.若有極端值存在時,則不具代表性。

2.適合代數演算 2.資料如為偏態,則代表性較差。

3.考慮所有觀察值,敏感度高。

平均數

4.觀察值與平均數差平方和最小

1.適用於有極端值的資料 1.不適合代數演算 2.適用於偏態資料 2.對觀察值敏感性低 中位數 3.觀察值與中位數絕對差和最小

1.適用於有極端值的資料 1.可能不只一個或不存在 2.適用於偏態資料 2.敏感性低 眾數 3.適用於質的資料

Page 17: CHAPTER 3   如何描述數據

全距全距

最簡單的離散量數就是最簡單的離散量數就是全距全距 (range)(range) 全距 全距 R R = 最大值 - 最小值= 最大值 - 最小值 全距僅用到資料中的兩個值,因此深全距僅用到資料中的兩個值,因此深受極端值的影響受極端值的影響

Page 18: CHAPTER 3   如何描述數據

變異數與標準差變異數與標準差 母體變異數 母體標準差母體變異數 母體標準差

樣本變異數 樣本標準差樣本變異數 樣本標準差N

x 22 )(

)1(

)(

1

)( 2222

nn

xxn

n

xxS

2

S2S

Page 19: CHAPTER 3   如何描述數據

變異數與標準差的計算變異數與標準差的計算

66 個樣本數據個樣本數據 :80,60,70,60,50,50:80,60,70,60,50,50

求算變異數與標準差求算變異數與標準差

Page 20: CHAPTER 3   如何描述數據

方法一方法一

x x2

80 6400

60 3600

70 4900

60 3600

50 2500

50 2500

370

23500

)1(

)( 222

nn

xxnS

67.13630

4100

)16(6

370235006 22

S

69.1167.1362 SS

Page 21: CHAPTER 3   如何描述數據

方法二方法二

xy=x-60

y2

80 20 400

60 0 0

70 10 100

60 0 0

50 -10 100

50 -10 100

370

10 700

)1(

)( 222

nn

yynS

67.13630

4100

)16(6

107006 22

S

69.1167.1362 SS

Page 22: CHAPTER 3   如何描述數據

練習練習 66 個樣本數據個樣本數據 :3.58,3.59,3.49,3.48,3.55,3.53:3.58,3.59,3.49,3.48,3.55,3.53

求其標準差求其標準差 解解 : : 數據減去數據減去 3.533.53

再乘上再乘上 100100 倍倍 算出來的標準 算出來的標準差差 會是原來的 會是原來的 110000 倍倍

∴標準差為 ∴標準差為 0.0450.04555

xy=x-3.53

z=100y

z2

3.58 0.05 5 25

3.59 0.06 6 36

3.49 -0.04 -4 16

3.48 -0.05 -5 25

3.55 0.02 2 4

3.53 0 0 0

21.22

0.04 4106

55.467.2030

620

)16(6

41066 2

S

Page 23: CHAPTER 3   如何描述數據

分組資料變異數和標準差的計算分組資料變異數和標準差的計算

組中點組中點 次數次數      

mm ff mm‧‧ff mm22‧‧ff

m1m1 f1f1 m1m1‧‧f1f1 mm1122‧‧f1f1

m2m2 f2f2 m2m2‧‧f2f2 mm2222‧‧f2f2

.. .. .. ..

.. .. .. ..

.. .. .. ..

.. .. .. ..

.. .. .. ..

mkmk fkfk mkmk‧‧fkfk mmkk22‧‧fkfk

   ΣΣf=nf=n ΣΣmm‧‧ff ΣΣmm22‧‧ff

)1(

)( 222

nn

mffmnS

Page 24: CHAPTER 3   如何描述數據

範例範例 求下列分組資料的求下列分組資料的

變異數和標準差變異數和標準差組數 組界 次數

1 5.5~10.5 1

2 10.5~15.5 2

3 15.5~20.5 4

4 20.5~25.5 4

5 25.5~30.5 4

6 30.5~35.5 3

7 35.5~40.5 2

Page 25: CHAPTER 3   如何描述數據

加入組中點加入組中點 mm 及計算及計算 mfmf 和和 m2fm2f 等等 33 個欄位個欄位

L~U f m mf m2f

5.5~10.5 1 8 8 64

10.5~15.5

213

26 338

15.5~20.5

418

72 1296

20.5~25.5

423

92 2116

25.5~30.5

428112 3136

30.5~35.5

333

99 3267

35.5~40.5

238

76 2888

20 4851310

5

↓↓ ↓↓ ↓↓n Σmf Σm2f

72.70)120(20

)485(1310520 22

S

41.872.70 S

Page 26: CHAPTER 3   如何描述數據

簡化計算方式簡化計算方式

數據減去數據減去 2323 再除以再除以 55 算出來的標準差算出來的標準差 會是 會是原來的原來的 1/51/5 倍倍

標準差 標準差為為 1.1.682×5=8.41682×5=8.41 變異數為 變異數為 2.8292.829××25=70.72525=70.725

L~U f my=(m-23)÷5

yf y2f

5.5~10.5

1 8 -3 -3 9

10.5~15.5

213

-2 -4 8

15.5~20.5

418

-1 -4 4

20.5~25.5

423

0 0 0

25.5~30.5

428

1 4 4

30.5~35.5

333

2 6 12

35.5~40.5

238

3 6 18

20

5 55

↓ ↓ ↓

n Σyf Σy2f

829.2)120(20

)5(5520 22

S

682.1829.2 S

Page 27: CHAPTER 3   如何描述數據

分組資料求平均數中位數和標準差分組資料求平均數中位數和標準差L~U f F m

y=(m-66)÷3

yf y2f

58.5~61.5

4 460

-2 -8 16

61.5~64.5

111563

-1 -11 11

64.5~67.5

254066

0 0 0

67.5~70.5

105069

1 10 10

70.5~73.5

25272

2 4 8

52 -5 45

↓ ↓ ↓

n Σyf Σy2f

7.6566352

5

x

82.651125

35.64 dm

8.235152

)5(4552 2

S

Page 28: CHAPTER 3   如何描述數據

作業作業 試計算下面諸數的標準差試計算下面諸數的標準差

計算下面己分組數據的標準差計算下面己分組數據的標準差 70,95,50,35,60,55,40,70,65,30,25

時  薪 次 數300 4

350 5

400 8

450 10

500 9

550 12

Page 29: CHAPTER 3   如何描述數據

平均數和標準差的應用平均數和標準差的應用

1.1. 變異係數變異係數 CVCV 變異係數是變異性的相對衡量,它衡量標準差相對於

平均值的大小。 一般而言,欲比較具有不同的標準差與平均數的資料

之離散程度時,變異係數是一個有用的統計量。

%100

CV

%100x

SCV

母體資料:

樣本資料:

Page 30: CHAPTER 3   如何描述數據

例:調查某大學例:調查某大學 150150 名學生得平均體重為 名學生得平均體重為 6060 公斤,公斤,標準差標準差 1010 公斤;另調查某幼稚園學生公斤;另調查某幼稚園學生 2020 名,得平名,得平均體重均體重 2020 公斤,標準差公斤,標準差 44 公斤。試比較大學生與幼公斤。試比較大學生與幼稚園學生之體重分配,何者差異性較大?稚園學生之體重分配,何者差異性較大?

解:解:若直接利用標準差做比較,自然是大學若直接利用標準差做比較,自然是大學生體重之差異較大,但此種比較法並不合生體重之差異較大,但此種比較法並不合理。因每位大學生的體重都大於幼稚園學理。因每位大學生的體重都大於幼稚園學生的體重,其體重標準差亦會大於幼稚園生的體重,其體重標準差亦會大於幼稚園學生體重之標準差。因此,合理的比較法學生體重之標準差。因此,合理的比較法是採用比較體重之變異係數的大小。是採用比較體重之變異係數的大小。

Page 31: CHAPTER 3   如何描述數據

例:調查某大學例:調查某大學 150150 名學生得平均體重為 名學生得平均體重為 6060 公斤,公斤,標準差標準差 1010 公斤;另調查某幼稚園學生公斤;另調查某幼稚園學生 2020 名,得平名,得平均體重均體重 2020 公斤,標準差公斤,標準差 44 公斤。試比較大學生與幼公斤。試比較大學生與幼稚園學生之體重分配,何者差異性較大?稚園學生之體重分配,何者差異性較大?

大學生體重之變異係數 大學生體重之變異係數 CVCV 大學大學==

幼稚園學生體重之變異係數幼稚園學生體重之變異係數 CVCV 幼稚園幼稚園= = 因幼稚園學生體重之變異係數因幼稚園學生體重之變異係數 20%20% 大於大學生 大於大學生 體重之變異係數 體重之變異係數 16.67%16.67% ,故幼稚園學生體重之,故幼稚園學生體重之差異性較大。差異性較大。

%67.16%10060

10

%20%10020

4

Page 32: CHAPTER 3   如何描述數據

作業作業

本田車之平均價格為美金本田車之平均價格為美金 13,50013,500元,標準差為元,標準差為 700700 元。日產汽車的元。日產汽車的平均價格為平均價格為 12,50012,500 元,標準差為元,標準差為625625 元,兩者的變異係數元,兩者的變異係數 CVCV 是多是多少?那一種車之價格變化較大?少?那一種車之價格變化較大?

Page 33: CHAPTER 3   如何描述數據

平均數和標準差的應用平均數和標準差的應用

2.2. ZZ 分數分數

某個數據相對於一組數據的標準化值稱為某個數據相對於一組數據的標準化值稱為 ZZ 分數分數

ZZ 分數代表某個數據在整組數據的相對位置分數代表某個數據在整組數據的相對位置

數據數據 XX 的的 ZZ 分數定義為:分數定義為: 其中 , 其中 , SS 分別為樣本平均數和標準差。分別為樣本平均數和標準差。X

S

XXZ

Page 34: CHAPTER 3   如何描述數據

設某一學生的數學成績為設某一學生的數學成績為 6565分分,而英文成績,而英文成績為為 7272分分。如果已知班上的數學平均。如果已知班上的數學平均 6060 分,分,標準差標準差 2020 分,而英文平均分,而英文平均 7878 分,標準差分,標準差 1212分,則該生兩科何者在班上的表現較佳?分,則該生兩科何者在班上的表現較佳?

解:解: ZZ 數學數學==

     ZZ 英文英文==

  ∴數學成績在  ∴數學成績在班上的表現較佳班上的表現較佳

25.020

6065

5.012

7872

Page 35: CHAPTER 3   如何描述數據

作業作業 甲同學的數學成績是甲同學的數學成績是 6565 分,全班數學成績分,全班數學成績的平均數是的平均數是 7878 分,標準差是分,標準差是 1111 分,他的分,他的英文成績是英文成績是 7373 分,英文平均分數是分,英文平均分數是 8585 分,分,標準差是標準差是 1212 分,請他的那一門課的成績之分,請他的那一門課的成績之排名較高?排名較高?

甲班的英文成績之平均數為甲班的英文成績之平均數為 7070 ,標準差為,標準差為88 ,張三之英文成績為,張三之英文成績為 8080 。乙班的英文成。乙班的英文成績之平均數為績之平均數為 6565 ,準差為,準差為 99 ,李四英文成,李四英文成績為績為 7575 ,問甲班的張三或乙班的李四誰在,問甲班的張三或乙班的李四誰在相對的排名上比較高?相對的排名上比較高?

Page 36: CHAPTER 3   如何描述數據

平均數和標準差的應用平均數和標準差的應用33 .. 柴比雪夫定理柴比雪夫定理

在任何資料集合內至少有 在任何資料集合內至少有 (1 - 1/z(1 - 1/z22)) 百分百分比的觀察值與平均數的差距在比的觀察值與平均數的差距在 zz 個標準差個標準差之內,此處之內,此處 zz 為任何大於 為任何大於 11 之值之值。。

對任何形態的資料,計算其平均數 及對任何形態的資料,計算其平均數 及標準差 標準差 S S 後,可得下列結果:後,可得下列結果:對任意數 對任意數 ZZ >1 >1 ,則至少有 ,則至少有 比例的資料落在 比例的資料落在 之間。 之間。

X

2

11Z

),( ZSXZSX

Page 37: CHAPTER 3   如何描述數據

柴比雪夫定理柴比雪夫定理 至少有至少有 0% 0% 的觀察值,與平均數的差距在的觀察值,與平均數的差距在11 個標準差之內。個標準差之內。

至少有至少有 75% 75% 的觀察值,與平均數的差距在的觀察值,與平均數的差距在22 個標準差之內。個標準差之內。

至少有至少有 89% 89% 的觀察值,與平均數的差距在的觀察值,與平均數的差距在33 個標準差之內。個標準差之內。

至少有至少有 94% 94% 的觀察值,與平均數的差距在的觀察值,與平均數的差距在44 個標準差之內。個標準差之內。

Page 38: CHAPTER 3   如何描述數據

若某學院商用統計課程有若某學院商用統計課程有 100100 位學生修課,位學生修課,期中考成績之平均數為期中考成績之平均數為 7070 ,標準差為,標準差為 55 。有。有多少學生的分數介於多少學生的分數介於 6060 與與 8080 之間?又有多之間?又有多少學生的分數介於少學生的分數介於 5858 與與 8282 之間?之間?

解:解:

(60,80)=70(60,80)=70±±10=7010=70±±22×5×5 ∴∴ 至少有至少有 7575 位學生位學生

(58,82)=70(58,82)=70±±12=7012=70±±2.42.4×5×5 ∴∴ 至少有至少有 8383 位學生位學生

25

706060

Z

4.25

708260

Z4.2

5

705858

Z

25

708080

Z

%7575.04

3

2

11

2

%64.828264.04.2

11

2

Page 39: CHAPTER 3   如何描述數據

平均數和標準差的應用平均數和標準差的應用

4.4. 經驗法則經驗法則如果資料呈鐘形分配如果資料呈鐘形分配

約有約有 68%68% 的數據會包含在 範圍內的數據會包含在 範圍內 約有約有 95%95% 的數據會包含在 範圍內的數據會包含在 範圍內 約有約有 99.7%99.7% 的數據會包含在 範圍的數據會包含在 範圍

內內

),( SXSX

)3,3( SXSX

)2,2( SXSX

Page 40: CHAPTER 3   如何描述數據

經驗法則經驗法則

+ 1+ 1 ++ 22

+ 3+ 3 –– 11 – – 22

– – 33

99.7%99.7%95%95%

68%68%

34%34% 34%34%

13.5%13.5% 13.5%13.5%2.35%2.35% 2.35%2.35% 0.15%0.15%0.15%0.15%

Page 41: CHAPTER 3   如何描述數據

若某學院商用統計課程有若某學院商用統計課程有 100100 位學生修課,位學生修課,期中考成績之平均數為期中考成績之平均數為 7070 ,標準差為,標準差為 55 ,假,假設成績成鐘型分布。問有多少學生的分數介設成績成鐘型分布。問有多少學生的分數介於於 6060 與與 8080 之間?之間?

解:解:

(60,80)=70(60,80)=70±±10=7010=70±±22×5×5 ∴∴ 大約有大約有 9595 位學生位學生

25

706060

Z 2

5

708080

Z