(simple regression analysis and correlation...

28
統計學(二) 第十一章簡單廻歸分析與相關分析 (Simple Regression Analysis and Correlation Analysis) 授課教師:唐麗英教授 國立交通大學 工業工程與管理學系 聯絡電話:(03)5731896 e-mail[email protected] 2015 本講義未經同意請勿自行翻印

Upload: lamthuy

Post on 01-Sep-2018

232 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

統計學(二) 第十一章簡單廻歸分析與相關分析

(Simple Regression Analysis and Correlation Analysis)

授課教師:唐麗英教授

國立交通大學 工業工程與管理學系 聯絡電話:(03)5731896

e-mail:[email protected] 2015

☆ 本講義未經同意請勿自行翻印 ☆

Page 2: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

本課程內容參考書目

• 教科書 – P. Newbold, W. L. Carlson and B. Thorne(2013). Statistics for Business and the Economics, 8𝑡𝑡 Edition, Pearson.

• 參考書目 – Berenson, M. L., Levine, D. M., and Krehbiel, T. C. (2009). Basic business statistics: Concepts and

applications, 11𝑡𝑡 EditionPrentice Hall.

– Larson, H. J. (1982). Introduction to probability theory and statistical inference, 3𝑟𝑟 Edition, New York: Wiley.

– Miller, I., Freund, J. E., and Johnson, R. A. (2000). Miller and Freund's Probability and statistics for engineers, 6𝑡𝑡 Edition, Prentice Hall.

– Montgomery, D. C., and Runger, G. C. (2011). Applied statistics and probability for engineers, 5𝑡𝑡 Edition, Wiley.

– Watson, C. J. (1997). Statistics for management and economics, 5th Edition. Prentice Hall. – 唐麗英、王春和(2013),「從範例學MINITAB統計分析與應用」,博碩文化公司。 – 唐麗英、王春和(2008),「SPSS 統計分析 」,儒林圖書公司。 – 王春和、唐麗英(2007),「Excel 統計分析」,第二版,儒林圖書公司。 – 唐麗英、王春和(2005),「STATISTICA與基礎統計分析」,儒林圖書公司。

統計學(一)唐麗英老師上課講義 2

Page 3: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

統計學(一)唐麗英老師上課講義 3

Linear Regression Model

Page 4: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

Chapter 11.5(續)-11.6:

迴歸模型的應用

統計學(一)唐麗英老師上課講義 4

Page 5: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

Regression Analysis

解釋迴歸模式(解釋X與Y的關係) 真實之簡單直線迴歸模式: 𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝜀𝑖 樣本直線迴歸式: 𝑌�𝑖 = 𝑏0 + 𝑏1𝑋𝑖 其中𝑌�𝑖為在特定之Xi值下之Y估計值。

統計學(一)唐麗英老師上課講義 5

Page 6: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

Regression Analysis

請注意:假設:εi~NID(0,σ2),則 b0與b1為β0與β1之不偏估計式,即E(b0)= β0, E(b1)= β1.

V(b0) = 𝜎2(∑ 𝑥𝑖2𝑛

𝑖=1𝑛

) ∑ 𝑥𝑖 − �̅� 2𝑛𝑖=1 ;

𝑆b0= 𝑀𝑆𝑀 ∑ 𝒙𝒊𝟐

𝒏∑ 𝑥𝑖 − �̅� 2𝑛𝑖=1

𝒏𝒊=𝟏

V(b1) = 𝜎b12 = 𝜎2

∑ (𝑥𝑖−�̅�)2𝑛𝑖=1

𝑆b1= 𝑀𝑀𝑀∑ 𝑥𝑖−�̅� 2 = 𝑀𝑀𝑀

𝑀𝑀𝑥

統計學(一)唐麗英老師上課講義 6

Page 7: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

Regression Analysis

b1之抽樣分佈: b1~N(β1, 𝜎b1)

b0之抽樣分佈: b0~N(β0, 𝜎b0) 𝜎�2=MSE ; 𝜎�= Se=(MSE)1/2

Se = 𝑀𝑆𝑀稱作Y之估計標準誤

統計學(一)唐麗英老師上課講義 7

Page 8: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

Regression Analysis

斜率𝛽𝟏之(1-𝜶)100%信賴區間 (假設εi~NID(0,σ2), b~Normal)) 𝑏1 − 𝑡 𝑛−2,𝛼2

𝑠𝑏1 < 𝛽1 < 𝑏1 + 𝑡 𝑛−2,𝛼2𝑠𝑏1

= 𝑏1 ± 𝑡 𝑛−2,𝛼2

𝑀𝑆𝑀𝑆𝑆𝑥

統計學(一)唐麗英老師上課講義 8

Page 9: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

例6: 請找出本講義例4中斜率𝜷𝟏之95%信賴區間並解釋其意義。 (已知: 𝜎�2=MSE=0.3039 , �̅�=189.917, n=12, Σ(x-�̅�)2=240.917)

統計學(一)唐麗英老師上課講義 9

Regression Analysis

Page 10: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

例6:(續) [解]:

b1 ± 𝑡 𝑛−2,𝛼2

𝑀𝑆𝑀

𝑆𝑆𝑥= −0.472 ± 2.228 ×

0.3039

240.917

= −0.472 ± 0.0791 = (−0.5510,−0.3927)

統計學(一)唐麗英老師上課講義 10

Regression Analysis

Page 11: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

Regression Analysis

1. 在特定之𝑿 = 𝒙𝟎值下,E(𝒀|𝒙𝟎)=𝝁𝒀|𝒙𝟎之 (1-𝜶)100%估計區間(confidence interval for predictions)

𝑦�𝟎 ± 𝑡𝑛−2,𝛼 2�1𝑛

+(𝑥𝟎 − �̅�)2

∑ (𝑥𝑖 − �̅�)2𝑛𝑖=1

𝑆𝑒

= 𝑦�𝟎 ± 𝑡𝑛−2,𝛼 2⁄1𝑛

+ (𝑥0−�̅�)2

𝑀𝑀𝑥𝑀𝑆𝑀

其中𝑦�0= b0+ b1x0.

統計學(一)唐麗英老師上課講義 11

Page 12: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

Regression Analysis-預測Y值

2. 在特定之X = 𝒙𝟎值下,預測第n+1筆新觀察值(yn+1): 新觀察值yn+1 之(1-𝜶)100%預測區間(prediction Interval) :

𝑦�𝑛+1 ± 𝑡𝑛−2,𝛼 2⁄ 1 + 1𝑛

+ (𝑥𝟎−�̅�)2

∑ (𝑥𝑖−�̅�)2𝑛𝑖=1

𝑆𝑒

=𝑦�𝑛+1 ± 𝑡𝑛−2,𝛼 2⁄ 1 + 1𝑛

+ (𝑥𝟎−�̅�)2

𝑺𝑺𝒙𝑀𝑆𝑀

其中𝑦�𝑛+1= b0+ b1x0.

統計學(一)唐麗英老師上課講義 12

Page 13: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

統計學(一)唐麗英老師上課講義 13

Regression Analysis 例7: Given a simple regression model:

𝑦�𝑖 = 14 + 7𝑥𝑖 and also 𝜎�2=𝑆𝑒2=MSE=55.5, �̅�=8, n=25, Σ(x-�̅�)2=300=𝑆𝑆𝑥. a) Find the 95% confidence interval for 𝛽1and interpret the meaning of this confidence interval. b) Find the 95% confidence interval for the point where x=12. c) Find the 95% prediction interval for the point where x=12.

Page 14: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

統計學(一)唐麗英老師上課講義 14

Regression Analysis 例7: (續) [解] a) 95% C.I for 𝛽1:

𝑏1 ± 𝑡𝑛−2,𝛼 2�𝑀𝑆𝑀𝑆𝑆𝑥

= 7 ± 2.06955.5300

= (6.1041,7.8959)

b) 95% C.I for 𝜇𝑌|𝑥 = 12: 當𝑥 = 12時,𝑌� = 14 + 7𝑥 = 14 + 7 × 12 = 98

98 ± 𝑡23,0.0251

25+

12 − 8 2

30055.5 = (93.2899,102.7101)

Page 15: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

統計學(一)唐麗英老師上課講義 15

Regression Analysis 例7: (續)

[解] c) 95% prediction interval for 𝑌� when 𝑥 = 12: 當𝑥 = 12時,𝑌� = 98

98 ± 𝑡23,0.025 1 +1

25+

12 − 8 2

30055.5

= (81.8839,114.1165)

Page 16: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

如何以最小平方法找出Yi=𝜷𝟎 + 𝜷𝟏Xi+εi中𝜷𝟎與𝜷𝟏之估計式

最小平方法(Least Squares Method) • 簡單線性迴歸分析主要是找到一條最適配data的直線。 • 所謂最適配是指所找出之直線方程式所得預測Y值(𝑌�)與真實

Y值的差異最小.

• 由於(Y-𝑌�)可以有正值或負值,利用最小化∑ 𝑌𝑖 − 𝑌� 2𝑛𝑖=1 (即

𝑀𝑀𝑛∑ 𝑌𝑖 − 𝑌� 2𝑛𝑖=1 )可找出𝛽0及𝛽1之估計式

統計學(一)唐麗英老師上課講義 16

Page 17: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

• 利用最小平方法求𝜷𝟎及𝜷𝟏使∑ 𝑌𝑖 − 𝑌�𝑖2最小化,可得:

其中𝑆𝑆𝑥𝑥 = � 𝑥𝑖 − 𝑋�𝑛

𝑖=1

𝑌𝑖 − 𝑌� = �𝑋𝑌 −∑ 𝑋𝑛𝑖=1 ∑ 𝑌𝑛

𝑖=1𝑛

𝑛

𝑖=1

𝑆𝑆𝑋 = � 𝑋𝑖 − 𝑋� 2𝑛

𝑖=1

= �𝑋2𝑛

𝑖=1

−∑ 𝑋𝑛𝑖=1

2

𝑛

統計學(一)唐麗英老師上課講義 17

𝑏1 = 𝑀𝑀𝑋𝑋𝑀𝑀𝑋

𝑏0 = 𝑌� − 𝑏1𝑋�

如何以最小平方法找出Yi=𝜷𝟎 + 𝜷𝟏Xi+εi中𝜷𝟎與𝜷𝟏之估計式

Page 18: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

利用最小平方法找出使∑ 𝑌𝑖 − 𝑌�𝑖2最小之𝛽0及𝛽1之估計式

證明: 令

最小平方估計值�̂�0 = 𝑏0及�̂�1 = 𝑏1,必須滿足以上兩個等式,因此可得

�̂�0𝑛 + �̂�1�𝑥𝑖

𝑛

𝑖=1

= �𝑦𝑖

𝑛

𝑖=1

�̂�0 ∑ 𝑥𝑖𝒏𝒊=𝟏 + �̂�1 ∑ 𝑥𝑖2𝑛

𝑖=1 = ∑ 𝑥𝑖𝑦𝑖𝑛𝑖=1

統計學(一)唐麗英老師上課講義 18

( ) ( ) ( )2 2

0 1 0 11 1

ˆ,n n

i i i ii i

S y x y yβ β β β= =

= − + = −∑ ∑

( ) ( ) ( )0 10 1

10

,2 1 0

n

i ii

Sy x

β ββ ββ =

∂= − + − =

∂ ∑

( ) ( ) ( )0 10 1

11

,2 0i

n

i ii

Sy x x

β ββ ββ =

∂= − + − =

∂ ∑

如何以最小平方法找出Yi=𝜷𝟎 + 𝜷𝟏Xi+εi中𝜷𝟎與𝜷𝟏之估計式

Page 19: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

此兩式稱作正規等式(normal equations),此兩式的解即為最小平方估計式。

統計學(一)唐麗英老師上課講義 19

b0 = 𝛽�0 = 𝑦� − 𝛽1𝑥�

b1 = 𝛽�1 = ∑𝑥𝑖𝑦𝑖 − ∑𝑥𝑖 ∑𝑦𝑖 /𝑛∑𝑥𝑖2 − ∑𝑥𝑖 2/𝑛

=𝑆𝑆𝑥𝑥𝑆𝑆𝑥

如何以最小平方法找出Yi=𝜷𝟎 + 𝜷𝟏Xi+εi中𝐛𝟎與𝐛𝟏之估計式

Page 20: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

Chapter 11.7: 相關分析

(Correlation Analysis)

統計學(一)唐麗英老師上課講義 20

Page 21: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

Correlation Analysis

Recall:

群體相關係數: 𝝆 = 𝝈𝒙𝒙𝝈𝒙𝝈𝒙

樣本相關係數: r = ∑ 𝑿−𝒙� 𝒀−𝒙�𝒏𝒊=𝟏

∑ 𝑿−𝒙� 𝟐 ∑ 𝒀−𝒙� 𝟐 = 𝑺𝒙𝒙𝑺𝒙𝑺𝒙

統計學(一)唐麗英老師上課講義 21

Page 22: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

Correlation Analysis

關於r之假說檢定步驟: 假設:εi~NID(0,σ2) 1)H0:𝝆=0 H1:𝝆≠0 2)設定𝛼值

3)檢定統計量:𝑡 = 𝑟 𝑛−21−𝑟2

4)棄卻域:查t-表,自由度=n-2 5)下結論

統計學(一)唐麗英老師上課講義 22

Page 23: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

統計學(一)唐麗英老師上課講義 23

Correlation Analysis 例8: 某食品廠商想要知道廣告支出與年銷售量之間的線性相關程度,他蒐集了最近8年之資料如下表所示。

試以相關分析,找出廣告支出與銷售量間的相關性。

廣告支出

300 400 500 500 800 1000 1000 1300

年銷售量

9500 10300 11000 12000 12400 13400 14500 15300

Page 24: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

Correlation Analysis

例8: (續)

r = ∑ 𝑋−�̅� 𝑌−𝑥�𝑛𝑖=1

∑ 𝑋−�̅� 2 ∑ 𝑌−𝑥� 2 = 𝑀𝑥𝑥𝑀𝑥𝑀𝑥

=0.966

1)H0:𝝆=0 , H1:𝝆≠0 2)𝛼 = 0.01

3)檢定統計量:𝑡 = 𝑟 𝑛−21−𝑟2

= 0.966 (8−2)(1−0.9662)

= 9.152

4)棄卻域:𝑡 8−2 ,0.01 = 3.143 < 9.152 5)下結論: Reject H0,兩變數間的線性關係非常顯著。

統計學(一)唐麗英老師上課講義 24

Page 25: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

αt

α

Page 26: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版
Page 27: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版
Page 28: (Simple Regression Analysis and Correlation Analysis)ocw.nctu.edu.tw/course/stat032/11.5_11.7.pdf · – 王春和、唐麗英(2007),「Excel 統計分析」,第二版

本單元結束

統計學(一)唐麗英老師上課講義 28