(simple regression analysis and correlation...
TRANSCRIPT
統計學(二) 第十一章簡單廻歸分析與相關分析
(Simple Regression Analysis and Correlation Analysis)
授課教師:唐麗英教授
國立交通大學 工業工程與管理學系 聯絡電話:(03)5731896
e-mail:[email protected] 2015
☆ 本講義未經同意請勿自行翻印 ☆
本課程內容參考書目
• 教科書 – P. Newbold, W. L. Carlson and B. Thorne(2013). Statistics for Business and the Economics, 8𝑡𝑡 Edition, Pearson.
• 參考書目 – Berenson, M. L., Levine, D. M., and Krehbiel, T. C. (2009). Basic business statistics: Concepts and
applications, 11𝑡𝑡 EditionPrentice Hall.
– Larson, H. J. (1982). Introduction to probability theory and statistical inference, 3𝑟𝑟 Edition, New York: Wiley.
– Miller, I., Freund, J. E., and Johnson, R. A. (2000). Miller and Freund's Probability and statistics for engineers, 6𝑡𝑡 Edition, Prentice Hall.
– Montgomery, D. C., and Runger, G. C. (2011). Applied statistics and probability for engineers, 5𝑡𝑡 Edition, Wiley.
– Watson, C. J. (1997). Statistics for management and economics, 5th Edition. Prentice Hall. – 唐麗英、王春和(2013),「從範例學MINITAB統計分析與應用」,博碩文化公司。 – 唐麗英、王春和(2008),「SPSS 統計分析 」,儒林圖書公司。 – 王春和、唐麗英(2007),「Excel 統計分析」,第二版,儒林圖書公司。 – 唐麗英、王春和(2005),「STATISTICA與基礎統計分析」,儒林圖書公司。
統計學(一)唐麗英老師上課講義 2
統計學(一)唐麗英老師上課講義 3
Linear Regression Model
Chapter 11.5(續)-11.6:
迴歸模型的應用
統計學(一)唐麗英老師上課講義 4
Regression Analysis
解釋迴歸模式(解釋X與Y的關係) 真實之簡單直線迴歸模式: 𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝜀𝑖 樣本直線迴歸式: 𝑌�𝑖 = 𝑏0 + 𝑏1𝑋𝑖 其中𝑌�𝑖為在特定之Xi值下之Y估計值。
統計學(一)唐麗英老師上課講義 5
Regression Analysis
請注意:假設:εi~NID(0,σ2),則 b0與b1為β0與β1之不偏估計式,即E(b0)= β0, E(b1)= β1.
V(b0) = 𝜎2(∑ 𝑥𝑖2𝑛
𝑖=1𝑛
) ∑ 𝑥𝑖 − �̅� 2𝑛𝑖=1 ;
𝑆b0= 𝑀𝑆𝑀 ∑ 𝒙𝒊𝟐
𝒏∑ 𝑥𝑖 − �̅� 2𝑛𝑖=1
𝒏𝒊=𝟏
V(b1) = 𝜎b12 = 𝜎2
∑ (𝑥𝑖−�̅�)2𝑛𝑖=1
𝑆b1= 𝑀𝑀𝑀∑ 𝑥𝑖−�̅� 2 = 𝑀𝑀𝑀
𝑀𝑀𝑥
統計學(一)唐麗英老師上課講義 6
Regression Analysis
b1之抽樣分佈: b1~N(β1, 𝜎b1)
b0之抽樣分佈: b0~N(β0, 𝜎b0) 𝜎�2=MSE ; 𝜎�= Se=(MSE)1/2
Se = 𝑀𝑆𝑀稱作Y之估計標準誤
統計學(一)唐麗英老師上課講義 7
Regression Analysis
斜率𝛽𝟏之(1-𝜶)100%信賴區間 (假設εi~NID(0,σ2), b~Normal)) 𝑏1 − 𝑡 𝑛−2,𝛼2
𝑠𝑏1 < 𝛽1 < 𝑏1 + 𝑡 𝑛−2,𝛼2𝑠𝑏1
= 𝑏1 ± 𝑡 𝑛−2,𝛼2
𝑀𝑆𝑀𝑆𝑆𝑥
統計學(一)唐麗英老師上課講義 8
例6: 請找出本講義例4中斜率𝜷𝟏之95%信賴區間並解釋其意義。 (已知: 𝜎�2=MSE=0.3039 , �̅�=189.917, n=12, Σ(x-�̅�)2=240.917)
統計學(一)唐麗英老師上課講義 9
Regression Analysis
例6:(續) [解]:
b1 ± 𝑡 𝑛−2,𝛼2
𝑀𝑆𝑀
𝑆𝑆𝑥= −0.472 ± 2.228 ×
0.3039
240.917
= −0.472 ± 0.0791 = (−0.5510,−0.3927)
統計學(一)唐麗英老師上課講義 10
Regression Analysis
Regression Analysis
1. 在特定之𝑿 = 𝒙𝟎值下,E(𝒀|𝒙𝟎)=𝝁𝒀|𝒙𝟎之 (1-𝜶)100%估計區間(confidence interval for predictions)
𝑦�𝟎 ± 𝑡𝑛−2,𝛼 2�1𝑛
+(𝑥𝟎 − �̅�)2
∑ (𝑥𝑖 − �̅�)2𝑛𝑖=1
𝑆𝑒
= 𝑦�𝟎 ± 𝑡𝑛−2,𝛼 2⁄1𝑛
+ (𝑥0−�̅�)2
𝑀𝑀𝑥𝑀𝑆𝑀
其中𝑦�0= b0+ b1x0.
統計學(一)唐麗英老師上課講義 11
Regression Analysis-預測Y值
2. 在特定之X = 𝒙𝟎值下,預測第n+1筆新觀察值(yn+1): 新觀察值yn+1 之(1-𝜶)100%預測區間(prediction Interval) :
𝑦�𝑛+1 ± 𝑡𝑛−2,𝛼 2⁄ 1 + 1𝑛
+ (𝑥𝟎−�̅�)2
∑ (𝑥𝑖−�̅�)2𝑛𝑖=1
𝑆𝑒
=𝑦�𝑛+1 ± 𝑡𝑛−2,𝛼 2⁄ 1 + 1𝑛
+ (𝑥𝟎−�̅�)2
𝑺𝑺𝒙𝑀𝑆𝑀
其中𝑦�𝑛+1= b0+ b1x0.
統計學(一)唐麗英老師上課講義 12
統計學(一)唐麗英老師上課講義 13
Regression Analysis 例7: Given a simple regression model:
𝑦�𝑖 = 14 + 7𝑥𝑖 and also 𝜎�2=𝑆𝑒2=MSE=55.5, �̅�=8, n=25, Σ(x-�̅�)2=300=𝑆𝑆𝑥. a) Find the 95% confidence interval for 𝛽1and interpret the meaning of this confidence interval. b) Find the 95% confidence interval for the point where x=12. c) Find the 95% prediction interval for the point where x=12.
統計學(一)唐麗英老師上課講義 14
Regression Analysis 例7: (續) [解] a) 95% C.I for 𝛽1:
𝑏1 ± 𝑡𝑛−2,𝛼 2�𝑀𝑆𝑀𝑆𝑆𝑥
= 7 ± 2.06955.5300
= (6.1041,7.8959)
b) 95% C.I for 𝜇𝑌|𝑥 = 12: 當𝑥 = 12時,𝑌� = 14 + 7𝑥 = 14 + 7 × 12 = 98
98 ± 𝑡23,0.0251
25+
12 − 8 2
30055.5 = (93.2899,102.7101)
統計學(一)唐麗英老師上課講義 15
Regression Analysis 例7: (續)
[解] c) 95% prediction interval for 𝑌� when 𝑥 = 12: 當𝑥 = 12時,𝑌� = 98
98 ± 𝑡23,0.025 1 +1
25+
12 − 8 2
30055.5
= (81.8839,114.1165)
如何以最小平方法找出Yi=𝜷𝟎 + 𝜷𝟏Xi+εi中𝜷𝟎與𝜷𝟏之估計式
最小平方法(Least Squares Method) • 簡單線性迴歸分析主要是找到一條最適配data的直線。 • 所謂最適配是指所找出之直線方程式所得預測Y值(𝑌�)與真實
Y值的差異最小.
• 由於(Y-𝑌�)可以有正值或負值,利用最小化∑ 𝑌𝑖 − 𝑌� 2𝑛𝑖=1 (即
𝑀𝑀𝑛∑ 𝑌𝑖 − 𝑌� 2𝑛𝑖=1 )可找出𝛽0及𝛽1之估計式
統計學(一)唐麗英老師上課講義 16
• 利用最小平方法求𝜷𝟎及𝜷𝟏使∑ 𝑌𝑖 − 𝑌�𝑖2最小化,可得:
其中𝑆𝑆𝑥𝑥 = � 𝑥𝑖 − 𝑋�𝑛
𝑖=1
𝑌𝑖 − 𝑌� = �𝑋𝑌 −∑ 𝑋𝑛𝑖=1 ∑ 𝑌𝑛
𝑖=1𝑛
𝑛
𝑖=1
𝑆𝑆𝑋 = � 𝑋𝑖 − 𝑋� 2𝑛
𝑖=1
= �𝑋2𝑛
𝑖=1
−∑ 𝑋𝑛𝑖=1
2
𝑛
統計學(一)唐麗英老師上課講義 17
𝑏1 = 𝑀𝑀𝑋𝑋𝑀𝑀𝑋
𝑏0 = 𝑌� − 𝑏1𝑋�
如何以最小平方法找出Yi=𝜷𝟎 + 𝜷𝟏Xi+εi中𝜷𝟎與𝜷𝟏之估計式
利用最小平方法找出使∑ 𝑌𝑖 − 𝑌�𝑖2最小之𝛽0及𝛽1之估計式
證明: 令
最小平方估計值�̂�0 = 𝑏0及�̂�1 = 𝑏1,必須滿足以上兩個等式,因此可得
�̂�0𝑛 + �̂�1�𝑥𝑖
𝑛
𝑖=1
= �𝑦𝑖
𝑛
𝑖=1
�̂�0 ∑ 𝑥𝑖𝒏𝒊=𝟏 + �̂�1 ∑ 𝑥𝑖2𝑛
𝑖=1 = ∑ 𝑥𝑖𝑦𝑖𝑛𝑖=1
統計學(一)唐麗英老師上課講義 18
( ) ( ) ( )2 2
0 1 0 11 1
ˆ,n n
i i i ii i
S y x y yβ β β β= =
= − + = −∑ ∑
( ) ( ) ( )0 10 1
10
,2 1 0
n
i ii
Sy x
β ββ ββ =
∂= − + − =
∂ ∑
( ) ( ) ( )0 10 1
11
,2 0i
n
i ii
Sy x x
β ββ ββ =
∂= − + − =
∂ ∑
如何以最小平方法找出Yi=𝜷𝟎 + 𝜷𝟏Xi+εi中𝜷𝟎與𝜷𝟏之估計式
此兩式稱作正規等式(normal equations),此兩式的解即為最小平方估計式。
統計學(一)唐麗英老師上課講義 19
b0 = 𝛽�0 = 𝑦� − 𝛽1𝑥�
b1 = 𝛽�1 = ∑𝑥𝑖𝑦𝑖 − ∑𝑥𝑖 ∑𝑦𝑖 /𝑛∑𝑥𝑖2 − ∑𝑥𝑖 2/𝑛
=𝑆𝑆𝑥𝑥𝑆𝑆𝑥
如何以最小平方法找出Yi=𝜷𝟎 + 𝜷𝟏Xi+εi中𝐛𝟎與𝐛𝟏之估計式
Chapter 11.7: 相關分析
(Correlation Analysis)
統計學(一)唐麗英老師上課講義 20
Correlation Analysis
Recall:
群體相關係數: 𝝆 = 𝝈𝒙𝒙𝝈𝒙𝝈𝒙
樣本相關係數: r = ∑ 𝑿−𝒙� 𝒀−𝒙�𝒏𝒊=𝟏
∑ 𝑿−𝒙� 𝟐 ∑ 𝒀−𝒙� 𝟐 = 𝑺𝒙𝒙𝑺𝒙𝑺𝒙
統計學(一)唐麗英老師上課講義 21
Correlation Analysis
關於r之假說檢定步驟: 假設:εi~NID(0,σ2) 1)H0:𝝆=0 H1:𝝆≠0 2)設定𝛼值
3)檢定統計量:𝑡 = 𝑟 𝑛−21−𝑟2
4)棄卻域:查t-表,自由度=n-2 5)下結論
統計學(一)唐麗英老師上課講義 22
統計學(一)唐麗英老師上課講義 23
Correlation Analysis 例8: 某食品廠商想要知道廣告支出與年銷售量之間的線性相關程度,他蒐集了最近8年之資料如下表所示。
試以相關分析,找出廣告支出與銷售量間的相關性。
廣告支出
300 400 500 500 800 1000 1000 1300
年銷售量
9500 10300 11000 12000 12400 13400 14500 15300
Correlation Analysis
例8: (續)
r = ∑ 𝑋−�̅� 𝑌−𝑥�𝑛𝑖=1
∑ 𝑋−�̅� 2 ∑ 𝑌−𝑥� 2 = 𝑀𝑥𝑥𝑀𝑥𝑀𝑥
=0.966
1)H0:𝝆=0 , H1:𝝆≠0 2)𝛼 = 0.01
3)檢定統計量:𝑡 = 𝑟 𝑛−21−𝑟2
= 0.966 (8−2)(1−0.9662)
= 9.152
4)棄卻域:𝑡 8−2 ,0.01 = 3.143 < 9.152 5)下結論: Reject H0,兩變數間的線性關係非常顯著。
統計學(一)唐麗英老師上課講義 24
αt
α
本單元結束
統計學(一)唐麗英老師上課講義 28