(simple regression analysis and correlation...
TRANSCRIPT
第十一章簡單廻歸分析與相關分析 (Simple Regression Analysis and
Correlation Analysis) 授課教師:唐麗英教授
國立交通大學 工業工程與管理學系 聯絡電話:(03)5731896
e-mail:[email protected] 2015
☆ 本講義未經同意請勿自行翻印 ☆
統計學(二)
本課程內容參考書目
• 教科書 – P. Newbold, W. L. Carlson and B. Thorne(2013). Statistics for Business and the Economics, 8𝑡𝑡 Edition, Pearson.
• 參考書目 – Berenson, M. L., Levine, D. M., and Krehbiel, T. C. (2009). Basic business statistics: Concepts and
applications, 11𝑡𝑡 EditionPrentice Hall.
– Larson, H. J. (1982). Introduction to probability theory and statistical inference, 3𝑟𝑟 Edition, New York: Wiley.
– Miller, I., Freund, J. E., and Johnson, R. A. (2000). Miller and Freund's Probability and statistics for engineers, 6𝑡𝑡 Edition, Prentice Hall.
– Montgomery, D. C., and Runger, G. C. (2011). Applied statistics and probability for engineers, 5𝑡𝑡 Edition, Wiley.
– Watson, C. J. (1997). Statistics for management and economics, 5th Edition. Prentice Hall. – 唐麗英、王春和(2013),「從範例學MINITAB統計分析與應用」,博碩文化公司。 – 唐麗英、王春和(2008),「SPSS 統計分析 」,儒林圖書公司。 – 王春和、唐麗英(2007),「Excel 統計分析」,第二版,儒林圖書公司。 – 唐麗英、王春和(2005),「STATISTICA與基礎統計分析」,儒林圖書公司。
統計學(一)唐麗英老師上課講義 2
統計學(一)唐麗英老師上課講義 3
Linear Regression Model
Chapter 11.1-11.5 Simple Regression Analysis迴歸分析
統計學(一)唐麗英老師上課講義 4
Regression Analysis
迴歸分析之意義 迴歸分析之主要目的是探究一個或數個自變數(independent variable) 和一個因變數(dependent variable) 間的關係,進而建構一個適當的數學方程式,並利用此方程式來解釋或預測因變數之值。在迴歸分析中自變數(又稱解釋變數)以X表之,因變數(又稱反應變數)以Y表之;自變數X與因變數Y之間的函數關係或數學方程式,稱為迴歸模式。
統計學(一)唐麗英老師上課講義 5
Regression Analysis
迴歸分析的例子 1. 某股票分析師想要建立台灣某上市公司之股價(Y)與該公
司各項財務指標(X)之迴歸模式,以準確地預測該公司之股價。
2. 某工程師想要建立某種化學合成之反應物含量(Y)與其合成時間(X)之迴歸模式,以預測該反應物之含量。
3. 交通大學附近某房屋仲介想要藉由學生套房坪數的大小(X)與套房的月租(Y)之迴歸模式來預測學生套房之月租。
統計學(一)唐麗英老師上課講義 6
Regression Analysis
簡單迴歸與複迴歸 影響因變數之自變數通常不只一個,例如:房價(Y)可能與房子大小(x1)、房齡(x2)、離市區距離(x3)、有無空調(x4)等因素都有關,但這些因素是否均會影響因變數呢? 可以利用迴歸分析來找出影響房價最重要的因素,以作為預測房價的重要根據。
統計學(一)唐麗英老師上課講義 7
例1: a)如何由房子大小來預測房價? b)如何由房子大小、房齡…等來預測房價?
統計學(一)唐麗英老師上課講義 8
Regression Analysis
例1: (續) 在迴歸分析中若只考慮一個自變數,則稱為簡單迴歸(Simple Regression),否則,稱為複迴歸或多元迴歸(Multiple Regression)。
統計學(一)唐麗英老師上課講義 9
Regression Analysis
統計學(一)唐麗英老師上課講義 10
Regression Analysis 例2: 在例1中 a)由房子大小來預測房價屬簡單迴歸 b)由房子大小、房齡…等來預測房價屬複迴歸
Regression Analysis
在進行迴歸分析之前,需先要瞭解變數間呈何種關係,才能適配一個適當之數學方程式或迴歸模式。 如何決定兩變數間的關係 -利用散佈圖。 何謂散佈圖(scatter diagram)? - 將X變數標示於一維座標圖的橫座標,Y變數標示於縱座標,並將各(X,Y)各對應值點繪在X-Y二維座標上,以觀察點之變化,此圖形即稱為散佈圖。
統計學(一)唐麗英老師上課講義 11
Regression Analysis
兩變數間之關係 1)正相關(positive relationship) 假如X增加,則Y增加;或X減少,而Y減少,稱為X與Y有正相關。 2)負相關(negatiue relationship) 假如Y增加,則X減少;或X減少,而Y增加,稱為X與Y有負相關。 3)不相關(no relationship) 在散佈圖中之點大部份與水平軸平行,看不出任何特殊圖形。
統計學(一)唐麗英老師上課講義 12
統計學(一)唐麗英老師上課講義 13
Regression Analysis 例3: a) b) c) d) e) f)
負向線性 正向線性
曲線 曲線
二次函數 無明顯
Regression Analysis
收集迴歸分析的資料時須注意什麼? 1)迴歸分析的資料必須能代表所研究的系統或問題。 2)在作迴歸分析之前須先確定資料不含離群值。 迴歸模式有什麼用處? 1)描述資料 2)估計參數 3)預測與估計因變數之值 4)控制因變數之值
統計學(一)唐麗英老師上課講義 14
簡單迴歸分析 如何決定簡單直線迴歸模式? 由散佈圖大致可看出自變數與因變數間的關係。自變數與因變數間最簡單的關係即為直線關係。
真實之簡單直線迴歸模式如下
其中𝑌𝑖表第i個觀測值;
𝑋𝑖表對應於第i個觀測值之自變數之值;
𝛽0為截距;
𝛽1為斜率,表自變數每增加一單位時,因變數Y的改變量;
εi 表隨機誤差。 統計學(一)唐麗英老師上課講義 15
𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝜀𝑖
簡單迴歸分析
如何決定與觀測值最適配之直線迴歸模式? --利用 最小平方法 (Least Squares Method) 何謂最小平方法? 樣本直線迴歸式: 其中𝑌�𝑖為在特定之Xi值下之Y估計值的平均。 𝑏0與𝑏1分別為𝛽0與𝛽1之不偏估計值 利用最小平方法可找出𝑏0與𝑏1之公式,此公式可使Σ(𝑌𝑖 − 𝑌�𝑖)2
為最小。 統計學(一)唐麗英老師上課講義 16
𝑌�𝑖 = 𝑏0 + 𝑏1𝑋𝑖
簡單迴歸分析
利用最小平方法可找出𝑏0與𝑏𝟏之公式,此公式可使∑(𝑌𝑖−𝑌�𝑖)2為最小。
其中SSXY= ∑ 𝑋𝑖 − 𝑌� 𝑌𝑖 − 𝑌� = ∑𝑋𝑌 − (∑ 𝑋)(∑ 𝑌)𝑛
;
SSX= ∑(𝑋𝑖 − 𝑋�)2 = ∑𝑋2 − (∑ 𝑋)2
𝑛
何謂殘差( Residual ) 𝒆𝒊 ?
𝑒𝑖 =𝑌𝑖 − 𝑌�𝑖 (※∑𝑒𝑖 =0)
統計學(一)唐麗英老師上課講義 17
𝑏1 =𝑆𝑆𝑋𝑌𝑆𝑆𝑋
𝑏0 =𝑌� −𝑏1𝑋�
迴歸模式好壞之判斷
如何定義迴歸分析中的幾個變異量? 在迴歸模式中,為了要知道自變數預測因變數的能力,必須要知道下列三個變異數的衡量值: 1)總變異量=SST=Σ(𝑌𝑖 − 𝑌�)2=Σ𝑌𝑖 2-(Σ𝑌𝑖)2/n=SSy (Total variation) 2)迴歸可解釋的變異量=SSR=Σ(𝑌�𝑖 − 𝑌�)2=bSSxy=(SSxy)2/SSx (Explained Variation) 3)其他因素解釋的變異量=SSE=Σ(𝑌𝑖-𝑌�𝑖)2=SST-SSR (Unexplained Variation)
統計學(一)唐麗英老師上課講義 18
迴歸模式好壞之判斷
Σ(𝑌𝑖 -𝑌�)2=Σ(𝑌�𝑖-𝑌�)2+Σ(𝑌𝑖 -𝑌�)2 即 總變異量=迴歸可解釋的變異量+其他因素解釋的變異量
SST = SSR + SSE
統計學(一)唐麗英老師上課講義 19
迴歸模式好壞之判斷
如何判斷X對預測Y提供了有用的資訊(或迴歸方程式是否顯著)?
(1)由圖形判定(限簡單迴歸模式) ※資料點與迴歸方程式越接近表迴歸模式越有用。 (2)判定係數r2 (Coefficient of Determination):判定係數是用來衡量自變數(X)所能解釋因變數(Y)之變異量占Y總變異量的百分比。
r2 =迴歸式可解釋的變異量總變異量
= 𝑆𝑆𝑆𝑆𝑆𝑆
(0≦r2≦1)
※r2值越近 1 越好。
統計學(一)唐麗英老師上課講義 20
迴歸模式好壞之判斷
相關係數r (Correlation Coefficient)是用來衡量兩個隨機變數X與Y間直線關係的方向與強弱。
r可由± 𝑟2求得,‘+’或‘-’符號則與斜率𝑏1同。 1)-1≦r≦1 2) r=0並不一定表示Y與X間沒有關係,僅表示Y與X間無線性關係。
統計學(一)唐麗英老師上課講義 21
迴歸模式好壞之判斷
(3)統計檢定---t test 及 F test 如何用統計方法來檢定X是否對預測Y提供了有用的資訊(或X與Y之間
是否存在顯著的線性關係)? 假設X與Y之間完全無關(亦即在預測Y值上,X幾乎未提供任何有用的資訊),則在線性模式:𝑌�= 𝛽0+𝛽1X中, 𝛽1值應為何? 𝜷𝟏 =0 ! 因此,我們必須檢定𝛽1 。假如H0: 𝛽1 =0被拒絕,則可以下結論認為有足夠的證據顯示「X與Y之間有顯著之線性關係」或「X在對預測Y上提供了有用的資訊」。
統計學(一)唐麗英老師上課講義 22
迴歸模式好壞之判斷
對迴歸係數作估計與檢定時,須有何統計假設? 在線性模式Yi= 𝛽0 + 𝛽1Xi+εi中,為了檢定H0: 𝛽1 =0,首先須假設誤差項εi彼此獨立且服從平均數為0和變異數為σ2 的 常態 分配 (亦即εi~N(0,σ2))。
統計學(一)唐麗英老師上課講義 23
迴歸模式好壞之判斷
H0: 𝛽1 =0的兩種檢定 1.ANOVA F test: 可利用ANOVA的F檢定來檢定X與Y之間是否有顯著之線性關係。 簡單迴歸之ANOVA表:
統計學(一)唐麗英老師上課講義 24
變異來源 平方和 自由度 均方 F
迴歸 誤差
SSR SSE
1 n-2
SSR/1=MSR SSE/(n-2)=MSE=𝜎�2 MSR/MSE
總和 SST n-1
迴歸模式好壞之判斷 ANOVA之檢定程序: 假設:εi~NID(0,σ2) 1) 𝐇𝟎: 𝜷𝟏=0 (X與Y之間沒有線性關係;或對預測Y而言,迴歸模式 無法提供有用之資訊) 𝐇𝟏: 𝜷𝟏≠0 (X與Y之間有線性關係,即斜率不為0;或在預測Y上, 迴歸模式有用) 2)設定𝜶值 3)檢定值:F = 𝑴𝑴𝑴
𝑴𝑴𝑴
4)棄卻域:查F-表,自由度=(1,n-2)或計算p-值 5)下結論
統計學(一)唐麗英老師上課講義 25
迴歸模式好壞之判斷
2. t test: *檢定程序: 假設:εi~NID(0,σ2) 1) H0: 𝛽1 = 𝛽1
∗ , H1: 𝛽1 ≠ 𝛽1∗
2)設定𝛼值
3)檢定值:t= 𝑏1−𝛽1∗
𝑀𝑀𝑀𝑀𝑀𝑥�
4)棄卻域:查t-表,自由度=n-2或計算p-值 5)下結論
統計學(一)唐麗英老師上課講義 26
迴歸模式好壞之判斷
簡單迴歸中,ANOVA 之 F檢定與t檢定有何關係?
對檢定相同的假設H0: 𝛽1=0 ,ANOVA之 F檢定與t檢定間的關係為:
F(1,r)=t2(r)
統計學(一)唐麗英老師上課講義 27
統計學(一)唐麗英老師上課講義 28
迴歸模式好壞之判斷 例4:
假設某產品之某種成份的含有率會隨溫度的變動而改變,工程師現做了12次實驗得資料如下表示:
溫度(F)(X)
含有率(%)(Y)
182
185
186
188
190
193
194
195
192
197
192
185
92
91
91
89
88
86
87
86
87
85
88
90
(本例改編自白賜清編著之「品質管制之統計方法」)
統計學(一)唐麗英老師上課講義 29
迴歸模式好壞之判斷 例4:(續)
試回答下列問題: a)本例中之自變數與因變數各為何? b)請畫出x-y散佈圖並判斷自變數與因變數之關係? c)請找出迴歸方程式。 d)判斷迴歸方程式是否適配原始資料? e)解釋迴歸係數𝑏𝟏在本例中之意義為何? f)假設溫度為187℉,則估計之平均含有率為何?
統計學(一)唐麗英老師上課講義 30
迴歸模式好壞之判斷 例4:(續)
【解】 a)本例中之自變數為_溫度__與因變數為__含有率___。 b)請畫出x-y散佈圖並判斷自變數與因變數之關係為何? 自變數與因變數間之關係為__負向線性關係___.
84858687888990919293
180 185 190 195 200
含有率
溫度X
含有率Y
統計學(一)唐麗英老師上課講義 31
迴歸模式好壞之判斷
例4:(續) 【解】c)找出迴歸方程式。
計算表 令𝑥∗=(x-189) 令𝑦∗=(y-89)
x y 𝑥∗ 𝑦∗ 𝑥∗𝑦∗ 𝑥∗2 𝑦∗2 182 92 -7 3 -21 49 9 185 91 -4 2 -8 16 4 186 91 -3 2 -6 9 4 188 89 -1 0 0 1 0 190 88 1 -1 -1 1 1 193 86 4 -3 -12 16 9 194 87 5 -2 -10 25 4 195 86 6 -3 -18 36 9 192 87 3 -2 -6 9 4 197 85 8 -4 -32 64 16 192 88 3 -1 -3 9 1 185 90 -4 1 -4 16 1
總計 ∑𝒙∗=11 ∑𝒚∗=-8 ∑𝒙∗𝒚∗=-121 ∑𝒙∗2 =251 ∑𝒚∗2 =62
統計學(一)唐麗英老師上課講義 32
迴歸模式好壞之判斷
例4:(續) 【解】
𝑌� = 𝑏0 + 𝑏1𝑋
𝑏1 = 𝑆𝑆𝑋𝑋𝑆𝑆𝑋
= −113.667240.917
= −0.472
𝑌� = 89 +−812
= 88.333
𝑋� = 189 + 1112
= 189.917
𝑏0 = 𝑌� − 𝑏1𝑋� = 88.333 − −0.472 189.917 = 177.974
∴ 𝑌� = 𝑏0 + 𝑏1𝑋 = 177.974 − 0.472𝑋
𝑆𝑆𝑋𝑌 = 𝑆𝑆𝑥∗𝑦∗ = �𝑥∗𝑦∗ − ∑𝑥∗ ∑𝑦∗𝑛 = −121 −
11 ∗ (−8)12 = −113.667
𝑆𝑆𝑋 = 𝑆𝑆𝑥∗ = ∑𝑥∗2 − ∑ 𝑥∗ 2
𝑛= 251 − 112
12= 240.917
𝑆𝑆𝑌 = 𝑆𝑆𝑦∗ = �𝑦∗2 −∑𝑦∗ 2
𝑛= 62 −
(−8)2
12= 56.667
n=12,∑𝑥∗=11,∑𝑦∗=-8,∑𝑥∗𝑦∗=-121,∑𝑥∗2=251,∑𝑦∗2 =62
統計學(一)唐麗英老師上課講義 33
迴歸模式好壞之判斷
例4:(續) 【解】d)判斷迴歸方程式是否適配原始資料?
共分成以下四個部分說明: 1) 將迴歸模式繪於原始資料之散佈圖中,並判斷此迴歸模式是否適配樣本點。
統計學(一)唐麗英老師上課講義 34
迴歸模式好壞之判斷 例4:(續)
2) 計算判定係數r2。 【解】
r2 =迴歸式可解釋的變異量總變異量
= 𝑆𝑆𝑆𝑆𝑆𝑆
= 0.9463=94.63%
SST= SSy=Σ(Yi-𝑌� )2=ΣYi
2-(ΣYi)2/n =56.667
SSR=Σ(𝑌𝑖� -𝑌� )2=(SSxy)2/SSx =−113.667 2
240.92= 53.628
• r2 ≅0.9464:溫度(X)的變異會引起94.64%含有率的變異。 即溫度確實是影響含有率的一個重要因素。
統計學(一)唐麗英老師上課講義 35
迴歸模式好壞之判斷
例4:(續) 3) 計算相關係數r。
𝑟 = − 𝑟2 (符號同斜率之符號) = −0.9728:溫度與含有率間有非常強的負向線性關係。 即簡單線性模式是一個很好的預測模式。
統計學(一)唐麗英老師上課講義 36
迴歸模式好壞之判斷
例4:(續) 4) 利用ANOVA F test來檢定溫度(x)與含有率(y)間是否有顯著的
直線關係?
自由度 SS MS F
迴歸 1 53.628 53.628 176.46 殘差 10 3.039 0.3039 總和 11 56.667
統計學(一)唐麗英老師上課講義 37
迴歸模式好壞之判斷 例4:(續)
4) 利用ANOVA F test來檢定溫度(x)與含有率(y)間是否有顯著的直線關係。
假設:εi~NID(0,σ2) 1) H0:𝛽1=0(x與y之間沒有線性關係) H1:𝛽1≠0(x與y之間有線性關係亦即斜率不為0) 2)𝛼=0.05 3)檢定值:F= 53.628
0.3039= 176.46
4)棄卻域:臨界值F(1,10)=4.965 5)結論:溫度與含有率間有顯著的直線關係。
統計學(一)唐麗英老師上課講義 38
迴歸模式好壞之判斷 例4:(續)
5)利用t test來檢定溫度(x)是否為含有率(y)的一個有用的預測變數? 【解】 假設:εi~NID(0,σ2) 1) H0:𝛽1=0 H1:𝛽1≠0 2)設定𝛼值 3)檢定值:t=
−0.47180.3039240.92
= -13.28
4)棄卻域:臨界值t=+或-2.228 5)結論:溫度(x) 是 含有率(y)的一個有用的預測 變數。
統計學(一)唐麗英老師上課講義 39
迴歸模式好壞之判斷 例4:(續)
e) 迴歸係數b在本例中之意義為何? 【解】 𝑏1=-0.4718:當溫度每增加1°F時,平均含有率會下降0.4718%。 f) 設溫度為187,則估計之平均含有率為何? 【解】 𝑌�=177.94-0.4718(187)=99.54%
統計學(一)唐麗英老師上課講義 40
迴歸模式好壞之判斷
作迴歸分析時應注意事項: 1)利用迴歸模式估計y時,所給定之x值必須在樣本之x值範圍內,y之估計值才會準確。上例中,當所給定之X值介於 182 與 197 間,Y之估計值才會準確。 2)迴歸式並不表示自變數與因變數間一定有 因果 關係。其因果關係可能須經由第三變數或其他理論依據而成立。
統計學(一)唐麗英老師上課講義 41
迴歸模式好壞之判斷
【例題4之Excel報表】:
迴歸統計 R的倍數 0.9728 R平方 0.9464 調整的R平方 0.9410 標準誤 0.551154 觀察值個數 12
統計學(一)唐麗英老師上課講義 42
迴歸模式好壞之判斷
ANOVA 表 自由度 SS MS F 顯著值
迴歸 1 53.62896 53.62896 176.5444 0 殘差 10 3.037703 0.30377 總和 11 56.66667
係數 標準誤 t統計 P-值
截距 177.9377 6.74564 26.37818 0 溫度 -0.47181 0.035509 -13.287 0
統計學(一)唐麗英老師上課講義 43
迴歸模式好壞之判斷
殘差輸出 觀測值 含有率 殘差
1 90.65306 -0.65306 2 87.3504 0.649602 3 84.99135 0.008648 4 87.3504 -0.3504 5 85.93497 0.065029 6 86.40678 0.59322 7 86.87859 -0.87859 8 88.29402 -0.29402 9 89.23763 -0.23763
10 90.18125 0.818748 11 90.65306 0.346939 12 92.06849 -0.06849
迴歸模式好壞之判斷
統計學(一)唐麗英老師上課講義 44
迴歸模式好壞之判斷
統計學(一)唐麗英老師上課講義 45
例5: 某校工管研究所開設高等統計學,現隨機蒐查其中12位同學的期中考成績與期末考成績,如下表示。試適配期末考成績之簡單迴歸模式。
期中考成績(X)
期末考成績(Y)
56
74
90
63
91
53
81
65
74
90
77
63
64
80
82
68
89
61
76
70
80
93
71
58
迴歸模式好壞之判斷
統計學(一)唐麗英老師上課講義 46
例5: (續) 期末考成績之簡單迴歸模式 𝐘�=20.50+0.737X
αt
α
本單元結束
統計學(一)唐麗英老師上課講義 50