multi regression 1 多元迴歸分析 【研究問題】...

43
Multi Regression Multi Regression 1 多多多多多多 多多多多多多 多多多多多 【】 多多多多多 【】 多多多多 多多多多多 多多多多多 多多多多多多 、、、 多多多多 多多多多多 多多多多多 多多多多多多 、、、 多多多多多多多 多多多多多多多 多多多 多多多 多多 多多 多多 多多 多多多多多 多多多多多 多多多多多 【】 多多多多多 【】 多多多多多 多多 多多多多多 多多 多多多多 多多多多 多多多多多多多多 多多多多 」、「 」、「 多多多多 多多多多多多 」、「」、 多多多多 多多多多多多 」、「」、 多多多多多多多多多多多 「」、「 多多多多多多多多多多多 「」、「 」、 」、 多多多多多 「」 多多多多多 「」 多多多多多多多多多多多 「」、「」 多多多多多多多多多多多 「」、「」 多多多 多多多多多多多多多多多多多多多多 」、「」、「」 多多多 多多多多多多多多多多多多多多多多 」、「」、「」 多多多 多多多 多多多多 多多多多 多多 多多 多多多多多 多多多多多多多多 「」 多多多多多 多多多多多多多多 「」 m m ultiple regression ultiple regression 多多 多多多多多多 「」。 多多 多多多多多多 「」。

Post on 22-Dec-2015

329 views

Category:

Documents


8 download

TRANSCRIPT

Multi RegressionMulti Regression 11

多元迴歸分析多元迴歸分析【研究問題】【研究問題】

學生性別、數學焦慮、數學態度、數學投入動機學生性別、數學焦慮、數學態度、數學投入動機是否可有效預測是否可有效預測學生的學生的數學成就數學成就?其?其預測力如何預測力如何??【方法分析】【方法分析】

研究問題中,由於研究問題中,由於預測變項預測變項包括「包括「學生性別學生性別」、」、「「壓力懼怕」、「情緒擔憂」、「考試焦慮」、壓力懼怕」、「情緒擔憂」、「考試焦慮」、「課堂焦慮「課堂焦慮」、」、「學習信心」「學習信心」、、「有用性」、「成「有用性」、「成功態度」功態度」、、「探究動機」、「數學工作投入」、「探究動機」、「數學工作投入」、「數學自我投入」「數學自我投入」等等十一個十一個;;

而而依變項依變項為「為「數學成就數學成就」變項」變項一個一個,因而可採用,因而可採用「多元迴歸分析法」(「多元迴歸分析法」( multiple regressionmultiple regression )或)或稱「複迴歸法」。稱「複迴歸法」。

Multi RegressionMulti Regression 22

多元迴歸分析圖示多元迴歸分析圖示學生性別

壓力懼怕

情緒擔憂

.

.

.

自我投入

數學成就

依變項為連續變數

預測變項為 N 個連續變數

Multi RegressionMulti Regression 33

依變數為類別變數之分析模型依變數為類別變數之分析模型進行多元迴歸時,如果進行多元迴歸時,如果依變數依變數(效標變(效標變數)不是連續變數,而是數)不是連續變數,而是二分類別變數二分類別變數,,應以「應以「區別分析區別分析」或「」或「二元二元 logisticlogistic 迴歸迴歸分析分析」。」。如果如果依變數依變數是是多分類別變數多分類別變數,則須進行,則須進行「「區別分析區別分析」。」。

Multi RegressionMulti Regression 44

迴歸分析的目的迴歸分析的目的找出一個找出一個線性方程式線性方程式,用來說明,用來說明一組預測一組預測變數變數 (X(Xii)) 與準則變數與準則變數 (Y)(Y) 的關係的關係。。瞭解這個方程式的瞭解這個方程式的預測能力預測能力如何。如何。整體關係是否達到顯著水準整體關係是否達到顯著水準??在解釋在解釋準則變數的變異時準則變數的變異時,是否,是否只採用某只採用某些預測變數即具有足夠的預測力些預測變數即具有足夠的預測力??

Multi RegressionMulti Regression 55

線性迴歸的基本假設線性迴歸的基本假設常態性與變異同質性常態性與變異同質性 (normality and equality of va(normality and equality of variance)riance)– 對任何一個自變數對任何一個自變數 XX 而言,依變數而言,依變數 YY 為常態分配,平均為常態分配,平均

數為數為 μμY|XY|X ,變異數為,變異數為 σσ22 。。殘差獨立性殘差獨立性 (independence)(independence)– 每個殘差彼此之間是統計獨立的,觀察值之間彼此不會互每個殘差彼此之間是統計獨立的,觀察值之間彼此不會互

相影響。相影響。直線性直線性 (linearity)(linearity)– 所有抽樣樣本分配的平均數,均在落母群迴歸線上。所有抽樣樣本分配的平均數,均在落母群迴歸線上。eeii~N[0,1]~N[0,1]

當迴歸方程式滿足上述迴歸基本假設,則此迴歸方當迴歸方程式滿足上述迴歸基本假設,則此迴歸方程式具有程式具有線性特性線性特性,並稱為,並稱為線性迴歸線性迴歸否則稱為否則稱為非線非線性迴歸性迴歸。。

Multi RegressionMulti Regression 66

簡單迴歸簡單迴歸 (( 僅有一個預測變數僅有一個預測變數 )) ― ― 模式模式

i 0 1 i1 iiid

2i

Y X ,

~ N(0, ) i 1,2,..., n

其中 且

母體模式:

估計模式:

1Y a bX

Multi RegressionMulti Regression 77

簡單迴歸之簡單迴歸之 ― 係數估計 最小平方法 ― 係數估計 最小平方法 11

(The ordinary least squares approach, OL(The ordinary least squares approach, OLS)S)

n 2 22

ii 1

ˆQ e Y Y Y a bX

Q Q

0 0a b

令 及

i iY na b X 2

i i i iX Y a X b X

標準方程式 (normal equation)

Multi RegressionMulti Regression 88

簡單迴歸之簡單迴歸之 ― 係數估計 最小平方法 ― 係數估計 最小平方法 22

i i Y2

Xi

X X Y Y Sb r

SX X

a Y bX

XY Y XY2

X Y X X

S S Sr r

S S S S

Multi RegressionMulti Regression 99

例題例題某某 1010 名高中畢業生高中成績和大學聯考成名高中畢業生高中成績和大學聯考成績如下。試建立高中畢業成績相對於大學績如下。試建立高中畢業成績相對於大學聯考成績之迴歸模型。聯考成績之迴歸模型。

學生學生 11 22 33 44 55 66 77 88 99 1010

高中高中(X)(X)

1111 1010 66 55 33 77 33 88 99 22

聯考聯考(Y)(Y)

1212 99 99 77 55 55 66 66 1010 33

Multi RegressionMulti Regression 1010

SPSS SPSS ― ― 迴歸分析迴歸分析Analyze Analyze → Regression → Regression → Linear→ Linear

Multi RegressionMulti Regression 1111

多元迴歸 多元迴歸 ― ― 模式模式多元迴歸模式為:多元迴歸模式為:

01 11 1k 12 21 2k 21

n n1 nk nk

Y 1 X XY 1 X X

Y 1 X X

n 1 n (k 1) (k 1) 1 n 1 Y X β ε

i 0 1 i1 2 i2 k i,k iiid

2i

Y X X X ,

~ N(0, ) i 1,2,..., n

其中 且

Multi RegressionMulti Regression 1212

多元迴歸之係數估計 多元迴歸之係數估計 ― ― OLSOLS

SSE e 'e Y Xb ' Y Xb

標準方程式 (normal equation)

X 'X b X 'Y

1 1X 'X X 'X b X 'X X 'Y

1b X 'X X 'Y

Multi RegressionMulti Regression 1313

前例練習前例練習 11

I2

I I

1 111 101 61 5

N X1 1 1 1 1 1 1 1 1 1 1 3 10 64X 'X 11 10 6 5 3 7 3 8 9 2 1 7 64 4980X X1 31 81 91 2

I

I I

12997

Y1 1 1 1 1 1 1 1 1 1 5 72X 'Y 12 9 9 7 5 5 6 6 10 3 5 523X Y66

103

Multi RegressionMulti Regression 1414

前例練習前例練習 22

1b X 'X X 'Y

Multi RegressionMulti Regression 1515

變數選擇變數選擇 11

邏輯基礎:邏輯基礎: 理論基礎、實證基礎、邏輯推理、專家共識理論基礎、實證基礎、邏輯推理、專家共識

統計量基礎:統計量基礎: 利用每一解釋變數對應之偏利用每一解釋變數對應之偏 FF 統計量值之大小決統計量值之大小決

定刪去或留在模式中,其方法有定刪去或留在模式中,其方法有(a) (a)  所有可能迴歸法所有可能迴歸法 (All-Possible-Regression Pr(All-Possible-Regression Pr

ocedure )ocedure )(b) (b)  後退淘汰法後退淘汰法 (Backward Elimination Procedu(Backward Elimination Procedu

re)re)(c) (c)  前進選擇法前進選擇法 (Forward Selection Procedure)(Forward Selection Procedure)(d) (d)  逐步迴歸法逐步迴歸法 (Stepwise Regression Procedure)(Stepwise Regression Procedure)

Multi RegressionMulti Regression 1616

變數選擇變數選擇 22

後退淘汰法後退淘汰法 (Backward Elimination Proce(Backward Elimination Procedure)dure)先將所有的變數放入迴歸方程式中先將所有的變數放入迴歸方程式中,,然後根據然後根據淘汰標準一一將不符合標準的變數加以淘汰淘汰標準一一將不符合標準的變數加以淘汰。。

前進選擇法前進選擇法 (Forward Selection Procedur(Forward Selection Procedure)e)第一個進入迴歸方程式的變數是與依變數有最第一個進入迴歸方程式的變數是與依變數有最大相關的變數,第一個變數進入模型之後大相關的變數,第一個變數進入模型之後,,再再以判定係數值以判定係數值 (F)(F) 檢查第二個變數該誰進入檢查第二個變數該誰進入,,依此類推依此類推,,直到沒有其他的變數符合選取的標直到沒有其他的變數符合選取的標準為止。準為止。

Multi RegressionMulti Regression 1717

變數選擇變數選擇 33

逐步迴歸法逐步迴歸法 (Stepwise Regression Proced(Stepwise Regression Procedure)ure)結合順向選擇法與反向淘汰法二種程序結合順向選擇法與反向淘汰法二種程序。。首首先採用順向選擇法先採用順向選擇法,,選進與依變數有最大相關選進與依變數有最大相關的變數的變數,,接下來以反向淘汰法檢查此變數是否接下來以反向淘汰法檢查此變數是否須加以排除須加以排除。。為了避免相同的變數重複地被選為了避免相同的變數重複地被選進或排除進或排除,,選進的標準選進的標準 ((αα 值值 )) 必須小於淘汰必須小於淘汰的標準的標準,,亦即選進變數的亦即選進變數的 FF 值大於淘汰變數值大於淘汰變數的的 FF值值。。

Multi RegressionMulti Regression 1818

迴歸分析迴歸分析 ――變異數分析表變異數分析表

變異來源 平方和SS 自由度df 平均平方和MS F

迴歸22 )ˆ(ˆ YYySSR k

k

SSRMSR MSE

MSRF

隨機 SSE e Y Y 2 2( ) 1kn1

kn

SSEMSE

總和 SST y Y Y 2 2( ) 1n

i i iˆNote: e y y ,i 1,2, , n 殘差

K 為預測變數個數 ( 不含 β0)

Multi RegressionMulti Regression 1919

模式檢定模式檢定 (1)(1)迴歸分析之假說檢定包括迴歸分析之假說檢定包括總檢定總檢定與與邊際檢定邊際檢定兩種。兩種。總檢定:總檢定:– 目的在探討迴歸模式中的目的在探討迴歸模式中的所有斜率係數所有斜率係數是否全部是否全部

為為 00 。。– 當斜率係數不全為當斜率係數不全為 00 時,時, YY 與與 (X(X11,X,X22,…,X,…,XKK))才具才具

有某種程度的函數關係有某種程度的函數關係 。 。 – 總檢定之虛無假說與對立假說可列示如下:總檢定之虛無假說與對立假說可列示如下: H0: H0: jj=0=0 ,對所有,對所有 jj

H1: H1: jj00 ,對某些,對某些 j (j=1,2,…,K) j (j=1,2,…,K) – 檢定統計量檢定統計量 :: F=MSR/MSEF=MSR/MSE

Multi RegressionMulti Regression 2020

邊際檢定 邊際檢定 ― ― 一般判定一般判定– 若總檢定顯著,即應進行邊際檢定若總檢定顯著,即應進行邊際檢定 (Marginal (Marginal

Tests)Tests) ,探討個別迴歸係數,探討個別迴歸係數 ((jj, j=1,2,…,K), j=1,2,…,K) 是是否顯著異於某一特定數值,共包括否顯著異於某一特定數值,共包括 KK 個檢定。個檢定。

– 邊際檢定可分為雙尾檢定與單尾檢定,且大多邊際檢定可分為雙尾檢定與單尾檢定,且大多數屬於對數屬於對 00 檢定。檢定。

– 對立假說設定為對立假說設定為 H1: H1: jj j0j0 ,屬於雙尾檢定 。,屬於雙尾檢定 。– 對立假說設定為對立假說設定為 H1: H1: jj> > j0j0 或或 H1: H1: jj< < j0j0 ,,屬於單尾檢定。屬於單尾檢定。

– 檢定統計量檢定統計量 : : j j0

j

j

ˆt

ˆS( )

模式檢定 (2)

Multi RegressionMulti Regression 2121

邊際檢定 邊際檢定 ― ― 偏判定偏判定若迴歸式為若迴歸式為 Y=Y=αα++ββ11XX11++ββ22XX22++ββ33XX33++εε

欲決定新變數欲決定新變數 XX33 …是否要加入模型…是否要加入模型

模式檢定 (3)

F=SSR(X3|X1,X2)/1

SSE(X1,X2,X3)/n-4

分子代表模型加入 X3 變數後,,解釋能力提高的部份,,分母代表加入 X3 後仍無法解釋的部份。。若 F

值顯著,則,則代表 X3確實有明顯的解釋效果,,可加入迴歸模型中。。

Multi RegressionMulti Regression 2222

判定係數判定係數 RR22

RR2 2 稱為多元判定係數(稱為多元判定係數( multiple determinatimultiple determination coefficienton coefficient ) : ) :

00 R R22 11RR2 2 相當於總變異中可被解釋之百分比例相當於總變異中可被解釋之百分比例RR2 2 亦是亦是模式配適度模式配適度 (Goodness of Fit)(Goodness of Fit) 之指標之指標。。

2

22

Y YSSRR

SST Y Y

Multi RegressionMulti Regression 2323

Adjusted RAdjusted R22

在迴歸分析中,如果在迴歸分析中,如果自變項的個數很多自變項的個數很多,有時,有時候就要候就要用調整後的判定係數用調整後的判定係數代替原先的判定係代替原先的判定係數,數,因為增加新的自變項後,均會使因為增加新的自變項後,均會使 RR22 變大變大。。 「「 Adjusted RAdjusted R22 」為調整後的判定係數: 」為調整後的判定係數:

2 2 2a

SSEn 1n k 1Adjusted R R 1 1 (1 R )

SST n k 1n 1

Multi RegressionMulti Regression 2424

殘差分析殘差分析 (1)(1)

基本概念:基本概念:– 在探討在探討誤差項誤差項 ((ii)) 是否符合是否符合常態性常態性、、恆恆

常性常性、、獨立性獨立性等三項假定。 等三項假定。 – 迴歸分析乃以殘差值迴歸分析乃以殘差值 (e(eii, Residual), Residual) 為為誤差項誤差項 ((ii ) ) 之估計,等於樣本觀察值之估計,等於樣本觀察值與預測值之差,即:與預測值之差,即:

i i iˆ e y y ,i 1,2 ,n ,

Multi RegressionMulti Regression 2525

殘差分析殘差分析 (2)(2)常態性:常態性:– 假說如下所示:假說如下所示: H0: H0: 誤差項遵循常態分配誤差項遵循常態分配 H1: H1: 誤差項未遵循常態分配 誤差項未遵循常態分配 – 常態性檢定方法常態性檢定方法

常態機率圖常態機率圖 (Normal Probability (Normal Probability Plot)Plot)

當當 HH00 成立,則常態機率圖應呈成立,則常態機率圖應呈現近似現近似 454500 直線直線 K-SK-S 檢定檢定 (Kolmogorov-Smirnov (Kolmogorov-Smirnov goodness-of-fit test)goodness-of-fit test)WW 統計量統計量 (W, Wilk-Shapiro Stati(W, Wilk-Shapiro Statistic)stic) 檢定。檢定。

Multi RegressionMulti Regression 2626

殘差分析殘差分析恆常性:恆常性: 2

0 i2

0 i

H : Var( ) , i 1, 2,..., n H : Var( ) , i 1, 2,..., n

對所有對某些

Multi RegressionMulti Regression 2727

殘差分析殘差分析 (3)(3)

獨立性:獨立性:– 指個案之誤差項指個案之誤差項 ((ii ) ) 彼此之間獨立彼此之間獨立。。

– 檢定方法:檢定方法: 1. 1. 觀察觀察 eei i 對時間之序列圖,需無任何規則性對時間之序列圖,需無任何規則性趨勢,則表示誤差項為隨機。趨勢,則表示誤差項為隨機。

2. 2. Durbin-Watson (D-W)Durbin-Watson (D-W) 的統計量來檢定的統計量來檢定有無自我相關的問題,即殘差是否為獨立。有無自我相關的問題,即殘差是否為獨立。

Multi RegressionMulti Regression 2828

「共線性」「共線性」 (collinarity)(collinarity) 問題問題所謂共線性指的是由於所謂共線性指的是由於自變項間自變項間的的相關太高相關太高,由,由於於具共線性變數所供的訊息相似具共線性變數所供的訊息相似,,將使我們無法將使我們無法分辨個別變數的效果分辨個別變數的效果。。如果變項間有共線性問題,如果變項間有共線性問題,表示一個自變數是其表示一個自變數是其它自變項的線性組合它自變項的線性組合。。– 以二個自變項以二個自變項 XX11 ,, XX22 為例:為例: 完全共線性 → 完全共線性 → XX11 = a + bX = a + bX22

如果一變項與其它自變項間有如果一變項與其它自變項間有共線性問題共線性問題,則這,則這個個變項迴歸係數的估計值不夠穩定變項迴歸係數的估計值不夠穩定,而迴歸係數,而迴歸係數的計算值也會有很大誤差。的計算值也會有很大誤差。

Multi RegressionMulti Regression 2929

「共線性」的診斷「共線性」的診斷共線性問題,可由下面的數據加以判別: 共線性問題,可由下面的數據加以判別:

2. 變異數膨脹因素( variance inflation factor ; VIF)

變異數膨脹因素為容忍度的倒數, VIF 的值愈大,表示自變項的容忍度愈小,愈有共線性問題。

1.容忍度( tolerance ) 容忍度= 1-R2 ,容忍度的值介於 0至 1 間。 R2 是此自變項與其它自變項間的多元相關係數的平方

, 即模式中其它自變項對這個變項的有效解釋能力。 一自變項的 R2 值太大,即容忍度太小,表示此變項與

其它自變項間有共線性問題。

Multi RegressionMulti Regression 3030

迴歸分析之流程迴歸分析之流程

Multi RegressionMulti Regression 3131

虛擬變數轉換虛擬變數轉換 (1)(1)間斷變數在投入迴歸分析時,必須轉換為虛擬變間斷變數在投入迴歸分析時,必須轉換為虛擬變數。數。在虛擬變項的轉換方面,要以在虛擬變項的轉換方面,要以「「 00 」、「」、「 11 」」的的方式表示,方式表示,虛擬變項個數等於「水準」個數減一虛擬變項個數等於「水準」個數減一。。

 原變項 原變項 虛擬變項虛擬變項說明說明 :: 11 表示「是」表示「是」

學生性別學生性別 sexdsexd     00 表是「否」表是「否」男性 男性 11 00 不是女生不是女生,是男生,是男生女性 女性 22 11 是女生是女生

•如果是二分變項,便以一個虛擬變項表示,此虛擬變項的 二個水準數值直接以「 0 」、「 1 」表示即可。•以學生性別變項為例:

Multi RegressionMulti Regression 3232

虛擬變數轉換虛擬變數轉換 (2)(2)

如果是三分變項,表示此間斷變項有三個水準,如果是三分變項,表示此間斷變項有三個水準,則應以二個虛擬變項表示。則應以二個虛擬變項表示。以家庭狀況變項為例:以家庭狀況變項為例:

 原變項 原變項 虛擬變項虛擬變項說明說明 :1:1 表示是 ,表示是 , 00 表是否表是否家庭狀況家庭狀況 homd1homd1 homd2homd2

單親家庭組 單親家庭組 11 11 00 是單親家庭組是單親家庭組,不是他人照顧組,不是他人照顧組

他人照顧組 他人照顧組 22 00 11 不是單親家庭組,不是單親家庭組,是他人照顧組是他人照顧組

雙親家庭組 雙親家庭組 33

00 00不是單親家庭組,也不是他人照不是單親家庭組,也不是他人照

顧組,即為顧組,即為雙親家庭組雙親家庭組

Multi RegressionMulti Regression 3333

虛擬變數轉換虛擬變數轉換 (3)(3)

如果是四分變項,表此間斷變數有四個水準,則如果是四分變項,表此間斷變數有四個水準,則投入迴歸分析時,會有三個虛擬變項。投入迴歸分析時,會有三個虛擬變項。例如地理位置變項中,例如地理位置變項中, 11 表示北部、表示北部、 22 表示中部、表示中部、33 表示南部、表示南部、 44 表示東部,三個虛擬變項的值如表示東部,三個虛擬變項的值如下: 下:

 原變項 原變項 虛擬變項虛擬變項說明說明 :1:1 表示是,表示是, 00 表是否表是否地理位置地理位置 locd1locd1 locd2locd2 locd3locd3

北部 北部 11 11 00 00 是北部是北部,而非中部,也非南部,而非中部,也非南部中部 中部 22 00 11 00 是中部是中部,而非北部,也非南部,而非北部,也非南部南部 南部 33 00 00 11 是南部是南部,而非北部,也非中部,而非北部,也非中部

東部東部 44 00 00 00非北部,非中部,也非南部,非北部,非中部,也非南部,

因而因而是東部是東部

Multi RegressionMulti Regression 3434

虛擬變數轉換虛擬變數轉換操作說明 操作說明

Multi RegressionMulti Regression 3535

轉換為虛擬變數

Multi RegressionMulti Regression 3636

已轉換為虛擬變數

Multi RegressionMulti Regression 3737

多元迴歸分析多元迴歸分析操作說明 操作說明

Multi RegressionMulti Regression 3838

問題:學生性別、數學焦慮、數學態度、數學投入動機是否可有效預測學生的數學成就?其預測力如何?

Multi RegressionMulti Regression 3939

效標變項

預測變項

迴歸分析方法模式適合度會列出已進入模式或刪除之變數,並顯示迴歸分析相關的統計量:多元相關係數 R、 R 平方、調整後的 R 平方、估計值的標準誤與變數數分析摘要表。

Multi RegressionMulti Regression 4040

多元迴歸分析多元迴歸分析報表說明 報表說明

Multi RegressionMulti Regression 4141

選取變項的順序,最右邊一欄進入與移除的標準。進入模式的標準是 F 的顯著性機率要小於或等於 .050 ,而移除的標準是 F 的顯著性機率大於或等於 .100 者。

迴歸模式的解釋量

Multi RegressionMulti Regression 4242

P 值小於 0.01 ,此迴歸模式顯著

此迴歸模式所包含的預測變數

Multi RegressionMulti Regression 4343

B 為原始迴歸係數。

數學成就 = -4.522+.309x 工作投入 +.382x 成功態度-.401x 自我投入 +3.080x 學生性別 -.344x 壓力懼怕+.610x 課堂焦慮 +.222x 學習信心 +.249x 有用性

迴歸係數 j 之邊際檢定統計量