迴歸分析

迴歸分析迴歸分析

量化研究與統計分析

謝寶煖台灣大學圖書資訊學系

[email protected]

自變數依變數統計分析方法

類別類別交叉表

類別連續變異數分析

連續連續連續連續相關分析：關係強度相關分析：關係強度迴歸分析：因果迴歸分析：因果

迴歸線性關係的分析相關分析可以描述兩個連續變數的線性關係，若要進一步確認兩個變數之間的因果關係，則應採用迴歸分析

迴歸分析係用以由自變項（獨立變項）預測依變項，或是研究實驗控制（因）對被觀察的變項（果）的影響例：由父母身高預測子女身高 ;用人口成長（自變項）預測（解釋）電話用戶數的成長

例 2 ：由圖書館利用頻率，預測圖書館網站的利用頻率

簡單迴歸 Simple Regression 利用單一的預測變數（自變數）去預測另一依變數簡單迴歸方程式： Y= a + bX

以單一自變項 X ，預測依變項 Y b 為迴歸係數（ regression coefficient ），代表以 X 預

測 Y ，其預測力之大小例：以智商預測學業表現的迴歸分析方程式為： Y （學業表現） y= a + b( 智商 )x

Y = a + bX 在線性關係中，若兩變項之關係是完全相關時

（ r=1 正相關或 r=-1 負相關）， X 與 Y 的關係呈一直線，兩變項之觀察值可以完全被方程式所涵蓋，其中 b 為斜率， a 為截距，代入 X 可求得 Y ，代入 Y 可求得 X ，無須預測。

但是當兩變項間的關係未達到完全相關時（ r±1 ）， X 與 Y 的關係是分佈在一個區域內，無法以一條直線來表示，而必須以最小平方法來求取一條最具代表性的線，此線稱為最適線（ best-fit line ）或迴歸線（ regression line ），再利用迴歸線來預測因果關係。

以 X 預測 Y （ X Y ）

By.x 是迴歸係數，表示每當 X 變動一個單位時， Y 的變動量例：以身高預測體重， Y= -165.35 +1.3426X ，表示身高每變動一公分，體重增加 1.3426 公斤

標準化迴歸係數（ standardized regression coefficient ），去除特定單位

XbaY y.xy.x

^

XxyY . XY xy.

XY xy.

‧‧

‧

‧‧

‧‧

‧‧‧

‧ ‧

‧

‧‧‧‧

‧

‧

身高 vs. 體重

簡單迴歸分析程序：

分析＞迴歸方法＞線性

迴歸方法強迫進入 (enter) ：強制一次進入式迴歸分析法，為預設

逐步迴歸分析 (stepwise) 刪除 (remove) ：：強制剔除式迴歸分析法向後 (backward) ：後向剔除迴歸分析法向前 (forward)

Durbin-Watson 統計量檢定迴歸模型中殘差獨立的假設如果相鄰殘差項間是相關，則其總差異必小或大

若殘差項間是正相關，則其差異必小若殘差項間是負相關，則其差異必大

當 DW 值愈接近 2 時，殘差項間愈無相關當 DW 值愈接近 0 時，殘差項間正相關愈強當 DW 值愈接近 4 時，殘差項間負相關愈強

驗證常態分配驗證誤差變項是否具常態分配，可繪殘差次數分配圖，概略判斷母群體的誤差變數是否是常態分配？平均數是否為零

利用常態點圖（ normal plot ），將每個殘差分別描繪在圖上，若誤差變數是常態分配，則圖上點之連線應近似一直線

相關

1.000 .822.822 1.000

. .002.002 .

10 1010 10

FINALMIDTERMFINALMIDTERMFINALMIDTERM

Pearson 相關

( )顯著性單尾

個數

FINAL MIDTERM

期中考和期末考的 Pearson 相關係數為 0.822, 在0.01 水準下達到顯著，進一步檢驗其影響關係

模式摘要

.822a .676 .635 2.73 .676模式1

R R 平方調過後的R 平方估計的標準誤 R 平方改變量

變更統計量

( ), MIDTERM預測變數：常數a.

適合度檢定：期中考可以解釋期末考 67.6 ％的變異。調整後的R 平方為 63.5 ％， F＝ 16.66,p=0.004 在 0.01 水準下達到顯著。表示此模式適合，即期中考可以用來解釋或預測期末考。

變異數分析b

124.038 1 124.038 16.660 .004a

59.562 8 7.445183.600 9

迴歸殘差總和

模式1

平方和自由度平均平方和 F 檢定顯著性

( ), MIDTERM預測變數：常數a. \ FINAL依變數：b.

係數

49.369 8.577 5.756 .000 29.590.434 .106 .822 4.082 .004 .189

( )常數MIDTERM

模式1

B 之估計值標準誤未標準化係數

Beta 分配

標準化係數

t 顯著性下限

B 95% 迴歸係數的信賴區間

\ FINAL依變數：a.

簡單線性迴歸方程式為：Final = 49.369 + 0.434 Midterm

期中考成績能夠有效預測期末考成績， Beta 係數達 0.822（ t=4.082, p=0.004），表示期中考成績愈高，期末考成績也愈高。

由上述分析可知，以期中考來解釋或預測期末考成績是相當合適的，而且所建立的模式也令人滿此，但是是否真能用該模式呢？

必須再進一步作殘差分析，以判定該模式是否符合簡單線性迴歸模型的假設。

殘差分析

迴歸標準化殘差

1.00

.50

0.00

-.50

-1.00

-1.50

-2.00

-2.50

直方圖

: FINAL依變數

次數

5

4

3

2

1

0

= .94 標準差

= 0.00平均數

N = 10.00

P-P 迴歸標準化殘差的常態圖

: FINAL依變數

觀察累積機率

1.00.75.50.250.00

預期累積機率

1.00

.75

.50

.25

0.00

由標準化殘差次數分配圖（左）和標準化殘差常態機率分配 P－ P 圖（右），可看出殘差的機率分配並不接近常態機率分配

多元迴歸multiple regression

多元迴歸 multiple regression 複迴歸利用多個預測變數（自變數）去預測另一依變數

例：以智商、閱讀時間和與他人討論頻率，三個變項來預測學業表現

Y( 學業表現 )=b1X1( 智商 )+b2x2 ( 閱讀時間 )+b3x3( 討論頻率 )+

b1 、 b2 、 b3三個迴歸係數代表 X1( 智商 ) 、 x2 ( 閱讀時間 ) 、 x3( 討論頻率 ) 三個變項對 Y 的預測能力

多元迴歸同時處理多個迴歸係數，必須考慮預測變項之間是否有共變關係存在，因為預測變項間之共變關係將影響迴歸係數之計算，必須加以控制

設有 k+1 個變數， Y 和 X1, X2 , … , Xk，其中 Xi ， i=1,2,….,k ，為 k 個自變數（或獨立變數），是一種能事先準確觀測的變量（即可忽略其誤差），因此它們不是隨機變數，而無機率分配的性質。Y 為依變數，或「被解釋變數」，是依 Xi

之值而改變的隨機變數，即當 Xi之值為 Xij

時， Yj亦為一隨機變數，可表示為 Yj( 即Yj=y| X1j 、 X2j … 、、 Xkj)

多元迴歸模型的假設是：依變數 Y 之期望值為自變數 Xi ， i=1,2,….,k ，之線性函數設有 n 組資料，

（ X11 、 X21 … 、、 Xk1,Y1 ）（ X12 、 X22 … 、、 Xk2,Y2 ）… ..

（ X1n 、 X2n … 、、 Xkn,Yn ）則多元線性迴歸模型為：

Y1 =+1 X11+ 2 X21+… + k Xk1+1

Y2 =+1 X12+ 2 X22+… + k Xk2 +2 （ 1 ）

….

Yn =+1 X1n+ 2 X2n+… + k Xkn +n

其中 1 ， i=1,2,….,n ，為獨立的隨機殘差變數（即 Cov(i, j)=0 ） , 每個均為一具有期望值為 0, 變異數為 2的常態分配，即N(0,2)

多元迴歸的分析模式同時分析法 (simultaneous multiple regression)

所有預測變項同時納入迴歸方程式中，對依變項進行預測。

強制進入法：在一定顯著水準下，將所有對依變項有解釋能力的預測變項全部納入迴歸方程式，不考慮變項間的關係，計算所有變項的迴歸係數

強制淘汰法：在一定顯著水準下，將所有對依變項沒有解釋力的預測變項，不考慮預測變項間的關係，一次全部排除在迴歸方程式之外，再計算所有保留在迴歸方程式中的預測變數的迴歸僄數。

多元迴歸的分析模式逐步分析法 (stepwise multiple regression)

依據預測變項的解釋力的大小，逐步檢視每一個預測變項的影響。

順向進入法 (forward) ：首先選用達到顯著水準且具有最大預測力的獨立變項，然後依序納入方程式中，直到所有達到顯著的預測變項全部被納入迴歸方程式中

反向淘汱法 (backward) ：將所有預測變項以同時分析法納入迴歸方程式中，然後逐步的將未達到顯著性的預測變項，以最弱、次弱的順序自方程式中排除，直到所有未達顯著的預測變項都被淘汰完畢為止

逐步分析法（ stepwise ）：以 forward順序納入最具預測力的獨立變項，同時以 backward 法檢驗留在方程式中的所有預測變項，若有任何未達顯著水準的預測變項便將其淘汰，是最常用的迴歸分析模式

多元迴歸的分析模式

階層分析法預測變項間具有特定的先後關係時，應依研究者的設計，以特定順序來進行分析。

例：以性別、社經地位、自尊、焦慮感與努力程度，來預測學業成就時，性別與社經地位是人口統計變項，不受其他預測變項的影響；而自尊與焦慮是情意變項，彼此間具有高度相關，也可能受到其他變項的影饗；因此四個變項可以分成兩個階段，先將人口統計變項強制進入迴歸分析，計算迴歸係數，然後再將情意變項以逐步分析法計算自尊與焦慮的各自預測力。

路徑分析

分析程序分析＞迴歸方法＞線性

相關

1.000 -.413 -.761 .656 .806-.413 1.000 .115 -.272 -.549-.761 .115 1.000 -.619 -.344.656 -.272 -.619 1.000 .691.806 -.549 -.344 .691 1.000

. .118 .005 .020 .002.118 . .376 .223 .050.005 .376 . .028 .165.020 .223 .028 . .014.002 .050 .165 .014 .

10 10 10 10 1010 10 10 10 1010 10 10 10 1010 10 10 10 1010 10 10 10 10

AVERAGESEXABSENCEASSIGNMIDTERMAVERAGESEXABSENCEASSIGNMIDTERMAVERAGESEXABSENCEASSIGNMIDTERM

Pearson 相關

( )顯著性單尾

個數

AVERAGE SEX ABSENCE ASSIGN MIDTERM

由各變項之相關矩陣可知，除了性別與總平均外，各變項之相關達到顯著

/選入刪除的變數b

MIDTERM,ABSENCE,SEX,ASSIGN

a. 選入

模式1

選入的變數刪除的變數方法

所有要求的變數已輸入。a. \ AVERAGE依變數：b.

顯示納入迴歸方程式之自變項

模式摘要b

.973a .947 .905 2.02 .947 22.544 4 5 .002模式1

R R 平方調過後的R 平方估計的標準誤 R 平方改變量 F 改變分子自由度分母自由度 F 顯著性改變

變更統計量

( ), MIDTERM, ABSENCE, SEX, ASSIGN預測變數：常數a. \ AVERAGE依變數：b.

由模式摘要可知，所有自變項對依變項（學業總平均）的整體解釋力為 94.7％；調整後的 R平方為 90.5％（小樣本）。

變異數分析b

367.995 4 91.999 22.544 .002a

20.405 5 4.081388.400 9

迴歸殘差總和

模式1

平方和自由度平均平方和 F 檢定顯著性

( ), MIDTERM, ABSENCE, SEX, ASSIGN預測變數：常數a. \ AVERAGE依變數：b.

由變異數分析表可知，整體迴歸模式達到顯著， F=22.544, p=0.002，表示前述 96.7％的迴歸解釋力是具有統計意義。

係數a

72.870 16.341 4.459 .007.222 1.585 .017 .140 .894 -.413 .063 .014 .677 1.477

-2.990 .580 -.680 -5.154 .004 -.761 -.917 -.528 .603 1.657-.428 .240 -.309 -1.782 .135 .656 -.623 -.183 .350 2.856.610 .128 .794 4.752 .005 .806 .905 .487 .376 2.658

( )常數SEXABSENCEASSIGNMIDTERM

模式1

B 之估計值標準誤未標準化係數

Beta 分配

標準化係數

t 顯著性零階偏部分相關

允差 VIF共線性統計量

\ AVERAGE依變數：a.

再由係數分析表可知，缺席次數與期中考成績之 B 值達到顯著差異。

非線性迴歸分析類別資料的迴歸分析

自變項為類別變項時，，原無法適用於線性關係分析，如性別、婚姻狀態等，為使類別變項也可以和其他連續變項一起納入迴歸分析模式中進行預測，迴歸分析發展出一套虛擬變項（ dummy variable ）的方式，在進行迴歸分析之前，將類別變項轉換成連續變項的型態，再依一般程序進行分析。

例：婚姻狀態

非線性迴歸分析類別資料的迴歸分析

例：婚姻狀態1 ：鰥寡2 ：離異3 ：未婚4 ：已婚

因為 1～ 4並非等距尺度，若直接以此類別變項進行迴歸分析，勢將違反線性關係之假設，因此，將性別變項依四個水準分成四個二分變項，每個變項是1 表示是， 0 表示否

虛擬變項

編號原始變項

mar1 mar2 mar3 mar4

001 1 1 0 0 0

002 2 0 1 0 0

003 3 0 0 1 0

004 4 0 0 0 1

參照組（ reference group ）一個具有 K 個水準的類別變項，可以轉換成 K 個虛擬變項，然在實際執行迴歸分析時，第 K組是 K － 1組的數值全部為 0,故實際只要 K － 1組，以免造成變項的多元共線性問題

未經虛擬處理的水準，即稱為參照組參照組不一定是最後一個水準，而宜取用內容明確清楚，樣本數適中的水準作為參照組。如「其他」就不適合做為參照組；有順序關係時，如教育水準，可以選擇最高等級、最低或中間等級，作為參照組

非線性迴歸分析程序

分析＞迴歸方法＞曲線估計

PERFORM

ANXIETY

87654321

50

40

30

20

10

觀察值

線性

二次

由上圖可知，線性估計（綠線）無法符合觀察值的分佈狀況；二次曲線的估計（紅線）最符合觀察值的分佈狀況。

由於二次曲線最符合觀察值的分佈，故焦慮變項應以二次式模型來解釋績效表現。

整體迴歸解釋力 R2為 0.852 （ R Square)；換句話說，焦慮可以解釋績效表現達 85.2％的變異量（ F ＝ 20.1, P ＜0.01 ）。二次項的標準化迴歸係數（ Beta ）為－ 4.17,t=-4.395, p<0.01; 一次項的標準化迴歸係數（ Beta ）為 3.46, t=3.64, p<0.01 。

)(474.640.16068.2)( 22

1 未標準化業績表現 XXY

)(64.3174.4)( 22

1 標準化業績表現 XXY

路徑分析（ Path Analysis ）

多重變項間之因果關係結構模式變項必須是連續變數路徑圖（ Path diagram ），用以描繪變項間之關係，如：

自我效能感

社會期待成就動機學業表現

假設 1 ：自我效能感與社會期待影響個人的成就動機

自我效能感


•多元迴歸•依變項：成就動機•自變項：自我效能感、社會期待

假設 2 ：自我效能感、社會期待與成就動機影響學業表現

自我效能感


•多元迴歸•依變項：學業表現•自變項：自我效能感、社會期待、成就動機

假設 3 ：自我效能感與社會期待具有相關

自我效能感


外衍變項（ exogenous variable ），僅作為自變項者，如前例之社會期待，其不受其他變項的影響，其變異量由不屬於路徑模型的其他變項所決定。

外衍變項間可能具有相關，也可能相互獨立，但是其關係並不影響路徑模型內的因果關係

內衍變項（ endogenous variable ）僅作為依變項，如前例之學業表現，其變異量完全由路徑模型中的其他變項的線性組合所決定。

成就動機兼具自變項與依變項的雙重身份，然其變異量由路徑模式中的自我效能感和社會期待兩因素所決定，亦為內衍變項。

直接效果與間接效果

自我效能感

社會期待成就動機學業表現.13*

.63***

.02

.16*

.29**

.21**

自我效能對成就動機和學業表現，均有直接效果，路徑分數分別為 0.29 (p<0.01) 與 0.63 (p<0.001) ；同時成就動機對學業表現亦有顯著的直接效果（ beta=0.21, p<0.01）。因此，自我效能對學業表現的影響，除了具有直接效果之外，尚具有一由成就動機中介的間接效果，其強度為兩個直接效果的乘積（ 0.21*0.63=0.18 ）

至於社會期待，其對成就動機的預測力不足（ beta=0.02, n.s. ），直接效果不明顯，但是對於學業表現仍具有直接預測力（ beta=0.16, p<0.05 ），但是社會期待無法藉由成就動機來間接影響學業成績

迴歸分析

Documents