迴歸分析

51
迴迴迴迴 迴迴迴迴 量量量量量量量量量 迴迴迴 迴迴迴迴迴迴迴迴迴迴 [email protected]

Upload: calvin-fulton

Post on 31-Dec-2015

76 views

Category:

Documents


1 download

DESCRIPTION

量化研究與統計分析. 迴歸分析. 謝寶煖 台灣大學圖書資訊學系 [email protected]. 迴歸. 線性關係的分析 相關分析可以描述兩個連續變數的線性關係,若要進一步確認兩個變數之間的因果關係,則應採用迴歸分析 迴歸分析係用以由自變項(獨立變項)預測依變項,或是研究實驗控制(因)對被觀察的變項(果)的影響 例:由父母身高預測子女身高; 用人口成長(自變項)預測(解釋)電話用戶數的成長 例2:由圖書館利用頻率,預測圖書館網站的利用頻率. 簡單迴歸. Simple Regression 利用單一的預測變數(自變數)去預測另一依變數 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 迴歸分析

迴歸分析迴歸分析

量化研究與統計分析

謝寶煖台灣大學圖書資訊學系

[email protected]

Page 2: 迴歸分析

自變數 依變數 統計分析方法

類別 類別 交叉表

類別 連續 變異數分析

連續連續 連續連續 相關分析:關係強度相關分析:關係強度迴歸分析:因果迴歸分析:因果

Page 3: 迴歸分析

迴歸 線性關係的分析 相關分析可以描述兩個連續變數的線性關係,若要進一步確認兩個變數之間的因果關係,則應採用迴歸分析

迴歸分析係用以由自變項(獨立變項)預測依變項,或是研究實驗控制(因)對被觀察的變項(果)的影響 例:由父母身高預測子女身高 ;用人口成長(自變項)預測(解釋)電話用戶數的成長

例 2 :由圖書館利用頻率,預測圖書館網站的利用頻率

Page 4: 迴歸分析

簡單迴歸 Simple Regression 利用單一的預測變數(自變數)去預測另一依變數 簡單迴歸方程式: Y= a + bX

以單一自變項 X ,預測依變項 Y b 為迴歸係數( regression coefficient ),代表以 X 預

測 Y ,其預測力之大小 例:以智商預測學業表現的迴歸分析方程式為: Y (學業表現) y= a + b( 智商 )x

Page 5: 迴歸分析

Y = a + bX 在線性關係中,若兩變項之關係是完全相關時

( r=1 正相關或 r=-1 負相關), X 與 Y 的關係呈一直線,兩變項之觀察值可以完全被方程式所涵蓋,其中 b 為斜率, a 為截距,代入 X 可求得 Y ,代入 Y 可求得 X ,無須預測。

但是當兩變項間的關係未達到完全相關時( r±1 ), X 與 Y 的關係是分佈在一個區域內,無法以一條直線來表示,而必須以最小平方法來求取一條最具代表性的線,此線稱為最適線( best-fit line )或迴歸線( regression line ),再利用迴歸線來預測因果關係。

Page 6: 迴歸分析

以 X 預測 Y ( X Y )

By.x 是迴歸係數,表示每當 X 變動一個單位時, Y 的變動量 例:以身高預測體重, Y= -165.35 +1.3426X , 表示身高每變動一公分, 體重增加 1.3426 公斤

標準化迴歸係數( standardized regression coefficient ),去除特定單位

XbaY y.xy.x

^

XxyY . XY xy.

XY xy.

Page 7: 迴歸分析

‧‧

‧‧

‧‧

‧‧‧

‧ ‧

‧‧‧‧

身高 vs. 體重

Page 8: 迴歸分析

簡單迴歸分析程序:

分析>迴歸方法>線性

Page 9: 迴歸分析
Page 10: 迴歸分析
Page 11: 迴歸分析
Page 12: 迴歸分析

迴歸方法 強迫進入 (enter) :強制一次進入式迴歸分析法,為預設

逐步迴歸分析 (stepwise) 刪除 (remove) ::強制剔除式迴歸分析法 向後 (backward) :後向剔除迴歸分析法 向前 (forward)

Page 13: 迴歸分析

Durbin-Watson 統計量 檢定迴歸模型中殘差獨立的假設 如果相鄰殘差項間是相關,則其總差異必小或大

若殘差項間是正相關,則其差異必小若殘差項間是負相關,則其差異必大

當 DW 值愈接近 2 時,殘差項間愈無相關 當 DW 值愈接近 0 時,殘差項間正相關愈強 當 DW 值愈接近 4 時,殘差項間負相關愈強

Page 14: 迴歸分析

驗證常態分配驗證誤差變項是否具常態分配,可繪殘差次數分配圖,概略判斷母群體的誤差變數是否是常態分配?平均數是否為零

利用常態點圖( normal plot ),將每個殘差分別描繪在圖上,若誤差變數是常態分配,則圖上點之連線應近似一直線

Page 15: 迴歸分析

相關

1.000 .822.822 1.000

. .002.002 .

10 1010 10

FINALMIDTERMFINALMIDTERMFINALMIDTERM

Pearson 相關

( )顯著性 單尾

個數

FINAL MIDTERM

期中考和期末考的 Pearson 相關係數為 0.822, 在0.01 水準下達到顯著,進一步檢驗其影響關係

Page 16: 迴歸分析

模式摘要

.822a .676 .635 2.73 .676模式1

R R 平方調過後的R 平方 估計的標準誤 R 平方改變量

變更統計量

( ), MIDTERM預測變數: 常數a.

適合度檢定:期中考可以解釋期末考 67.6 %的變異。調整後的R 平方為 63.5 %, F= 16.66,p=0.004 在 0.01 水準下達到顯著。 表示此模式適合,即期中考可以用來解釋或預測期末考。

變異數分析b

124.038 1 124.038 16.660 .004a

59.562 8 7.445183.600 9

迴歸殘差總和

模式1

平方和 自由度 平均平方和 F 檢定 顯著性

( ), MIDTERM預測變數: 常數a. \ FINAL依變數 :b.

Page 17: 迴歸分析

係數

49.369 8.577 5.756 .000 29.590.434 .106 .822 4.082 .004 .189

( )常數MIDTERM

模式1

B 之估計值 標準誤未標準化係數

Beta 分配

標準化係數

t 顯著性 下限

B 95% 迴歸係數 的 信賴區間

\ FINAL依變數 :a.

簡單線性迴歸方程式為:Final = 49.369 + 0.434 Midterm

期中考成績能夠有效預測期末考成績, Beta 係數達 0.822( t=4.082, p=0.004),表示期中考成績愈高,期末考成績也愈高。

Page 18: 迴歸分析

由上述分析可知,以期中考來解釋或預測期末考成績是相當合適的,而且所建立的模式也令人滿此,但是是否真能用該模式呢?

必須再進一步作殘差分析,以判定該模式是否符合簡單線性迴歸模型的假設。

Page 19: 迴歸分析

殘差分析

迴歸 標準化殘差

1.00

.50

0.00

-.50

-1.00

-1.50

-2.00

-2.50

直方圖

: FINAL依變數

次數

5

4

3

2

1

0

= .94 標準差

= 0.00平均數

N = 10.00

P-P 迴歸標準化殘差的常態 圖

: FINAL依變數

觀察累積機率

1.00.75.50.250.00

預期累積機率

1.00

.75

.50

.25

0.00

由標準化殘差次數分配圖(左)和標準化殘差常態機率分配 P- P 圖(右),可看出殘差的機率分配並不接近常態機率分配

Page 20: 迴歸分析

多元迴歸multiple regression

Page 21: 迴歸分析

多元迴歸 multiple regression 複迴歸 利用多個預測變數(自變數)去預測另一依變數

例:以智商、閱讀時間和與他人討論頻率,三個變項來預測學業表現

Y( 學業表現 )=b1X1( 智商 )+b2x2 ( 閱讀時間 )+b3x3( 討論頻率 )+

b1 、 b2 、 b3三個迴歸係數代表 X1( 智商 ) 、 x2 ( 閱讀時間 ) 、 x3( 討論頻率 ) 三個變項對 Y 的預測能力

多元迴歸同時處理多個迴歸係數,必須考慮預測變項之間是否有共變關係存在,因為預測變項間之共變關係將影響迴歸係數之計算,必須加以控制

Page 22: 迴歸分析

設有 k+1 個變數, Y 和 X1, X2 , … , Xk,其中 Xi , i=1,2,….,k ,為 k 個自變數(或獨立變數),是一種能事先準確觀測的變量(即可忽略其誤差), 因此它們不是隨機變數,而無機率分配的性質。Y 為依變數,或「被解釋變數」,是依 Xi

之值而改變的隨機變數,即當 Xi之值為 Xij

時, Yj亦為一隨機變數,可表示為 Yj( 即Yj=y| X1j 、 X2j … 、 、 Xkj)

Page 23: 迴歸分析

多元迴歸模型的假設是:依變數 Y 之期望值為自變數 Xi , i=1,2,….,k ,之線性函數 設有 n 組資料,

( X11 、 X21 … 、 、 Xk1,Y1 )( X12 、 X22 … 、 、 Xk2,Y2 )… ..

( X1n 、 X2n … 、 、 Xkn,Yn ) 則多元線性迴歸模型為:

Y1 =+1 X11+ 2 X21+… + k Xk1+1

Y2 =+1 X12+ 2 X22+… + k Xk2 +2 ( 1 )

….

Yn =+1 X1n+ 2 X2n+… + k Xkn +n

其中 1 , i=1,2,….,n ,為獨立的隨機殘差變數(即 Cov(i, j)=0 ) , 每個均為一具有期望值為 0, 變異數為 2的常態分配,即N(0,2)

Page 24: 迴歸分析

多元迴歸的分析模式 同時分析法 (simultaneous multiple regression)

所有預測變項同時納入迴歸方程式中,對依變項進行預測。

強制進入法:在一定顯著水準下,將所有對依變項有解釋能力的預測變項全部納入迴歸方程式,不考慮變項間的關係,計算所有變項的迴歸係數

強制淘汰法:在一定顯著水準下,將所有對依變項沒有解釋力的預測變項,不考慮預測變項間的關係,一次全部排除在迴歸方程式之外,再計算所有保留在迴歸方程式中的預測變數的迴歸僄數。

Page 25: 迴歸分析

多元迴歸的分析模式 逐步分析法 (stepwise multiple regression)

依據預測變項的解釋力的大小,逐步檢視每一個預測變項的影響。

順向進入法 (forward) :首先選用達到顯著水準且具有最大預測力的獨立變項,然後依序納入方程式中,直到所有達到顯著的預測變項全部被納入迴歸方程式中

反向淘汱法 (backward) :將所有預測變項以同時分析法納入迴歸方程式中,然後逐步的將未達到顯著性的預測變項,以最弱、次弱的順序自方程式中排除,直到所有未達顯著的預測變項都被淘汰完畢為止

逐步分析法( stepwise ):以 forward順序納入最具預測力的獨立變項,同時以 backward 法檢驗留在方程式中的所有預測變項,若有任何未達顯著水準的預測變項便將其淘汰,是最常用的迴歸分析模式

Page 26: 迴歸分析

多元迴歸的分析模式

階層分析法 預測變項間具有特定的先後關係時,應依研究者的設計,以特定順序來進行分析。

例:以性別、社經地位、自尊、焦慮感與努力程度,來預測學業成就時,性別與社經地位是人口統計變項,不受其他預測變項的影響;而自尊與焦慮是情意變項,彼此間具有高度相關,也可能受到其他變項的影饗;因此四個變項可以分成兩個階段,先將人口統計變項強制進入迴歸分析,計算迴歸係數,然後再將情意變項以逐步分析法計算自尊與焦慮的各自預測力。

路徑分析

Page 27: 迴歸分析

分析程序 分析>迴歸方法>線性

Page 28: 迴歸分析
Page 29: 迴歸分析

相關

1.000 -.413 -.761 .656 .806-.413 1.000 .115 -.272 -.549-.761 .115 1.000 -.619 -.344.656 -.272 -.619 1.000 .691.806 -.549 -.344 .691 1.000

. .118 .005 .020 .002.118 . .376 .223 .050.005 .376 . .028 .165.020 .223 .028 . .014.002 .050 .165 .014 .

10 10 10 10 1010 10 10 10 1010 10 10 10 1010 10 10 10 1010 10 10 10 10

AVERAGESEXABSENCEASSIGNMIDTERMAVERAGESEXABSENCEASSIGNMIDTERMAVERAGESEXABSENCEASSIGNMIDTERM

Pearson 相關

( )顯著性 單尾

個數

AVERAGE SEX ABSENCE ASSIGN MIDTERM

由各變項之相關矩陣可知,除了性別與總平均外,各變項之相關達到顯著

Page 30: 迴歸分析

/選入 刪除的變數b

MIDTERM,ABSENCE,SEX,ASSIGN

a. 選入

模式1

選入的變數 刪除的變數 方法

所有要求的變數已輸入。a. \ AVERAGE依變數 :b.

顯示納入迴歸方程式之自變項

Page 31: 迴歸分析

模式摘要b

.973a .947 .905 2.02 .947 22.544 4 5 .002模式1

R R 平方調過後的R 平方 估計的標準誤 R 平方改變量 F 改變 分子自由度 分母自由度 F 顯著性 改變

變更統計量

( ), MIDTERM, ABSENCE, SEX, ASSIGN預測變數: 常數a. \ AVERAGE依變數 :b.

由模式摘要可知,所有自變項對依變項(學業總平均)的整體解釋力為 94.7%;調整後的 R平方為 90.5%(小樣本)。

Page 32: 迴歸分析

變異數分析b

367.995 4 91.999 22.544 .002a

20.405 5 4.081388.400 9

迴歸殘差總和

模式1

平方和 自由度 平均平方和 F 檢定 顯著性

( ), MIDTERM, ABSENCE, SEX, ASSIGN預測變數: 常數a. \ AVERAGE依變數 :b.

由變異數分析表可知,整體迴歸模式達到顯著, F=22.544, p=0.002,表示前述 96.7%的迴歸解釋力是具有統計意義。

Page 33: 迴歸分析

係數a

72.870 16.341 4.459 .007.222 1.585 .017 .140 .894 -.413 .063 .014 .677 1.477

-2.990 .580 -.680 -5.154 .004 -.761 -.917 -.528 .603 1.657-.428 .240 -.309 -1.782 .135 .656 -.623 -.183 .350 2.856.610 .128 .794 4.752 .005 .806 .905 .487 .376 2.658

( )常數SEXABSENCEASSIGNMIDTERM

模式1

B 之估計值 標準誤未標準化係數

Beta 分配

標準化係數

t 顯著性 零階 偏 部分相關

允差 VIF共線性統計量

\ AVERAGE依變數 :a.

再由係數分析表可知,缺席次數與期中考成績之 B 值達到顯著差異。

Page 34: 迴歸分析

非線性迴歸分析類別資料的迴歸分析

自變項為類別變項時,,原無法適用於線性關係分析,如性別、婚姻狀態等,為使類別變項也可以和其他連續變項一起納入迴歸分析模式中進行預測,迴歸分析發展出一套虛擬變項( dummy variable )的方式,在進行迴歸分析之前,將類別變項轉換成連續變項的型態,再依一般程序進行分析。

例:婚姻狀態

Page 35: 迴歸分析

非線性迴歸分析類別資料的迴歸分析

例:婚姻狀態1 :鰥寡2 :離異3 :未婚4 :已婚

因為 1~ 4並非等距尺度,若直接以此類別變項進行迴歸分析,勢將違反線性關係之假設,因此,將性別變項依四個水準分成四個二分變項,每個變項是1 表示是, 0 表示否

Page 36: 迴歸分析

虛擬變項

編號 原始變項

mar1 mar2 mar3 mar4

001 1 1 0 0 0

002 2 0 1 0 0

003 3 0 0 1 0

004 4 0 0 0 1

Page 37: 迴歸分析

參照組( reference group ) 一個具有 K 個水準的類別變項,可以轉換成 K 個虛擬變項,然在實際執行迴歸分析時,第 K組是 K - 1組的數值全部為 0,故實際只要 K - 1組,以免造成變項的多元共線性問題

未經虛擬處理的水準,即稱為參照組 參照組不一定是最後一個水準,而宜取用內容明確清楚,樣本數適中的水準作為參照組。如「其他」就不適合做為參照組;有順序關係時,如教育水準,可以選擇最高等級、最低或中間等級,作為參照組

Page 38: 迴歸分析

非線性迴歸分析程序

分析 > 迴歸方法 >曲線估計

Page 39: 迴歸分析
Page 40: 迴歸分析

PERFORM

ANXIETY

87654321

50

40

30

20

10

觀察值

線性

二次

由上圖可知,線性估計(綠線)無法符合觀察值的分佈狀況;二次曲線的估計(紅線)最符合觀察值的分佈狀況。

Page 41: 迴歸分析

由於二次曲線最符合觀察值的分佈,故焦慮變項應以二次式模型來解釋績效表現。

整體迴歸解釋力 R2為 0.852 ( R Square);換句話說,焦慮可以解釋績效表現達 85.2%的變異量( F = 20.1, P <0.01 )。二次項的標準化迴歸係數( Beta )為- 4.17,t=-4.395, p<0.01; 一次項的標準化迴歸係數( Beta )為 3.46, t=3.64, p<0.01 。

Page 42: 迴歸分析

)(474.640.16068.2)( 22

1 未標準化業績表現 XXY

)(64.3174.4)( 22

1 標準化業績表現 XXY

Page 43: 迴歸分析

路徑分析( Path Analysis )

多重變項間之因果關係結構模式變項必須是連續變數路徑圖( Path diagram ),用以描繪變項間之關係,如:

自我效能感

社會期待成就動機 學業表現

Page 44: 迴歸分析

假設 1 :自我效能感與社會期待影響個人的成就動機

自我效能感

社會期待成就動機 學業表現

•多元迴歸•依變項:成就動機•自變項:自我效能感、社會期待

Page 45: 迴歸分析

假設 2 :自我效能感、社會期待與成就動機影響學業表現

自我效能感

社會期待成就動機 學業表現

•多元迴歸•依變項:學業表現•自變項:自我效能感、社會期待、成就動機

Page 46: 迴歸分析

假設 3 :自我效能感與社會期待具有相關

自我效能感

社會期待成就動機 學業表現

Page 47: 迴歸分析

外衍變項( exogenous variable ),僅作為自變項者,如前例之社會期待,其不受其他變項的影響,其變異量由不屬於路徑模型的其他變項所決定。

外衍變項間可能具有相關,也可能相互獨立,但是其關係並不影響路徑模型內的因果關係

Page 48: 迴歸分析

內衍變項( endogenous variable )僅作為依變項,如前例之學業表現,其變異量完全由路徑模型中的其他變項的線性組合所決定。

成就動機兼具自變項與依變項的雙重身份,然其變異量由路徑模式中的自我效能感和社會期待兩因素所決定,亦為內衍變項。

Page 49: 迴歸分析

直接效果與間接效果

自我效能感

社會期待成就動機 學業表現.13*

.63***

.02

.16*

.29**

.21**

自我效能對成就動機和學業表現,均有直接效果,路徑分數分別為 0.29 (p<0.01) 與 0.63 (p<0.001) ;同時成就動機對學業表現亦有顯著的直接效果( beta=0.21, p<0.01)。因此,自我效能對學業表現的影響,除了具有直接效果之外,尚具有一由成就動機中介的間接效果,其強度為兩個直接效果的乘積( 0.21*0.63=0.18 )

Page 50: 迴歸分析

至於社會期待,其對成就動機的預測力不足( beta=0.02, n.s. ),直接效果不明顯,但是對於學業表現仍具有直接預測力( beta=0.16, p<0.05 ),但是社會期待無法藉由成就動機來間接影響學業成績

Page 51: 迴歸分析