第十三章 線性關係的分析:相關與迴歸

26
第第第第 第第第第第 1/26 第第第第第第第第第…… . 第第第第 第第第第 第第第第第第第 第第第第第 第第第第第第第 第第第第第 Analysis of Linear Relationship: Analysis of Linear Relationship: Correlation and Regression Correlation and Regression

Upload: miyoko

Post on 21-Jan-2016

138 views

Category:

Documents


0 download

DESCRIPTION

第十三章 線性關係的分析:相關與迴歸. Analysis of Linear Relationship: Correlation and Regression. 課程目標. 瞭解線性關係的概念 瞭解相關係數的原理 瞭解其他類型的相關係數的概念 瞭解迴歸分析的原理 瞭解迴歸分析的假設 熟習相關與迴歸的 SPSS 統計應用. 線性關係的分析原理. 線性關係( linear relationship ) 指兩個變項的關係呈現直線般的共同變化 數據的分佈可以被一條最具代表性的直線來表達的關聯情形 。 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 1/26

☆ 量化研究與統計分析…… .

第十三章第十三章線性關係的分析:相關與迴歸線性關係的分析:相關與迴歸

Analysis of Linear Relationship: Analysis of Linear Relationship:

Correlation and RegressionCorrelation and Regression

Page 2: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 2/26

☆ 量化研究與統計分析…… .

課程目標• 瞭解線性關係的概念• 瞭解相關係數的原理• 瞭解其他類型的相關係數的概念• 瞭解迴歸分析的原理• 瞭解迴歸分析的假設• 熟習相關與迴歸的 SPSS 統計應用

Page 3: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 3/26

☆ 量化研究與統計分析…… .

線性關係的分析原理• 線性關係( linear relationship )

– 指兩個變項的關係呈現直線般的共同變化– 數據的分佈可以被一條最具代表性的直線來表達的關聯情形 。

– 該直線之方程式為 Y=bx+a , b 為斜率(即 Δy/Δx ,每單位的 X 變動時,在 Y 軸上所變動的量)

• 線性關係可以散佈圖來表現

身高

190180170160150

體重

90

80

70

60

50

40

第一節

Page 4: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 4/26

☆ 量化研究與統計分析…… .

五種不同的相關情形– 完全正相關( perfect positive correlation )– 完全負相關( perfect negative correlation )– 正相關( positive correlation )– 負相關( negative correlation )– 零相關( zero correlation )

關聯方向 關聯情形

正向關係 負向關係

完全關聯 完全正相關 完全負相關

有關聯 正相關 負相關

度 無關聯 零相關

第二節

Page 5: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 5/26

☆ 量化研究與統計分析…… .

X

Y

cov(x,y)

SDx2

X

Y

SDy2

相關分析的圖示

11

)(Variance

2

N

SS

N

XX x

1

))((Covariance

N

YYXX

yx

xy

yx SSSS

SP

YYXX

YYXX

ss

yxr

22 )()(

))((),cov(

第二節

Page 6: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 6/26

☆ 量化研究與統計分析…… .

積差相關的假設考驗

• 相關係數是否具有統計上的意義,則必須透過統計考驗 (t-test) 來判斷

• 從樣本得到的 r 是否來自於相關為 0 的母體,即 H0:ρXY= ( ρ0=0 )

• 相關係數的 t 檢定的自由度為 N-2 ,因為兩個變項各取一個自由度進行樣本變異數估計

2

1 2

00

N

r

r

s

rt

r

第二節

Page 7: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 7/26

☆ 量化研究與統計分析…… .

相關係數的特質1. 隨著共變數的大小與正負向,相關係數可以分

為正相關 ( 完全正相關 ) 、負相關 ( 完全負相關 ) 、零相關五種情形。

2. 相關的大小需經顯著性檢定來證明是否顯著( 是否有統計上的意義 ) 。

3. 相關係數介於 -1 至 1 之間。4. 相關情形的大小非與 r 係數大小成正比5. 相關並不等於因果6. 相關係數沒有單位 , 可以進行跨樣本的比較

第二節

Page 8: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 8/26

☆ 量化研究與統計分析…… .

相關係數的強度大小與意義

相關係數範圍(絕對值) 變項關聯程度

1.00 完全相關

.70至.99 高度相關

.40至.69 中度相關

.10至.39 低度相關

.10以下 微弱或無相關

第二節

Page 9: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 9/26

☆ 量化研究與統計分析…… .

點二系列相關係數• 適用於二分變數的相關係數計算

• rpb的係數數值介於 1.0 之間,絕對值越大,表示兩個變項的關係越強– 當 rpb係數為正時,表示二分變項數值大者,在連續變項上的得分越高– 當 rpb係數為負時,表示二分變項數值小者,在連續變項上的得分越高

• 當 p 與 q 數值為越接近 0.5 時, rpb的數值才有可能接近 1.0• 二分變項也可以視為一種連續變項,其與其他任何連續變項

的相關,即等於 Pearson’s r

pqs

XXr

tpb

21

第三節

Page 10: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 10/26

☆ 量化研究與統計分析…… .

eta 係數 • 適用於一個類別變項與連續變項的相關,可以反應非

線性關係的強度 • 原理是計算類別變項的每一個數值(類別)下,連續

變項的離散情形佔全體變異量的比例• 各類別中,在連續變項上的組內離均差平方和,佔總

離均差平方和的百分比(以 X 無法解釋 Y 的誤差部分),比例越小,表示兩變項的關聯越強

• η 係數數值類似積差相關係數,介於 0 至 1 之間,取平方後稱為 η2 ,具有削減誤差百分比( PRE )的概念,又稱為相關比( correlation ratio )

2

2

2

22

)(

)(1

)(

)()(

YY

YY

YY

YYYY kk

第三節

Page 11: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 11/26

☆ 量化研究與統計分析…… .

偏相關與部分相關

• 偏相關( partial correlation )與部分相關( part correlation )– 計算兩個變項的相關係數時,把第三變項的影響加以控制的技術

(b)

YX YX

(a)

C

(c)

YX

C

(d)

YX

C

(e)

YX

C

第三節

Page 12: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 12/26

☆ 量化研究與統計分析…… .

淨相關與部份相關 • 線性關係的統計控制

– 如果兩個連續變項之間的關係,可能受到其他變項的干擾之時,或研究者想要把影響這兩個變項的第三個變項效果排除,可以利用控制的方式,將第三變項的效果進行統計的控制。

• 淨相關 – 在計算兩個連續變項 X1 與 X2 的相關之時,將第三變項( X3 )與兩個

相關變項的相關 r13 與 r23 予以排除之後的純淨相關,以 r12 . 3 來表示。

• 部份相關 – 計算 X1 與 X2 的單純相關,如果在計算排除效果之時,僅處理第三變項

與 X1 與 X2 當中某一個變項的相關之時,所計算出來的相關係數,稱之為部份相關,或稱為半淨相關( semipartial correlation )

223

213

2313123.12

11 rr

rrrr

2

23

231312)3.2(1

1 r

rrrr

第三節

Page 13: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 13/26

☆ 量化研究與統計分析…… .

均值迴歸( regression toward the mean )

• 緣起– 1855 年,英國學者 Galton 以“ Regression towa

rd mediocrity in heredity stature” ,分析孩童身高與父母身高之間的關係

– 父母的身高可以預測子女的身高:當父母身高越高或越矮時,子女的身高會較一般孩童高或矮

– 當父母親身高很高或很矮(極端傾向)時,子女的身高會不如父母親身高的極端化,而朝向平均數移動( regression toward mediocrity )

第四節

Page 14: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 14/26

☆ 量化研究與統計分析…… .

迴歸原理• 迴歸原理

– 將連續變項的線性關係以一最具代表性的直線來表示,建立一個線性方程式 Y’=bX+a , b 為斜率, a 為截距

– 透過此一方程式,代入特定的 X 值,求得一個 Y 的預測值。– 此種以單一獨變項 X去預測依變項 Y 的過程,稱為簡單迴歸( si

mple regression ) • 最小平方法與迴歸方程式

– 配對觀察值( X,Y ),將 X 值代入方程式,得到的數值為對 Y 變項的預測值,記為 Y’

– 差值 Y-Y’ 稱為殘差( residual ),表示利用迴歸方程式無法準確預測的誤差

– 最小平方法:求取殘差的平方和最小化的一種估計迴歸線的方法– 利用此種原理所求得的迴歸方程式,稱為最小平方迴歸線

第四節

Page 15: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 15/26

☆ 量化研究與統計分析…… .

迴歸方程式與未標準化迴歸係數

• 迴歸方程式 的斜率與截距

x

xy

i

ii

x

xy SS

SP

XX

YYXX

s

yxb

22.

)(

))((),cov(

XbYa xy .

xyxy aXbY ..

第四節

Page 16: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 16/26

☆ 量化研究與統計分析…… .

標準化迴歸係數( standardized regression coefficient )

• 標準化迴歸係數– 將 b 值乘以 X 變項的標準差再除以 Y 變項的標準差,即可去除單

位的影響,得到一個不具特定單位的標準化迴歸係數– 標準化迴歸係數稱為( Beta )係數。係數是將 X 與 Y 變項所有

數值轉換成 Z 分數後,所計算得到的迴歸方程式的斜率•

係數具有與相關係數相似的性質,數值介於 -1 至 +1 之間– 絕對值越大者,表示預測能力越強,正負向則代表 X 與 Y 變項的

關係方向

y

xxyxy s

sb ..

第四節

Page 17: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 17/26

☆ 量化研究與統計分析…… .

迴歸誤差與可解釋變異

• 觀察值 Y=bX+a+e

• 迴歸方程式為• 誤差為兩者之差: e=Y- Y’

迴歸離均差

誤差

原始離均差

Xi

xyxy aXbY ..

Y=bX+a

第四節

Page 18: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 18/26

☆ 量化研究與統計分析…… .

迴歸解釋變異量 • 迴歸解釋變異量 (R2)

– 表示使用 X去預測 Y 時的預測解釋力(獨變項對於依變項的解釋力)

– 即 Y 變項被自變項所削減的誤差百分比 iiii YYYYYYe )()(

eregiit SSSSYYYYYYSS 222 )()()(

2

2

2

2

)(

)(

)(

)(1

YY

YY

YY

YY

SS

SS

SS

SS

i

ii

i

i

t

e

t

reg

PRESS

SS

SS

SSR

t

reg

t

e 12

第四節

Page 19: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 19/26

☆ 量化研究與統計分析…… .

調整迴歸解釋變異量 • R2無法反應模型的複雜度(或簡效性)• 簡效性( parsimony )問題

– 不斷增加獨變項, R2不會減低( R2為獨變項數目的非遞減函數)– 研究者為了提高模型的解釋力,不斷的投入獨變項,每增加一個獨變項,損失

一個自由度,最後模型中無關的獨變項過多,自由度變項,失去了簡效性• 調整後 R2 ( adjusted R2)

– 為了處罰增加獨變項所損失的簡效性,將自由度的變化作為分子與分母項的除項加以控制,可以反應因為獨變項數目變動的簡效性損失的影響

– 當獨變項數目( p )越多, adjR2越小– 當樣本數越大,對於簡效性處罰的作用越不明顯

)1/(

)1/(1

/

/12

NSS

pNSS

dfSS

dfSSadjR

t

e

tt

ee

第四節

Page 20: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 20/26

☆ 量化研究與統計分析…… .

迴歸模型的顯著性考驗

• R2 的基本原理是變異數,因此對於 R2 的檢定可利用 F 考驗來進行

1/

/

/

/)1,(

pNSS

pSS

dfSS

dfSS

MS

MSF

e

reg

ee

regreg

e

regpNp

變異來源 SS df MS F

迴歸效果 SSr p SSr/dfr MSr/MSe

誤差 SSe N-p-1 SSe/dfe

全 體 SSt N-1

第四節

Page 21: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 21/26

☆ 量化研究與統計分析…… .

估計標準誤 • 預測誤差 e 是一個呈現常態分配的隨機變數,平均數為 0 ,標準差為 se

• 估計標準誤的計量性質是標準差,因此可用以反應誤差分配的離散情形– 標準誤越大,估計誤差越大– 標準誤越小,估計誤差越小

• 估計標準誤– 取誤差變異的平方和除以自由度( N-k-1 )的開方,亦即 F 考驗當中的誤差均方( MSe )的開方

e

ee df

SS

kN

YYs

1

)( 2

第四節

Page 22: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 22/26

☆ 量化研究與統計分析…… .

迴歸模型的參數估計 • 個別的迴歸係數 b 或可以用以說明預測變項對於依變項的解釋力

• 迴歸係數數值的統計意義需經過假設考驗來檢驗– R2的顯著性考驗是迴歸分析的整體考驗( overall test ) – 迴歸係數的考驗可視為事後考驗( post hoc test )

• 迴歸係數的考驗– H0 : =0– 利用 t 檢定,自由度為 N-p-1 :

x

eb

SS

s

b

s

bt

2

第四節

Page 23: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 23/26

☆ 量化研究與統計分析…… .

迴歸係數的區間估計 • b 係數為未標準化係數,用以反應獨變項對於依變項的影響程度

• b 係數可以得知獨變項的變動在依變項的變動情形

• 利用模型的迴歸係數標準誤, b 係數的區間估計可用來推估母數出現的範圍

• 利用 b 係數的 95%信心估計區間是否涵蓋 0 ,來檢驗 b 係數是否顯著不等於 0

bdf stbCI ),2/()1(

第四節

Page 24: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 24/26

☆ 量化研究與統計分析…… .

迴歸分析的基本假設( 一 ) 固定自變項假設( fixed variable )

– 特定自變數的特定數值應可以被重複獲得,然後得以此一特定的 Xi 代入方程式而得到預測值。

( 二 ) 線性關係假設( linear relationship )– 當 X 與 Y 的關係被納入研究之後,迴歸分析必須建立在變項之間具有線性關係的

假設成立上。( 三 ) 常態性假設( normality )

– 迴歸分析中的所有觀察值 Y 是一個常態分配,即 Y 來自於一個呈常態分配的母群體。因此經由迴歸方程式所分離的誤差項 e ,即由特定 Xi 所預測得到的與實際 Yi 之間的差距,也應呈常態分配。誤差項 e 的平均數為 0 。

( 四 ) 誤差獨立性假設( independence )– 誤差項除了應呈隨機化的常態分配,不同的 X 所產生的誤差之間應相互獨立,無

相關存在,也就是無自我相關( nonautocorrelation )。( 五 ) 誤差等分散性假設( homoscedasticity )多元共線性假設

– 特定 X水準的誤差項,除了應呈隨機化的常態分配,且其變異量應相等,稱為誤差等分散性

第四節

Page 25: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 25/26

☆ 量化研究與統計分析…… .

等分散性假設圖示

第四節

Page 26: 第十三章 線性關係的分析:相關與迴歸

第十三章 相關與迴歸 26/26

☆ 量化研究與統計分析…… .

Time for restChapter 13 is done here.. See you later!