探索性因素分析: 主成分分析與因素分析

23
1 探探探探探探探探探探探探探探探探探

Upload: carson-glass

Post on 01-Jan-2016

200 views

Category:

Documents


1 download

DESCRIPTION

探索性因素分析: 主成分分析與因素分析. 相關矩陣. Observed correlation matrix 由觀察變項計算得到的相關係數矩陣 Reproduced correlation matrix 由因素導出的相關係數矩陣 Residual correlation matrix 觀察相關係數矩陣與重製相關係數矩陣的差異. 因素分析的各類矩陣. Orthogonal rotation 直交轉軸 所有的因素不具有相關的轉軸結果 Oblique rotation 斜交轉軸 因素間具有相關的轉軸結果 Loading matrix 因素負荷矩陣 - PowerPoint PPT Presentation

TRANSCRIPT

1

探索性因素分析:主成分分析與因素分析

2

相關矩陣 Observed correlation matrix

由觀察變項計算得到的相關係數矩陣 Reproduced correlation matrix

由因素導出的相關係數矩陣 Residual correlation matrix

觀察相關係數矩陣與重製相關係數矩陣的差異

3

因素分析的各類矩陣 Orthogonal rotation 直交轉軸

所有的因素不具有相關的轉軸結果 Oblique rotation 斜交轉軸

因素間具有相關的轉軸結果 Loading matrix 因素負荷矩陣

直交轉軸後各觀察變項與因素間的相關係數矩陣 Structure matrix 結構矩陣

斜交轉軸後各觀察變項與因素間的相關係數矩陣 Pattern matrix 型態矩陣

斜交轉軸後各觀察變項與因素間排除因素間相關後之相關係數矩陣

為斜交轉軸可以反應因素意義的係數 Factor score coefficients matrix 因素分數係數矩陣

用以反應因素得分的類迴歸方程式係數矩陣

4

因素分析的目的與問題 因素分析的主要目的在將繁多的變項縮減為少數的因素,找出變項背後的結構,涉及下列問題的探討 因素數目的決定 因素的內容與性質 因素的重要性 理論的檢驗 因素分數的估計

5

因素分析的限制 理論層次的問題

因素的抽取必須具有相當的理論與邏輯基礎。重要的因素必須被涵蓋,無關的測量應該被排除

因素背後應有特定且穩定的測量變項, 稱為 marker variable ,是用來定義因素的重要變項

因素內的複雜性需被仔細的評估。反應在與多個因素有關係的觀察變項 樣本的選取需能涵蓋測量變項的變異性 樣本間的比較亦能反應因素的特性

實務層次的問題 因素分析受到相關係數的特性所影響,任何影響相關係數的原因都可能干擾因

素分析 樣本數、遺漏值、常態性、線性關係、偏離值 多元共線性 (multicollinearity) 與單一性 (singularity) ,極端的共線性與單一性對

於因素分析具有影響 相關係數的大小:如果觀察矩陣中相關係數均小於 .3 ,抽取因素能力低,可能

需放棄使用因素分析 因素分析的偏離值:當某測量變項不被因素所解釋時。當僅有兩個變項所決定

的因素,可能是一種不穩定的因素。

6

因素分析的類型 不同萃取方法皆產生直交的成分或因素來反應觀察相關矩陣 R

不同點在於抽取的標準不同,例如最大變異、最小殘差等 當樣本數大、觀察變項數目多或共同性估計相近時,各方法差異不大 因素分析結果是否穩定不是決定於萃取的方法而是變項間的關係

方法目的 PCA :單純的化簡測量(得到成分 components ) FA :尋找測量題目背後的結構與理論意涵,並利用這些潛在結構進行分析應用(得到因素 fa

ctors ) 萃取過程

差異在於兩者對於觀察相關矩陣的處理方式 也就是處理變異數上的差異

PCA analyzes variance: 觀察變項的所有變異量均被分析(觀察相關係數矩陣中對角線總和) FA analyzes covariance: 僅有共同變異量( shared variance )被分析(觀察相關係數矩陣中

對角線以共同性來取代) 萃取結果

PCA : 以最少的直交成分來解釋最大的變項變異量 具有單一的數學解

FA : 以最少的直交因素來反應相關矩陣 具有不同的最佳解

7

不同的萃取方法一 主成分法 (Principal components)

目的在使每一個成分能夠代表最大的觀察變異量 第一個主成分為觀察變項的線性整合,能夠反應最大的變異量,

依序發展各主成分 可以得到最大的解釋變異量

主要因素法 (principal factors) 以共同性為分析的對象 因素的抽取以疊代程序來進行,起始值為 SMC ( squared multi

ple correlations ),反覆帶入共同性直到無改善 能夠產生最理想的重製矩陣

映像因素萃取 (image factor extraction) 各觀察變項的變異量為其他變項的投射。每一個變項的映像分數

係以多元迴歸的方法來計算,映像分數的共變矩陣被進行 PCA 類似 PCA ,能夠產生單一的數學解,對角線與 FA 相同,為共

同性 因素負荷量不是相關係數,而是變項與因素的共變

8

不同的萃取方法二 最大概似因素萃取 (maximum likelihood factor extraction)

以因素負荷量的母數估計數為主要目的 計算樣本求得之觀察矩陣能夠反應母體的最大機率之負荷量 因素可進行顯著性考驗,適用於驗證性分析 也即是求取變項與因素間的最大典型相關

無加權最小平方法 (unweighted least squares factoring) 求取觀察與重製矩陣的殘差的最小平方值 只有非對角線上的數據被納入分析 共同性是分析完成之後才進行計算

一般加權最小平方法 (generalized weighted least squares factoring) 在無加權平方法下,增加權數的考量 ( 以共同性加權 ) 有較大的共同變異的變項被較大的加權

Alpha 法 (alpha factoring) 處理共同因素的信度,提高因素的類化性( generalizability ) 共同性的估計是在使因素的 alpha信度達到最大

9

Rotation 轉軸 轉軸的時機

依目的:得到最佳的結構,或保留因素的原始面貌 利用因素散佈圖協助判斷:觀察變項應在各軸上:接近各軸,遠離原點,形成群落

Orthogonal rotation( 直交轉軸 ) Varimax: 使負荷量的變異數在因素內最大( Г =1 ) Quartimax : 使負荷量的變異數在變項內最大( Г =0 ) Equamax :綜合前兩者,使負荷量的變異數在因素內與變項內同時最大( Г =.

5 ) Г ( gamma )指標 : 表示簡化的程度: 0 表變項最簡化, 1 表因素最簡化, .5 表

兩者各半 Oblique rotation( 斜交轉軸 )

允許因素間具有相關之轉軸 因素間最大的相關由 δ ( delta )決定, 負的 δ越小,表示月接近直交, δ=-4

為直交, δ接近 1 時,因素間的相關可能最高 Direct oblimin: 使因素負荷量的差積( cross-products )最小化 Direct quartimin: 使型態矩陣中的負荷量平方的差積( cross-products )最小化 Orthoblique: 使用 quartimax 算式將因素負荷量重新量尺化( rescaled )以產生直

交的結果,因此最後的結果保有斜交的性質 Promax: 將直交轉軸( varimax )的結果再進行有相關的斜交轉軸。因素負荷量

取 2 , 4 , 6 次方以產生接近 0但不為零的值,藉以找出因素間的相關,但仍保有最簡化因素的特性

10

直交轉軸概念圖

11

12

四種萃取方法之比較

主成分分析 主軸因子 Alpha 因素萃取法

映像因素萃取法

1 2 1 2 1 2 1 2

COST -.087 -.988 -.086 -.981 -.086 -.981 -.086 -.968

LIFT -.072 .989 -.071 .977 -.071 .977 -.071 .965

DEPTH .997 -.026 .994 -.026 .994 -.026 .993 -.026

POWDER .998 .040 .997 .040 .997 .040 .993 .040

特徵值 2.016 1.942 2.005 1.909 1.997 1.917 1.984 1.870

解釋% 50.41 48.54 50.12 47.73 49.93 47.92 49.61 46.74

轉軸特徵值 2.003 1.955 1.995 1.919 1.995 1.919 1.983 1.871

直交% 50.07 48.88 49.87 47.99 49.87 47.99 49.59 46.76

總變異% 98.95 97.85 97.85 96.35

13

14

因素分析的範例說明

CostCost of ski ticket

LiftSpeed of ski lift

DepthDepth of snow

PowderMoisture of snow

S1 32 64 65 67

S2 61 37 62 65

S3 59 40 45 43

S4 36 62 34 35

S5 62 46 43 40

Cost Lift Depth Powder

Cost 1.000 -.953 .055 -.130

Lift -.953 1.000 -.091 -.036

Depth -.055 -.091 1.000 .990

Powder -.130 -.036 .990 1.000

15

特徵向量與特徵值 相關矩陣中的對角線代表變項的標準化的變異量( 1.00 ) 因素分析經由因素的萃取對於觀察變項相關矩陣進行萃取後,轉換

成為特徵值( L ) L=V’RV

V’V=I V 稱為特徵向量

上式可以轉換為 R=AA’ , A 稱為因素負荷矩陣

91.100.

00.00.2

207.675.

252.658.

685.177.

651.283.

00.1990.036.130.

990.00.1091.055.

036.091.00.1953.

130.055.953.00.1

207.252.685.651.

675.658.177.283.L

相關矩陣 R 特徵值矩陣 L

AAVLLVVLLVVVLR )')(('

16

因素負荷矩陣 前式可以轉換為 R=AA’ , A 稱為因素負荷矩陣

AAVLLVVLLVVVLR )')(('

286.956.

348.932.

947.251.

900.400.

91.100.

00.00.2

207.675.

252.658.

685.177.

651.283.

A

LVA

17

直交轉軸 Varimax 法:將因素負荷量的變異數最大化 將高相關更高,低相關更低( 19度轉軸)

rotatedunrotated

040.997.

026.994.

977.071.

981.086.

946.325.

325.946.

286.956.

348.932.

947.251.

900.400.

rotated

cossin

sincos

18

共同性與解釋百分比 Communality 共同性:

變項的變異量被因素解釋的百分比

040.997.

026.994.

977.071.

981.086.

rotated

(-.086)2+(.981)2=.970

(997)2+(-.040)2=.996

(.994)2+(.026)2=.989

(-.071)2+(-.997)2=.960

3.9151.994 1.919SUM=

.98 .50 .48%=

19

重製矩陣

重製矩陣為由因素所推導出的相關矩陣

R

996.990.033.125.

990.989.098.059.

033.098.962.953.

125.059.953.970.

040.026.977.981.

997.994.071.086.

040.997.

026.994.

977.071.

981.086.

R

996.990.033.125.

990.989.098.059.

033.098.962.953.

125.059.953.970.

996.990.036.130.

990.989.091.055.

036.091.960.953.

130.055.953.970.

RRRres

000.000.003.005.

000.000.000.004.

003.007.002.000.

005.004.000.000.

20

Factor scores 因素分數 因素分數的產生由因素負荷量為基礎,透過迴歸分析原理

來獲得一組因素分數係數,即可計算因素分數 因素分數係數為因素負荷量與相關係數反矩陣的乘積

因素分數為原始變項分數轉換為 Z 分數後乘以因素分數係數而得

各變項由因素得到的預測分數公式如下

ARB 1

ZBF

1FAZ

21

解說總變異量

2.016 50.408 50.408 2.016 50.408 50.408 2.003 50.067 50.0671.942 48.538 98.945 1.942 48.538 98.945 1.955 48.879 98.945.038 .945 99.891.004 .109 100.000

成份1234

總和 %變異數的 %累積 總和 %變異數的 %累積 總和 %變異數的 %累積初始特徵值 平方和負荷量萃取 轉軸平方和負荷量

萃取法:主成份分析。

共同性

1.000 .9831.000 .9831.000 .9951.000 .997

COSTLIFTDEPTHPOWDER

初始 萃取

萃取法:主成份分析。

成份矩陣a

.919 .390

.891 .449

.357 -.925-.500 .856

POWDERDEPTHLIFTCOST

1 2成份

萃取方法:主成分分析。 2 萃取了 個成份。a.

成份轉換矩陣

.904 .427

.427 -.904

成份12

1 2

萃取方法:主成分分析。 Kaiser Varimax 旋轉方法:旋轉方法:含 常態化的 法。

轉軸後的成份矩陣a

.998 .040

.997 -.026-.072 .989-.087 -.988

POWDERDEPTHLIFTCOST

1 2成份

萃取方法:主成分分析。 Kaiser Varimax 旋轉方法:旋轉方法:含 常態化的 法。

3 轉軸收斂於 個疊代。a.

重製相關

.983b -.970 -.061 -.127-.970 .983b -.098 -.033-.061 -.098 .995b .994-.127 -.033 .994 .997b

.017 .006 -.003.017 .006 -.004.006 .006 -.004

-.003 -.004 -.004

COSTLIFTDEPTHPOWDERCOSTLIFTDEPTHPOWDER

重製相關

殘差a

COST LIFT DEPTH POWDER

萃取法:主成份分析。 0 (.0%) > 0.05 計算觀察與重製相關之間的殘差。 共有 個絕對值 的 非

重複性殘差。a.

重製共同性b.

22

因素數目判斷原則 一般原則:解釋變異量

因素越多,解釋變異量越大 因素越多,簡效性越低(模式越複雜)

因素數目判斷方法 特徵值

大於 1 (表示大於 1.00 的原始觀察變異量) 因素數目合理範圍為變項數除以 3至除以 5 之間

陡坡檢定 Scree test (Cattell, 1966) 特徵值明顯出現變化時為合理數目

殘差分析 殘差類似於各變項間的相關在移除了因素的影響後的淨相關 檢驗不同因素數目下,殘差矩陣中的數值,高於 .05 或 .10 以上者過多,表示可能在其他因

素 因素負荷量檢驗

單一觀察變項的因素並不恰當 二個觀察變項的因素在兩變項相關高( r>.7 ),與其他變項相關低時,為合理。

顯著性考驗 驗證性因素分析提供因素的顯著性考驗 Bartlett 檢驗考驗全部因素的顯著性意義

研究上的考量 探索性的目的,想要瞭解因素的結構時,邊緣強度的因素可以保留,以瞭解其性質 當研究者需要穩定的因素進行研究時,保留信度高的因素即可

23

因素的解釋與命名 因素負荷量的判斷

.71 ( 50%)優秀 .63 ( 40%)非常好 .55 ( 30%)好 .45 ( 20%)普通 .32 ( 10%)不好 .32 以下:不及格

不同轉軸法下的考量 直交轉軸使用轉軸後矩陣 斜交轉軸使用型態矩陣,以獲悉因素的意義(結構矩陣

中的係數被因素間的相關擴張,導致高估)