ch5— exploratory factor analysis. 5.1 前言...

68
CH5— Exploratory Factor Analysis

Post on 18-Dec-2015

300 views

Category:

Documents


7 download

TRANSCRIPT

CH5—Exploratory Factor Analysis

5.1 前言 接續前一章主成分分析,本章所討論的主題為探

索性因素分析。 兩種方法的基本概念是類似的,其共同目的均為

縮減構面,然而兩者的基本模型不同。探索性因素分析的模型稱為共同因素模型 (Common factor model) 。

共同因素模型是把每一個原始變數的變異數歸由一組共同因子 (common factors) 與一獨特因子 (a single specific factor) 分別解釋

pcpcppp

cc

cc

FlFlFlx

FlFlFlx

FlFlFlx

2211

222221212

112121111

)var()var( :note 222

21 iiciii lllx

Common Factor Model

pppppp

pp

pp

xuxuxu

xuxuxu

xuxuxu

2211

22221212

12121111

Principal Components Model

5.1 前言 ( 續 )

探索性因素分析的目標是辨識共同因子,並解釋其與原始變數間的關係。

共同性因素模型提供了一個明確的架構,可使我們去評估原始資料的量測性質。The lower the error variance, the more reliable t

he measure 另外,我們可運用轉軸 (rotation) 的方法來幫

助因素分析結果的解釋

5.1.1 可能的應用 使用主成分分析的應用,大多可使用探索

性因素分析。 以下有兩個應用探索性因子分析的例子。 第一個例子為 : 辨識”潛在特性” (Latent

Traits ) 或”無法觀察之特性” (Unobservable Characteristics)

第二個例子為 : 使用因子分數於相依分析

例 ( 一 ):辨識”潛在特性”或”無法觀察之特性” 一般而言,實體特徵 ( 例如,長度或重量

… . 等 ) 是可被明確衡量 (measure) ,但是,有些潛伏特性或無法觀察之特性 ( 例如,態度、信念、知覺、滿意度、忠誠度 …等 ) 卻是無法直接衡量,故如何明確辨識此種潛伏特性便是一項重要的課題。

Concept (or construct) research variable, usually unobservable Use several question items (observable variables) to measur

e indirectly

在行銷上,研究者可能有興趣在一些特性上 ( 例如,顧客滿意度 ) ,並探討此種特性如何被企業的營運活動所影響。

僅僅使用單一問題項,去準確測量顧客滿意度是有很困難的,故研究者會設計一數個問題項,每一問題項都僅能捕捉顧客滿意度的部份特性。

例 ( 一 ):辨識”潛在特性”或”無法觀察之特性” ( 續 )

Aaker(1997) 使用探索性因素分析去辨識不同人格特質 (Personality traits) 。

Aaker 要求受訪者回答 114 種人格特質 ( 原始變數 ) ,使用五點尺度 (Five-point scale)

最後 Aaker 選了五個共同因子,且此五個共同因子的解釋能力超過 90% 。

經過轉軸後,其將這五各共同因子命名為 : 誠實 (Sincerity) ,興奮 (Excitement) ,能力 (Competence) ,有教養 (Sophistication) ,粗魯 (Ruggedness) , <參表 5.1> 。

例 ( 一 ):辨識”潛在特性”或”無法觀察之特性” ( 續 )

表 5.1

例 ( 二 ):在相依分析中使用因子分數 Roberts(1984) 研究 162 個顧客關於購車時所考

量的因素,可區分成九類 : 奢侈 (luxury) ,外型 (style) ,穩定度 (reliability) ,耗油程度 (fuel economy) ,安全性 (safety) , 維修 (maintenance) ,品質 (quality) ,耐用度 (durable) ,性能 (performance) 。

他的最終目的是為了建立一個顧客購車時考量因素之模型,然而, 受限於模型的自由度,因此,他決定採用因子分析去找出少數幾個共同因子。

最後 Roberts(1984) 選了二個共同因子,且此二個共同因子的解釋能力超過 60% 。

接著,利用轉軸,使因子的命名更為容易。這兩個因子命名為動人的 (Appealing) 與實用的 (Sensible) 。

原始變數與因子之間的相關系數,稱之為 factor loadings ,參表 5.2 , 高係數者標有底線。

例 ( 二 ):在相依分析中使用因子分數 ( 續 )

表 5.2

5.2 探索性因素分析之原理

Holzinger and Swineford(1939)對一些學生進行智力測驗的研究,此測驗主要是對七、八年級的學生 (n=145) ;此測驗包含成五個測驗項目 : 文法理解 (PARA) ,造句能力 (SENT) ,字義了解 (WORD) ,加法 (ADD) ,算數 (DOTS) 。用變數 X1到 X5 來表示上述五個測驗項目。

相關係數矩陣在表 5.3

5.2.1 直覺

表 5.3

5.2.1 直覺 ( 續 )

利用因素分析,此處我們的假設是每一個所觀察到的測試分數 (X1~X5 ) ,可分解為一組的共同因子與一個獨特因子。

首先假定學生的測驗分數中只有一個共同因子存在, 以符號 ξ 表示,此共同因子反映了每個學生的智能。

在單因子的模式中,第 i 個測驗的分數 (Xi) 是共同因子 ξ 與獨特因子 的函數

為每一項測驗 (xi) 所獨特擁有的一個成份

ii

圖 5.2

如果以方程式來表達的話,為

在方程式中 表示 X反映共同因子的程度 在此方程式中,假設 Xi 與 已經過標準化 (平均數為

0 ,變異數為 1) ,故 Xi 的變異數可以表示為

1 1 1

2 2 2

3 3 3

4 4 4

5 5 5

X

X

X

X

X

2( ) ( ) var( ) 1i i i ivar X var

(5.1)

因為變數已標準化, λi 可解釋為相關係數。 λi2 為共

同因子 ξ 可解釋 Xi 變異的程度,我們稱之為 Xi 的共同性 (communality) 。 Xi 的剩餘變異我們用獨特因子來解釋。

若我們使用 來表示獨特因子的變異數,因此 Xi 的共同性會等於

當 Xi 的共同性趨近於 1 ,共同因子就可完全捕捉到 Xi 。

2 var( )ii i

21 ii

二因子模型 學生的測驗成績也可能存在兩個共同因子,我們

可用 ξ1 和 ξ2 表示語言能力與數理能力。因此二因子模型可用下列式子表達 :

1 11 1 12 2 1

2 21 1 22 2 2

3 31 1 32 2 3

4 41 1 42 2 4

5 51 1 52 2 5

X

X

X

X

X

二因子模型 在此模型中,每個測驗的共同性為所有 factor lo

ading 的平方和,因此,共同性可表示為

在這個例子中,我們可能可以發現,某一個學生會有較好的數理能力 (high ) ,與較差的語文能力 (low )

2 211 12

12

解答過程 我們假設 ,因此,共同性會等於 , 所

以特徵值為 :λ1=2.187 λ2=1.022 λ3=(-0.135) λ4=(-0.089) λ5=0.015

在這個例子中,獨特因子的變異數為 0.5+0.5+0.5+0.5+0.5=2.5 ,佔原來五個測驗分數總變異的 50%(2.5/5.0) ,而共同因子可解釋的變異數也為 2.5 ,亦為 50% 。

2 0.50ii 21 0.50ii

接下來我們要討論究竟需要幾個共同因子 ? 我們的目標是盡量使用最少的共同因子來

解釋最多的變異數。 兩個因子的結果顯示在表 5.4 中

表 5.4

如果我們沒有對於資料中的衡量誤差事前沒有充分認知,則我們應如何估計初步的共同性?

一個被廣泛使用的方法為 SMC (squared multiple correlation) 。

此方法是一個變數可被其他變數解釋的能力。例如:我們希望使用 SMC作為 X1 的初步共同性估計,則我們拿 X1 與其他剩餘的變數 X2-X5作回歸,並使用 R2當作共同性的值。 ( 如表 5.5 所示 )

表 5.5

轉軸後的結果 一個有效的共同因素模型有無限多的解,

每個解對於所觀察的共變異矩陣的解釋能力均相等。

故我們試圖藉由轉軸 (rotation)簡化 factor loadings矩陣,使能更清楚的解釋共同因素。

最受歡迎的轉軸是基於 Thurstone(1947)簡單結構 (simple structure) 的原理

轉軸後的結果 Thurstone(1947) 相信此簡單結構 (simple structu

re) 的大部分內容可能影響許多潛伏或不可觀察之因子。

他也假設任何單一可觀察之變數將只與一個或少數不可觀察之因子相關;且任何單一因子將只與一些變數相關。

一般而言,我們希望共同因子有幾個相對較高的 loadings( 無論正或負 ) ,而大部分其他 loadings則趨近於零

轉軸後的結果 一個描述簡單結構的假說例子可參考表 5.6和圖 5.4 。 此例子是描述顧客在購買止疼藥時會考量的六種因素 (屬

性 ): 1. 不會產生胃痛 2. 無不好的副作用 3.止疼 4.藥效迅速 5.保持清醒 6. 提供有限的疼痛解除

轉軸後的結果 表 5.6顯示轉軸前兩個共同因子的結果,對

應圖 5.4(a) ,不難發現 loadings 的解釋能力是差的。

而表 5.6 轉軸後的結果,對應圖 5.4(b) ,則因為極大化與極小化 loadings ,而可清楚解釋兩個共同因子的屬性為何。

表 5.6

5.2.2 Mechanics

1/ 2 '

'

1/2 ' ' 1/ 2 's

1/2 ' 1/ 2 '

1/2 1/2 '

'

'c c

(5.5)

R=1/(n-1)X (5.6)

R=1/(n-1)(Z D U ) ( )

=1/(n-1)UD ( )

=(UD )(UD ) (5.7)

R=FF (5.8)

R F F (5.9)

s

s

s s

X Z D U

X

Z D U

Z Z D U

主成份分析

5.2.2 Mechanics ( 續 )

1 11 1 12 2 1 1

2 21 1 22 2 2 2

3 31 1 32 2 3 3

1 1 2 2

'c

(5.10)

X= (5.11)

c c

c c

c c

p p p pc c p

X

X

X

X

探索性因素分析

共同因素模型之假設

'

' 2 2 211 22

'

11. .

( 1)

12. = ( , , , ).

( 1)

3. 0

pp

n

diagn

5.2.2 Mechanics ( 續 )

' ' '

' ' ' ' ' 'c c c c

'c c

'c c

R=1/(n-1)( + ) ( + )

=1/(n-1)( + + + ) (5.12)

R= + (5.13)

R- = (5.14)

c c

Rotational indeterminacy

In PCA, we choose each component in sequential fashion to account for the maximum possible amount of variation in our original data, subject to the constraint of being uncorrelated with all previously selected components. This ensures a unique solution.

With the common factor model, we impose no such constraint. Therefore, there are effectively an infinite number of solutions that are identical to the extent to which they are able to approximate the matrix .R

'c

''c

'cc

*'*

c

''*

TT

T)T(

-R

T

T))(1/(1

c

c

cc

cc n

Note: T is a orthogonal rotation matrix.

Rotational indeterminacy

5.2.2 Mechanics ( 續 )

cos sin (5.15)

sin cos

0.866 0.500T= (5.16)

0.500 0.866

T

5.2.2 Mechanics ( 續 )

* *'c c

'c c

' 'c c

2 2 2 2k 2

1 1

2c

4 2

k=1 1 1 1

R- =

= T( T)

= TT (5.17)

1 1V ( ) ( ) (5.18)

1V= (5.19)

p p

ik iki i

p pc

ik iki k i

a ap p

a ap

5.2.2 Mechanics ( 續 )

p pc c4 2 2ik ik ij

i=1 k=1 i=1 k=1 j¹k

p c4ik

i=1 k=1

s

' 's s s

c

a + a a (5.20)

Q = a (5.21)

Ξ = X B (5.22)

1 1X Ξ = X X B

(n -1) (n -1)

or Λ = RB

-1c

-1s c

(5.23)

B = R Λ (5.24)

Ξ = X R Λ (5.25)

5.3 SAMPLE PROBLEM

題目 - Ready-to-eat cereals( 穀類食品 EX :家樂事玉米片 )研究顧客購買產品所考量之 25個屬性方法:採發問卷調查方式進行評分方式:每位受訪者對每種屬性給予 1~5 之評分分數

樣本: 116 位受訪者評估 12種品牌,每位受訪者評估兩到三種不同品牌之產品,共有 235 個觀察值

Filling

Natural

Fibre

Sweet

Easy

Salt

Satisfying

Energy

Fun

Kids

Soggy

Economical

Health

Family

Calories

Plain

Crisp

Regular

Sugar

Fruit

Process

Quality

Treat

Boring

Nutritious

25 個屬性

共同性 (Communality):係指某一個變數可被潛伏因素解釋的部分。

SMC (squared multiple correlation)

Which is the amount of variation in one variable explained by all other variables in the data set.

由 SMC 表可知,屬性的共同性數值範圍從 0.23(Easy) 到最高的 0.75(Health) 。

25 個行為變數 (屬性變數 )的共同性之總和為 13.0 ,佔總變異的 52%(13/25) ,故四個萃取出的因子之解釋能力超過一半,足以代表 25個行為 (屬性 )變數。

( 轉軸前 )

HealthfulInterstingNon-

Adult

Artificial

( 轉軸後 )

( 轉軸前 )

( 轉軸後 )

5.4 因子分析應用的相關問題

5.4.1 是否可得到相關的共同因子 ?

當我們在作因子分析或主成分分析時,我們會假設共同因子間是沒有關係的,讓我們容易去解釋結果,此轉軸法稱為直交轉軸。

但是當我們在萃取因子時,我們也可以選擇不同的轉軸方法,讓共同因子間是有相關的,亦即斜交轉軸法 (oblique rotations) 。

斜交轉軸法與直接轉軸法是相似的,皆是便於解釋,但斜交轉軸可允許共同因子間是有相關的。

5.4.1 是否可得到相關的共同因子 ?( 續 )

一般來說,當我們使用直交轉軸有一些問題是比較不關心的。

但當使用斜交轉軸法時,我們關心的一個重要的問題是,我們必須要去區分 structure loadings 與 pattern loadings 。 ( 如圖 5.7所示 )

圖 5.7

5.4.1 是否可得到相關的共同因子 ?

structure loadings和變數與因子間是有相關的 ( 因此會限制在 -1到 1 之間 ) 。一般來說, structure loadings對於因子解釋是沒有幫助的,因為簡單的結構會被因子間的相關所遮蓋住。

pattern loadings 如同迴歸分析的偏相關系數,它的值是不會受限在 -1到 1 之間,對於因子解釋是較有幫助的。

5.4.1 是否可得到相關的共同因子 ?

)28.5()(

10

10

01

01

01

)27.5(]][[][

)26.5(*

'1'*

cos

1

1cos2121

GT

G

xxww

PA

ccc

5.4.1 是否可得到相關的共同因子 ?

表 5.12 為之前智力測驗的例子,在此我們取兩個因子並採用斜交轉軸所產生的結果。

我們可以看到所有的 factor pattern 的絕對值都在 0.02到 0.06 之間。

因此,我們可以很明顯的看出想要的結果,就是第一個因子是由前三個測試 ( 數值很高 ) 所造成,而第二個因子由後兩個所造成的。

表 5.12

5.4.2 如何使用結果在續後的分析 ?

一般來說,因子分析並不是分析的結束,而是資料續後分析的連接點。

就像在 5.3穀類食品中, Robert 與 Lattin 使用因子分析去找出共同因子去建構一個簡單的模式。

在之後的分析中,他們使用原先 235 個觀察值所算出的係數值 ( 稱作因子分數 factor scores) ,如表 5.13 ,再計算出 12 個品牌的平均因子分數。如表 5.14 所示。

例如: weetbix 與 vitabrits 此兩個品牌結果是相似的,皆是 healthful,nonartificial,uninteresting 。

表 5.13

表 5.14

5.4.3 如何評估因子結構的效度 ?

經過探索的過程,我們的分析利用選取的樣本,已經捕捉到母體的一些特性。

但我們可能會產生一些疑問 ?就是分析出來的結果是否可以一般化,亦即當我們從相同母體中選取另外的一些樣本,則原先分析的結果是否還是有相同的解釋 ?

5.4.3 如何評估因子結構的效度 ?

回答此問題的一個方法是使用 holdout sample 。

在樣本是足夠大的情況下,我們可以簡單的將資料分為兩群 ( 使用隨機分配 ) 。

然後將這兩群分別作因子分析並比較得到的 factor loading ,以便看出結果是否相近。

The end