mva 04

32
,顺哪

Upload: jungpin-wu

Post on 14-Mar-2016

213 views

Category:

Documents


2 download

DESCRIPTION

MVA 04 at FCU.

TRANSCRIPT

,顺哪

考慮下列情況:

#財務分析師分析某公司的財務健康狀況,分析師找出了 120種財務

比率的資料,如何將這120種比率「簡化」成少數幾個(約3種)綜

合指標,這些綜合指標都是原120種變數的線性組合。

#品管工程師想由一堆製程變數的量測資料,導出少數幾個主要的綜

合指標,以顯示製程是否在控制中。

^行銷經理想導出預測銷售量的迴歸模型,但發現其自變數彼此高度

相關〈資料有多重共線性),因此估計的迴歸參數的標準差太大,整

個估計會不穩定。如果可以找到或產生一些「新」變數,這些新變

數彼此不相關,卻能保留原始資料的資訊,則可用這些新變數,重

做新的迴歸預測模型。

主成分分析可解決上述問題,主成分分析形成的新變數是原變數

的線性組合,主成分新變數的最大個數等於原始資料的變數個數。

主成分分析常與因素分析弄混,主要是許多統計的套裝軟體如

(^?^^)是用因素分析(&(;^皿^^!)!^"^)計算主成分。本章聚焦在

主成分分析;下一章則討論因素分析與兩種方法的不同之處。

⑩ 幾 何 意 義

以實際資料為例,表4.1是兩變數^ 、&的12筆數據。圖4.1是均

值修正後資料^ 、 12的二維散佈圖。由表4.1可知兩變數的變異數分別

為23.091及21.091 ,相關係數為0.746 ,總變異為44.182^(3 23.091+

21.090 。 4 、 的變異數占總變異的百分比分別為52267。及47.747。。

口 禪 。 導 出 新 軸 與 新 變 數

圖4.1的點線是一新軸,設新軸與原《軸的夾角為0 ,則觀察

點在新軸《#的投影為各點在新軸的座標,由第2章口^"式易知新座

標:

乂1# 二 0 0 8 ^ X X I十 3 1 1 1 ^ X X】

為是原變數的線性組合,是一新變數。(註②^^ + !!^^^)

原始資料、均值修正後及標準化資料

^1

觀察值 原始 均值修正 原始 均值修正

1 16 8 8 5

2 12 4 10 7

3 13 5 6 3

4 11 3 2 一 1

5 10 2 8 5

6 9 1 一 1 一 4

7 8 0 4 1

8 7 一 1 6 3

9 5 一 3 一 3 一 6

10 3 一 5 一 1 一 4

11 2 一 6 一 3 一 6

12 0 一 8 0 一 3

均 值 8 0 3 0

變異數 23.091 23.091 21.091 21.091

8 8 0 「254 181

181 232

8 ^ 「23.091 16.455

16.455 21.091

1 ^ 1.000 0.746

0.746 1.000

主成分分析就是要找一角度^ ,使^V或力3的變異數為最大。〔譯

者註:就好像要對一群人(觀察點)照團體照,就要選一角度6 ,使能分

辨出每一個人(變異數最大X區辨力最大〕〕。

例 如 ^ 10。,則線性組合方程式為

乂产 00810。 X力十311110。 X 义 2 ^ 0.985^!十0, 174^2

原來12點的",;值代入上式,求得;^如表4.2 ,圖示如圖4.1 。例如

第1點(^)在圖4.1上^#軸上的投影長,即為表4,1的8.747 。 ^

的變異數為28.659 ,占總變異44.184的64.87%(28.659/44.182),比原

來力解釋的變異百分比23力91/44.182^5226070高。

10

^ 0

-1

~4

~6

一8

-10

+1

4-5 + 1

牛8 ^ 3 \

8 ^ 7 4 7 — ^ 1 1 一 一

一 - - ^ 1 0 - 一 5 3 1

一一,一一一一了 7

一"-^ ^ 9

一 12 1 1

6

牛4

+ 12

一 + 1 0 牛6

一 + 1 1 4-9

一^

-10 ~8 ~6 ^1 ~2 0

X、

2 4 6 8 10

均值修正後資料及在新軸^8 1 5

的投影

均值修正資料及旋轉10。後的新變數(;^ 〉

均值修正資料

觀察值 ^1

1 8 5 8.747

2 4 7 5.155

3 5 3 5.445

4 3 一 1 2.781

5 2 5 2.838

6 1 一 4 0.290

7 0 1 0.174

8 一 1 3 一 0.464

9 一 3 一 6 一 3.996

10 一5 一 4 一 5.619

11 一 6 一 6 一 6.951

12 一 8 一 3 一 8.399

均 值 0.000 0.000 0.000

變異數 23.091 21.091 28.659

主成分分析

0 ^旋轉至各新軸所得新變數^的變異數

與 ^ 夾 角 ^ 總變異 #的變異數 百分比仪。)

0 44.182 23.091 52.263

10 44.182 28.659 64.866

20 44.182 33.434 75.676

30 44.182 36.841 83.387

40 44.182 38.469 87.072

43.261 44.182 38.576 87.312

50 44.182 38.122 86.282

60 44.182 35.841 81.117

70 44.182 31.902 72.195

80 44.182 26.779 60.597

90 44.182 21.091 47.772

若^^20。,則"的變異數隨之改變,其占總變異的百分比亦不

同。將不同^所對應的變異數做表如表4.3並作圖如圖4.2 ,則易知

的變異數占總變異的百分比隨0的遞增而先遞增再遞減,顯然其最大

點僅有一點。所對應的0^^=43.261。 , ;值為

00343.261 乂力十31043.261 乂工 2

最大值

V \ \

\

1 1 1 1 1 1 1 1 1 10 20 30 40 50 60 70 80 90

與^的夾角(釣

0.728^ + 0.685^ (^!)

100

40 10

^5"

6的變異數占總變異的百分比

百分比

表4.4是此對應的均值、平方和及變異數。&#的變異數38.576最

大,占總變異的87.310/。(38.576/44.182)。

若視為第一主成分,則已可解釋& 、&兩變數的87.310/。的變

異。但:^未解釋百分之百的總變異,因此存在第二個新變數以解釋

最多未能解釋的總變異。

均值修正後資料及旋轉43.261 。所得新軸对,对

均值修正的資料 新變數

觀察值 XI

1 8 5 9.253 一 1.841

2 4 7 7.710 2.356

3 5 3 5.697 一 1.242

4 3 一 1 1.499 一2,784

5 2 5 4.883 2.271

6 1 一 4 一 2.013 一 3.598

7 0 1 0.685 0.728

8 一 1 3 1.328 2.870

9 一 3 一 6 一 6.297 一 2.313

10 一 5 一 4 一 6.382 0.514

11 一 6 一 6 一 8.481 一 0.257

12 一 8 一 3 一 7.882 3.298

均 值

平方和

變異數

0.000 0.000 0.000

424.334

38.576

0.000

61.666

5.606

新變異數的 8 8 0?互變異數及相關矩陣

「424.334 0.000 8 8 0

8 ^

1 ^

0.000 61.666

38.576 0.000

0.000 5.606

1.000 0.000

0.000 1.000

第二個新軸工2#應與^

111直交,兩者才會不相關。故若《#與^的

夾角為0 ,則&#與不的夾角亦為^ 。由第2章口^^)式,易知^^的線

性組合應為

^ 一 3 1 0 ^ X XI十0 0 8 0 X X:

在0=43.261。時,以上公式變為

^ ^ ~0^6^十0.728^2 ^ . ! )

由表4.4 ,可得及對應的均值、平方和及變異數;以及880? 、 8 、

8矩陣。圖4.3是觀察點對新軸的散佈圇。由圖及表可得:

1.觀察點投影至^ 、&軸得原變數的座標。.

1.新軸或新變數、 ^稱為主成分,觀察點投影至《# 、 軸 所 得

新值稱為主成分計分(?"001111)0116018《(:。—。

3,新變數為原變數的線性組合,且均值保持不變為0 。

《 、 ^的總平方和 4 8 6 (即424.334+61.666〉與原變數力、12的總平

方和相同。

^ 0

一 \ \

\

― \ \ 牛

8

、、、1

仞 乂

牛5 \ \

4-3

X,

;、^ 43.261。

11

11

一 \

!"

4\

:、、卞

\

\ 屮4

4-6 \

\

-10 ~8 ~6 ~4 ~2 0 2 4 6 8

1

均值修正後資料對新軸的散佈圖

5,汁、^的總變異數44,182〈即^呂:^ + ^^)與原變數;^ 、12的總變

異數相同(即原資料的總變異數在旋轉軸後,保持不變)。

6, 解釋總變異的百分比,一定比任一原始變數力或&解釋總變異

的百分比大。

1.新變數的相關係數為0 ,即;^ 、 不相關。

以上二維主成分分析的幾何意義很容易推廣到多維度來。設有5個變

數,則在^維空間上,新軸^516有最大變異數【最大解釋變異能力),第

二個變數:^與:^不相關且&#有第二大變異數(對尚未被^15解釋的變

異部分,擁有最大解釋能力)。第三個新變數與力# 、 均不相關且

^有第三大變異數。依此類推,至最多;7個新變數:^,;^,...,^為止。

新變數(主成分)的個數最多等於原來變數的個數。

^ 4 1 2 0主成分是維度化簡的方法

上節所得^個新變數,稱為主成分,主成分分析基本上在找新的

互相垂直的新軸,點在新軸的投影長即為主成分計分。尸個主成分彼

此不相關,故其解釋的變異量不重疊(互變異數:0〉。且新變數變異數

的加總等於原始資料的總變異。

一般而言,5個變數,希望只用加(^^"個主成分來描述原始資

料,故主成分分析是維度化簡(出!!^!!8^!!"!""!^!^)的方法。仿要選多

少則依原始資料的特性而定。如圖4.4 ,圖之I的資料,在《#軸的投

影可分辨出各點位置,故取~:1個主成分已足夠。圖之II的資料則

否,例如圖之II的資料在^#軸的投影,1 、 6兩點無法分辨,2 、 7 、 8

三點無法分辨,故需取~^2^;?個主成分。

前~個主成分的變異數加總,可用以量度資料在較低維度〈加維)

空間上,原來資訊量損失的程度。以表4.4的資料而言,的變異數

占總變異的87.317。,故只損失原始資料的12.690/。(被的變異數解釋

的部分),故只取一個主成分已足夠。一般而言,損失若干才算嚴重?

取~多少才算夠好?後述之。

^ 4 . 1 . 3 ^主成分分析的目的

主成分分析的幾何意義顯示主成分分析的目的就是要導出一組新

的直交座標軸,使得:

2

1 圈之I 闽之II

| ^ 觀 察 點 在 低 維 子 空 間 的 圖 示

1.所得新軸或新變數稱為主成分,觀察點投影至新軸所得新座標稱為

主成分計分。

2,新變數為原變數的線性組合。

3^第一個新變數解釋原資料最大的變異量。

4,第二個新變數解釋最多第一個新變數未能解釋的總變異。

5,第三個新變數解釋最多前兩個新變數未能解釋的總變異。

6,第尸個新變數解釋最多前/? - 1個新變數未能解釋的總變異。

1.尸個新變數彼此不相關。

若原始資料的總變異數被少數幾個新變數解釋的總變異之百分比

夠大,則可用這少數幾個主成分取代原來^個變數來解釋原始資料或

做進一歩的分析。因此,主成分分析可以化約變數的^數,是資料維

度簡化的統計方法。

:土 解析方^

主成分分析的目標可公式化如下。考慮^個變數^...,&的線性組

合:

《1 十 ^ 1 2 ^ 2 十 ⋯ 十 什 1 ^

《2 ^ 2 1 ^ 1 十 ^ 2 2 ^ 2 十 ⋯ 十

^ ^ ^ , ^ ! 十 ^ 2 X 2 十 ⋯ 十 (^)

其中6,6,…,&為5個主成分,^是第/個變數在第/個主成分的權重。

權重^要被估計,使得

1. ^的變異數最大,&的變異數是除了 6之外最大的,餘類推。

1.

^ + ^ +…+ 二 1 1=1,…,;? (^)

3^對所有/^乂

^ ; ! ^ ; 1 十 \ ^ 1 2 ^ 十 … 十 ~ ~ ^ 0 (^)

^ . "式使新變數的尺度固定,式使 6 、 直交或不相關。如何求解

滿足上述條件的權重^是微積分的問題,詳解請參見附錄。

^ 如何埶行主成分分析

求解主成分,需要利用8?88或8入8等軟體。這裡只介紹8X8指

令及報表,8788的部分,讀者可自行對照比較。

醫.4.3.1 。 8 4 8指令

利用848的?!^匚?!^!^^"?求解主成分,其程式指令如表4.5 。

資料可用均值修正後資料【或原始資料)或標準化資料輸入,但兩者輸

出結果不同(亦即,主成分分析的解,不具單位不變性)。若在?1100

001^1?加了 0:0^的指令,則必須以均值修正後資料輸入資料,

不加00乂時,則必須用標準化資料輸入資料。01;丁:0?11011用來定義

輸出結果檔的名字,今取名!^~。?1100?111^1可列印新、舊變數。

0 0 00^11可求得新、舊變數的均值、標準差及相關係數。

3/^3說明

0^7^ 0196;

I 口 1 X I 352;

0 ^ 0 3;

±1136X1: & 七 & 11670

?1100 ?111^0014? 00^ 0X71? 二 13 7;

X I 父 2 ;

X I ^2 ^1171 ?&工"2;

?1100 001^;

主成分分析^

园 ^ 主 成 分 分 析 的 解 釋

報表4.1為8八8的輸出結果。以下說明中,中括號內的數字對應

報表中圓圈內的數字。為簡便計,數字均只取至小數點三位數。

3敘述統計

報表[巧口]為敘述統計量。例如[巧中變數的均值為8.00及3.000 ,

標準差為4.805及4.592 。 口]為互變異矩陣,總變異為44.182 ,力的變

異數解釋了 52.260/0 (即23.091/44.182〉。兩變數的相關係數可由互變異

矩陣求解,為0.746^13 16.455/(4.805 4 ^ 9 2 ^

主成分

由^]的特黴向量(^^~"(^)可得對應的主成分,故:

^ ^尸〃"1=0.728^ + 0.685^ (^)

6 = ^ 2 ^ ―0,685》十0.728x2 ^ . ! )

兩個主成分/^力1 、 ?""2為X、 、 &的線性組合。(^)與(^)式和(^)與

(々^式相同。兩個主成分的權重之平方和為卩即0,728 2^0力85 2及

(^^)^.^2),且兩組權重的點積為0【即0.728 X (―0.685〉+ 0-685 X

0.728^ 。

0 主成分計分

由^力)式與(么?)式,可得【6】的主成分計分,例如/^力1 、^77力2的

第一個觀察值分別為9.249 (即0.728 X 〈16 - 8〉十0.685 X【8 - 3〉〉及—1 ,840

(即0.685 X 06-8户0.728 X〈8 - 3〉〉。[叼的主成分計分與表4.4相同。

由1:4】可知:?""1與/^力2的均值為0 ,等於原均值修正資料的均

值。而/^力1 、/^"的標準差分別為6.211及2.368 ,變異數分別為

38.576 1(621 !)2)^. 5.606 (^^^^)2),正如的特徵值("^^"此)。

而【3顯示新變數的總變異44.182亦與原變數相同。但新變數/^力1解

釋總變異的比率為87.317。(即38.576/44.182〕 , 7^/22解釋總變異的比率

為12.69^ ,因此以/取代原來兩變數,已能解釋原始資料總變異

的870入。

分 析

表4.1的主成分分析

0 XI ^2

142^ 8.00000 3.00000 51 057 4.80530 4.59248

XI 乂2

XI 23.09091 16.45455

16.45455 21.09091

1 0 1 ^ 7 ^ 1 ^ 0 4 4 . 1 8 1 8 2

0 ~皿 ?111 2

38.5758 5, 6060

32.9698 0^ 873115 0.126885

0.87312 1 ,00000

1^1 XI 0.728238

0.685324

?111X2 -.685324 0.728238

7^1&81^: 8 142^ 510 0 ^ XI 12 8 000000 4-805300 XI 12 3 ,000000 4.592484 1^1 12 -8, 6972-16 6.210943

?!11 2 12 0 ,000000 2.367700

0 XI 11 1 1142

XI 1. 力0000 0: ―74562 (!. :94126 一0 ,33768 5(2 0 .14562 1. 00000 (!. 92684 0 ,37545 ?111 1 0 ―94126 0^ 92684 1. .000130 0 ,00000

11 2 一。, .33168 0 37545 0^ .130000 1 ,00000

〕85 XI XI 111 1 11 2 16 8 9 ,2525 ―1 .8414

2 12 10 7 .7102 2 ,3564 3 13 6 5 ,6972 一1 .2419 4 11 2 1 4994 2 ,7842 5 10 8 4 ,8831 2 2705 6 9 -1 一2 .0131 一 3 ,5983 7 8 4 0 6853 0 ,7282 8 7 6 1 2 .87013 9 5 - 3 - 6 ,2967 ―2 .3135

10 3 一 1 一6 ,3825 0 .5137 11 2 - 3 8 .4814 一 0 .2515 12 0 0 一7 .8819 3 .2919

有 時 希 望 各 主 成 分 計 分 標 準 化 ^ 3 1 1 將 各 主 成 分 計 分 除 以

其標準差),使其均值為 0 ,標準差為1 ,则上述 8 4 8程式只需改為

?I^0^?I^IIVI^0IV1?^0V5丁0 0 I丁 = ^\V ,上例的標準化計分如表4.6 。

標準化主成分計分

觀察值 ^191(1

1 1.490 一 0.778

2 1.241 0.995

3 0.917 一 0.525

4 0.241 一 1.176

5 0.786 0.959

6 一 0.324 一 1.520

7 0.110 0.308

8 0.214 1.212

9 一 1.014 一 0.977

10 ~ 1.028 0.217

11 一 1.366 一 0.109

12 一 1.269 1.393

〇負荷

由[习可得新、舊變數間的相關係數,其中/^771與^'~2的相關係

數為0 ,表示兩者不相關。新變數與舊變數間的相關係數稱為負荷(化^!!

'^)。負荷表示原始變數對新變數的影響力或重要性。負荷愈大表示

原始變數對新變數的影響力愈高。例如/^/^與、 的相關係數分別

是0.941及0.927 , 表 示 歸 受 X 、 、 &的影響極大。負荷的大小常用來

定義或解釋主成分的意義。負荷亦可由下列公式求得:

其中~為第7'個變數在第/個主成分的負荷,^為第7個變數在第/個

主成分的權重,;I,為第《個主成分的特徵值(即變異數),《為第7'個變數

的標準差。

^ 討 論 事 項

應用主成分分析時,下列事項應提出來討論:

1.不同型態的資料(均值修正資料或標準化資料)對主成分分析的影響

如何?

』0 1113111116(190 -]1 61 冗]^ '幼卩!口 ^ 830^ ?00^ 11^3^ 31111;83 :铋^ ^甚

^麁 士髒 ^ 霉憨 ^鑼 ^

―^^^^

梂葛^鼹呦箄5^

。丄^^跡^絲募爵铋^虫

雜酣II I 挲^^ 。鐽^:^藜1^^^^^^^^^[輋

6 卞

—薪聯凝籙撺逡劉著獰^ 6 ^^^^& ^

I ^鹆蠆^杉^壩禳據^栗^^王^ 6 ^羃齄^呈著^^^^3 -1

乙'9, 9.18

6^ 1*16

8*101

^5^ 8-36

「6扫 1^11

丄'19 0.86

919 「丄01

〃05 0*901

6X5 8*111

^8^ 丄了8

1^ 6*001

^1^ 9*801

〃19

^19 〃601

8*117 6'丄II

8*917 6*011

93, 匸66

6*501

^811

969 0*1701

匸" 9^1

9*1^ 1.08

099 8^6

0*39 "乙

^85 1^8

015 乙18

8.09 17*26

2-09

丄'99 6*36

099 丄'011

6.15

8^5 9.68

68

688

819 9X8

2*08 6501

1^6

39

^25 8.88

^9 5*201

1:19 〃98

「59 9.98

^19 8*001

5'丄9 016

6^1 5卞6

1^1 癣齊奢

9X1 阛淼^

92 V寻絷

9^1 ^-^?^

92 捸^^

809

「02 聲^^^

693

1*92

VII

1-61 4'勢

^11

8-22

1^1 ^^去去

1:91 鲁^》

8-32 ^卡氺

1-61 膦千^

5*92 象^靱9

^1

聆^掛

主 成 分 分 析 ^

I表4.7的主成分分析

51111 16 3乜3乜13七土03

3乜0

2 5 . 2 9 1 3 0 4 3 5

2 . 5 0 6 8 8 3 8 0

91

7

^85652174

5 5 4 9 3 9 7 5

"二 X

6 2 . 2 9 5 6 5 2 1 7

6 . 9 5 0 2 4 3 8 3

0 31-13006时3乜!:土乂

01^655 1 0 2 . 9 9 1 3 0 4 3

1 4 . 2 3 9 2 5 1 5

4 8 . 7 6 5 2 1 7 3 9

7 . 6 0 2 6 6 7 5 2

8 ^ ^ 0 8 1 1 ^

6 ,2844664 1 2 . 9 1 0 9 6 8 4 5 7 1 9 0 5 1 4 1 .3103755 7 . 2 8 5 1 3 8 3 匪。 8 1 1 12 .9109684 5 7 . 0 7 7 1 1 4 6 1 7 . 5 0 7 5 2 9 6 22 .6918775 36 2 9 4 7 8 2 6

肌 X 5 7 1 9 0 5 1 4 1 7 . 5 0 7 5 2 9 6 48 3 0 5 8 8 9 3 -0 ,2750395 13 4 4 3 4 7 8 3

01^1653 1 3 1 0 3 7 5 5 2 2 . 6 9 1 8 7 7 5 -0^ 2 7 5 0 3 9 5 202 7 5 6 2 8 4 6 38 .7624111

1 0 ^ 1 0 2 8 7 2 8 5 1 3 8 3 3 6 . 2 9 4 7 8 2 6 13 4 4 3 4 7 8 3 38 7 6 2 4 1 1 1 57 8 005534

( ^ ) ?。七 3 1 3 7 2 . 2 2 4 3 0 8 3

81961 31063 0 乜116 00 3113006 ^3乜【IX

0? 0【乜丄00 011(11013七1乂6 1 * 8 皿 2 1 8 . 999 1 2 7 . 2 7 6 0^ 5 8 8 3 5 1 0 . 5 8 8 3 5

?111^2 9 1 . 7 2 3 54 ^ 060 0^ 2 4 6 4 1 9 0 . 8 3 4 7 7

1113 37 ^ 6 63 1 6 . 852 0^ 1 0 1 1 8 3 0 . 9 3 5 9 5

?111^4 2 0 ^ 8 1 1 1 7 . 7 8 1 0 . 0 5 5 9 0 9 0 . 9 9 1 8 6

3, 029 0^ 0 0 8 1 3 8 1.00000

④ 1141 ?1111)2 0 8 3 ?111141 11*2

0 . 0 2 8 4 8 9 0 1 6 5 3 2 1 1 8&1,71^01^ -25,3258 1 3 . 2 7 8 4

0 . 2 0 0 1 2 2 0^ 6 3 2 1 8 5 2 1.03 ^ 6 8 1 ^ 3 -22,6270 - 3 , 1 3 8 7

" 工 " 0 . 0 4 1 6 7 2 0^ 4 4 2 1 5 0 3 -22,4763 1 0 . 0 8 4 6

0 . 9 3 8 8 5 9 ~4 3 1 4 3 5 5 鲁 0 . 2 7 5 5 8 4 0 5 2 7 9 1 6 21 1 4 . 0 4 1 1 -2,6890

22 1 4 . 1 3 9 9 -5,9650

2 3 110^01,111.1; 3 5 . 5 9 7 1 1 4 . 7 8 9 4

6373011 001: 1-613&100 006 10160 3

?111111 ?1112

0 . 1 6 8 1 8

0 . 6 3 1 5 9

0 . 3 9 2 0 0

0 . 8 0 1 4 1

0 1 1 ^

0 8 8 7 3

60927

0.97574

一0,21143

0 . 5 3 6 4 2

0 . 6 6 5 0 3

驛權。不同型態的資料對主成分分析的影響

以均值修正資料或標準化資料計算的主成分不同,即變數的變異

數(或標準差)的大小會影響主成分分析的結果。

例如:用表4.7的資料求消費者物價指數((^加!!!!^ ?000

0 ? 0 。可利用主成分分析求各種物價的某一加權和,用此加權和來定

義物價指數0?1 。先以均值修正資料輸入8八3程式,得報表4.2 。五個

食物的變異數,由[巧可得下表:

食物項目 變異數 占總變異百分比

6.284 1^688

57.077 15.334

48.306 12.978

202.756 54.472

57.801 15.528

3 7 2 . 2 2 4 ^ 1 0 0 . 0 0 0

其中橘子的變異數最大,占總變異的54.47。^ 。因為共有五個變數,對

應最多五個主成分。假設只取一個主成分做為物價指數0:~的量測。

由【21?〗,第一主成分/:

?!'^ 0.028 X麵包十 0 . 2 0 0 X漢堡十 0 . 0 4 2 X 牛奶

十0.939 X橘子十0.276 X蕃茄 (小力

其變異數為218.999 ,解釋了總變異的58.847。【2,由^力)式易知/^力1

的權重或負荷均顯示橘子的價格影響&最大,主要的原因是橘子

的變異數相對於其他變數其變異數太大。由【3】主成分計分知,巴爾的

摩物價最低,火奴魯魯最高。

若不想讓個別變數變異數的大小影響權重,則應利用標準化資料

(使各變數的標準差均為0做主成分分析。報表4.3是以標準化資料分

析所得的848結果報表。5個變數的變異數各占總變數的1/5=207。,

由[习,第一主成分為

I ^ 0.496 X麵包十 0 . 5 7 6 X漢堡十 0 . 3 4 0 X 牛奶

十0.225 X橘子十0.506 X蕃茄 (氽川)

其變異數為2.422 ,解釋了總變異的48.440/0 [!],由權重知,沒有任一

變數支配了 ^ 1 ,而由【3】的主成分計分知,西雅圖物價最低,火奴魯

魯最高。與前述結論不同。顯然主成分分析的結果受資料尺度影響,

變數的相對變異數愈大,對應的該變數的權重愈大。

用均值修正資料或標準化資料做主成分分析的抉擇亦應考慮各種

其他因素。〔譯者註:一般而言,可考慮各變數的單位(公尺、公

克、元)或變異數無太大不同時,兩種型態的資料,均值修正或標準化

資料,均適用做主成分分析;^客觀上,用標準化資料做主成分分析

主 成 分 分 析 《

1標準化資料的主成分分析

0011-6131100 。3乜1;1乂

1.0000 0 . 6 8 1 7 0 . 3 2 8 2 0 . 0 3 6 7

0 . 6 8 1 7 1.0000 0.3334

8 1 1 ^ 01^(31:5 0.3282 0.0367 0.3334 0.2109 1.0000 一,0028

0 . 2 1 0 9 一,0028 ,0000

?0^7025 0 . 3 8 2 2 0 . 6 3 1 9 0.2544 0.3581

0

10他1025 0.3822 0.6319 0.2544 0.3581 1.0000

1960 31063 0 仁116 001:1:@191:100 83七!:丄乂

&±960^3106 ?10 01 100 1^1 2 4 2 2 4 7 1 3 1 7 7 9 0 4 8 4 4 9 4 0 4 8 4 4 9 1^2 1 1 0 4 6 7 0 3 6 6 1 9 0 2 2 0 9 3 5 0 7 0 5 4 3 11^3 0 7 3 8 4 8 0 2 4 4 8 7 0 1 4 7 6 9 6 0 85312

?111114 0 4 9 3 6 1 0 2 5 2 8 5 0 0 9 8 7 2 2 0 9 5 1 8 5 0 2 4 0 7 7 0 0 4 8 1 5 3 1 0 0 0 0 0

2 )^1^6^V6^^.01:8 / 1 ~\

?111 1 1142 乜 3 1085 ?111 1 1142 0 4 9 6 1 4 9 ^ 3 0 8 6 2 0

― , -2 0 9 1 0 0 一0 3 6 7 2 8

0 5 7 5 7 0 2 胃 0 4 3 8 0 2 2 3^1 0 1 5 6 0 一 1 8 9 0 2 9 一0 7 2 5 0 1 1411^ 0 3 3 9 5 7 0 ^ 4 3 0 8 0 9 3 ―1 2876 4 0 14847

0 2 2 4 9 9 0 0 .196111 # 0 5 0 6 4 3 4 0 .261028 21 2 2 4 7 9 7 一 0 0 7 3 5 9

22 3 6 9 6 8 0 一 0 2 5 3 6 2 23 00^01,01,0 4 0 7 7 2 2 0 4 9 3 9 8

63【30:1 002: 1-6131:100 006 101611 5

11^1 1142

8 ^ & 0 0 . 7 7 2 2 2

一0.32437 0 .89604

0 4 6 0 4

8 1 1 ^ 0 . 5 2 8 5 2 ~0^45280

0 . 3 5 0 1 8 0.83744

0 . 7 8 8 2 3 0 . 3 0 1 6 8

最常見〔31X115710^只能以(相關矩陣)做主成分分析〕;^若有理

由相信,變數的變異數是該變數重要性的指標,而要列入分析考慮,

則用均值修正資料來分析。〕以上例而言,沒有理由相信某一食物比

另一食物重要,因此似乎以標準化資料做的第二個分析較合理。

函婦。主成分分析是否爲適當的分析方法?

主成分分析是否為適當方法,依研究目標而定。若研究目標是找

出不相關的新變數,以做進一步的統計分析,則是否採用主成分分析,

應視主成分是否可解釋〔是否有意義)而定,如果主成分無法解釋或無

特別意思,則不應以主成分形成新變數。

另一方面,若研究目標是要「簡化」變數個數,則必須要求少數

幾個主成分,即可解釋大部分的總變異,而不會嚴重損失原始資料的

資訊。什麼叫做不會嚴重損失原始資訊?則依題目而定。

例如:科學家用100個變數的資訊以決定是否可以讓太空梭起飛,

若發現5個主成分,即可解釋997。的總變異,也就是只損失IX的資

訊,但這10/。已夠嚴重,而不可採主成分分析。

又如前例:由報表4.3 ,前兩個主成分,解釋了 717。的總變異,也

就是損失了 29。^的資訊,這290/0的損失卻不嚴重,主成分分析是合適

的。

若原始變數彼此直交成不相關,則主成分分析完全無法「減少」

變數個數,只有在變數彼此高相關時,才可能簡化變數的個數,且變

數間相關性愈強,資料愈可能化約。另一方面,若原變數「完全」相

關,則只需第一主成分,即可解釋1007。的總變異。因此,假若變數相

關性不高,則資料做主成分分析就不合適。有正規的統計檢定方法可

檢定一群變數是否相關,標準化資料的8&1116化3檢定是其中之一。但

這些檢定方法包含8^1改'3撿定法,都對樣本大小相當敏感,使得大

樣本時,相關係數甚小,亦易拒絕^。,而認為相關係數顯著的不為

0 。故實務上,不建議使用檢定法。詳見(^微^^?^)及01110113卣001-

^^^("《力的討論。實務上是否少數幾個主成分已能「實質」的解釋

大部分變異,只能依題目,自己判斷。

,4鴻^^應萃取的主成分個數

應萃取多少個主成分才合適,應視研究者可以容忍多少資訊損失

而定,以下是幾個常見的方法:

1.對標準化資料,保留/?的特徵值大於1的主成分,稱為特徵值大於

1法貝(!^^!^^-^他!"-111&11-0116 !!! )。

2,將每一主成分解釋變異的百分比對主成分作圖並尋找肘點,稱此圇

為陡坡圖(化^^?化^)。此方法適用於均值修正的資料及標準化資料。

3^只保留具統計顯著性的主成分。

特徵值大於1法則是848及8?88等軟體內建的方法。對標準化

資料而言,此方法保留特徵值(變異數)大於原變數變異數1的主成分,

應是合理的想法。例如表4.7的資料,有兩個主成分的特徵值大於1 ,

故應保留兩個主成分。〔譯者註:對均值修正資料而言,則同理保留

5的特徵值大於(!: ^ I 者,即保留大於全體特徵值的平均值的主成

分〕。0形("《^)證明此法則有瑕疵,在不同情況下,萃取的主成分

個數可能太多或太少,故特徵值大於1法則不宜單獨使用,應與其他

方法配用。

(^加化^^^)建議畫陡坡圖,也就是將特徵值對主成分的編號劃

圖,尋找肘點(由陡坡變成平坦時的轉折點)位置的編號,即為應保留

的主成分個數。例如圖4.5左圖的陡坡圇,易知應保留兩個主成分。

但亦常見陡坡圖形呈勻滑狀,不易找到肘點,如圖4.5的右圖。

^0111 (^^》)建議平行分析&1161 ^!^)(只適用於標準化資料)。

在原陡坡圖上,再劃一條平行步驟(?^^^ 0( (111!"6〉的陡坡圖,用兩

者相交的位置,用來決定應保留的主成分個數。如圖4.5的左圇。平

行步驟是指:若原始資料有20個變數,400個點,則由20-維的標準

多變量常態分配母體抽出400個樣本點,重複抽出~次。每次都計算

樣本資料^的20個特徵值,最後將~次計算所得特徵值,求其平均

值,並將此平均值對主成分編號繪在原陡坡圖上。由於模擬抽出的資

料為不相關,故平行歩驟所得特徵值應該都接近1 ,但由於抽樣誤差,

可期望約^^個主成分的特徵值會大於1 ,另/7/2個則小於1 。

上述對標準化資料纖 ^ # ,略嫌繁瑣。八 1 1醫 3 "暴" ( ^ ^ )

對維的標準多變量常態分配的模擬資料發現,其特徵值可配適下列

迴歸方程式:

顧I

1 2 3 4

主成分個數 囲之I

陡坡圖。圖 I

明顯的肘點

1 2 3 4 主成分個數 囲之II

陡坡圖加平行分析。圓 I I :陡坡圖上無

特徵值

特徵值

&11^"一 + ! ^ ^ ?— /:一 1)(/?一&+2)/2)+^1I1(;^*-1)(《卩)

其中^是變數個數,"是觀察點個數,;是第&個特徵值的估計值,並

設 1 , " , & , , 為迴歸係數,其值如表4.8 。表上顯示最後兩

個特徵值無法估計,因為^.")式的第三項(/?-^-^)為零或負數,10

無法定義。但當/^43時則無問題,表4.8顯示當;7〉43時0=0 ,故

(《口)式的第三項不必估計。例如,前述的食物價格資料,0 = 23 、

1^ = 5 ,貝0由表4.8及(來匸)式可得:

10^0.9794 ~ 0.205910^23 ~ 1 ^0^ 1226101^5 ~ 1 一 0(5 ~ 1+2)721

^ 0.61233

故义严1.845 。同理可得义「 1.520 , 3 = 1.288 ,畫在圖4.5的圖之I上,

則不用像90111 ("^^自行模擬抽樣再估平行歩驟,可使整個過程簡化。

用統計檢定法可決定主成分的統計顯著性,可以決定要保留的主

成分個數。8311161^檢定法是最常用的方法,但831116化8檢定對樣本

大小相當敏感,故實務上極少使用。

實務上最常用的是陡坡圖,90111的平行歩驟,保留特徵值大於1

者。模擬研究顯示90!!1的平行步驟表現最佳,故推薦使用,但最好配

合其他方法,並且注意取到〈保留)的主成分,一定要能解釋,否則無

意義。

3 4.4.4 。解釋主成分

原變數的線性組合所得的主成分,如何解釋它的意義?通常可由

其負荷的大小判定。考慮報表4,3【4】的兩個主成分的負荷。

變數

負荷 麵包 漢堡 牛奶 橘子 蕃茄

?11111 111 ,896 ,529 350 ,788

?11112 一.324 一.046 一.453 ,837 302

負荷愈大表示該變數對主成分的影響〈相關)愈大,但負荷多大才叫做

大? 一般取0.5^為夠大的取捨標準。本例的?在麵包、漢堡、

牛奶、蕃茄的負荷較大,故?!"101可稱為「非水果類的物價指標」,

胃主成分的迴歸係數

根化) 點的個數。 (: 3 化

"迴歸所使用的點個數。 資料來源:八11611, 5, 1. 31101尺.9111)1331^ (1986), "!168^655100 0)113(10113『0『1110 1.316111

110015 0『1130^0111 0313 0011*61311011 1^311-1063 "!出11111(165 011 1116 0!38。1131,,,

^1^01-10(6 86^10^01 ^ 6 0 ^ (!!) 393—398-

,9794 -.3781 一.3306 一.2795 一.2670 一.2632 一.2580 一.2544 一.2111 -.1964 -.1858 -.1701 -.1697 -.1226 -.1005 -.1079 一.0866 一.0743 -.0910 一.0879 一,0666 一.0865 一.0919 一.0838 一.0392 一.0338 ,0057 ,0017

-.0214 一.0364 -.0041 ,0598 ,0534 .0301 .0071 .0521 力824 .1865 ,0075 ,0050 ,0695 ,0686 .1370 .1936 3493 .1444 ,0550 .1417

0.0000 .931 1.0578 》98 1.0805 ,998 1.0714 ,998 1.0899 ,998 1.1039 ,998 1.1173 ,998 1.1421 ,998 1.1229 ,998 1.1320 998 1.1284 ,999 1.1534 ,998 1.1632 ,998 1.1462 ,999 1.1668 ,999 1.1374 ,999 1.1718 999 1.1571 ,999 1.0934 ,999 1.1005 ,999 1.1111 ,999十 1.0990 》99十

1.0831 》99十

1.0835 ,999十 1.1109 汐99十

1.1091 》99十

1.1276 》99十

1.1185 ,999十 1.0915 》99十

1.0875 》99十

1.0991 ,999十 1.1307 汐99十

1.1238 .9991

1.0978 警999十 1.0895 》99十

1.1095 ,999十 1.1209 ^99十 1.1567 ,999十 1.0773 力99十

1.0802 ,999十 1.0978 》99十

1.1004 》99十 1.1291 汐99十 1.1315 ,999十 1.1814 ,999 1.1188 1.0902 1.1079 ^99十

一.2059

,0266 ,0229 ,0212 .0193 .0177 .0139 .0152 .0145 .0118 .0124 .0123 .0116 ,0083 ,0065 .0015 ,0011 ,0048 ,0063 ,0022 攝 7 、0062 、0032 ,0009 、0052 -.0105 、0235 層 9 -.0021 、0087 、0086 -.0181 ,0264 、0470 -.0185 、0067 -.0189

.1226 ,0040 ,0003

- 扁 3

一.0024 一.0040 一.0039 一.0064 一.0079 一.0083 一.0073 一.0090 一.0075 -.0113 -.0133 一.0088 -.0110 -.0081 一.0056 -.0051 一.0056 一.0022

一.0038 一.0030 -.0014 一.0033 一.0039 ,0025 -.0016 一 扁 3

.0012 ,0000 扁 0 扁 0 力000 ,0000

222555558888811111444449888822221666660000000555

6665555544444444443333322222222221111

1 1111111

01234567890123456789012345678

22222222223333333333444444444

14408039086

62666672187

44333333322

00000000000

963994103237

015343433322

000000000000

000000000000

I

I

I

?0112在橘子(水果類)的負荷較大,故?『1112可稱為「水果類的物價指

標」。

主成分找不到適當解釋時,有些書建議對主成分做轉旋軸。事實

上這變成「因素分析」的問題。主成分分析的目的是要使新變數的變

異數達到最大,通常不加以轉軸。

3 4 4 . 5 。主成分計分的應用

主成分計分可畫成散佈圖,以進一歩解釋所得結果或做進一步其

他統計分析。例如:前述食物價格標準化資料的兩個主成分的計分畫

成圖4.6 ,由圖目視,可將23個城市的物價分為5群,其中第一群城

市的非水果類的物價中庸而水果類的物價偏高。第二群城市的非水果

類的物價較低而水果類的物價中庸。第三群城市的非水果類的物價中

庸而水果類的物價略高。第四群城市的非水果類的物價偏高而水果類

的物價中庸。第五群城市的非水果類的物價中庸而水果類的物價偏低。

以上資料分群是用目視,而正規做法是第7章的群集分析。亦可將主

成分計分做為自變數做群集分析、迴歸或判別分析。此時自變數為不

相關的新變數,沒有共線性問題。但另一新的問題可能會發生,也就

是不易解釋主成分計分在模式中的意義。

2

一2

~3

主成分分析的主要目的有:

1.主成分是原變數的線性組合所形成的新變數,主成分彼此不相關。

^第一主成分變異數最大,第二主成分則是原始資料中尚未被第一主

成分解釋的變異部分,擁有最大解釋能力(變異最大)者,餘類推。

3,主成分只保留少數幾個,而不使用全部,希望就能解釋原始資料大

部分的變異,故視為是資料化簡的方法。

《主成分分析的結果受資料尺度影響。若用均值修正資料,則變數的

相對變異數愈大對應的該變數的權重愈大。要避免此影響,可用利

用標準化資料分析。

1 1[ 本 ; 章 赠 題 ^ 1

4.1下表是變數:^ 、^的六個觀察值:

觀察值 ^1

1 1 1

2 5 4

3 4 3

4 1 2

5 2 1

6 4 5

(^)計算每一變數的變異數。總變異被力、^解釋的百分比分別為

何?

(!?)設^1 1 6

是與原^軸呈夾角為0的新軸,觀察點在新軸的投

影為各點在新軸的座標,將^1寫成& 、&與0的函數。

( ) ^值為何時會使的變異數最大?此時總變異被解釋的百

分比為何?

》 多 變 量 分 析

4 . 2由下列互變異矩陣:

1:

8 0 1

0 8 3

1 3 5

計算 2:的特徵值^^ & 及 特 徵 向 量 ^ 。(提示:可用8八8

的 0 〔 \^或化0〔 ^八丁义"計算特徵值及特徵向量)

(!?)試證疋+ = ,其中矩陣的跡(的~)"!:)是主對角線的

和。

試證/^"卢1 1 1 ,其中| 2 |是2:的行列式值。

( ) \ 、 ^ ^ : 、々 2 \ 3 。表示什麼。

4 . 3給定:

12.45 "!65.41 4.57^ 8^

1.35 4.57 1.27

( ^ )利用 ^ 0 0 11^1[決定主成分及其變異數。

(^)計算變數的負荷。

(^)第一主成分的意義為何?(假設X,:申報所得,扣除利息與

稅金之所得)。

(^)若用相關矩陣萃取主成分則結果會&什麼改變?為什麼?

4 .4附檔?0001^0八了有美國24個城市5種食物每磅的平均惯格。

(^)利用主成分分析定義基於5種食物的物價指標。

(^)由物價指標指出物價最高與最低的城巿。若改用相關矩陣萃取

主成分則物價最高與最低的城市是否改變?哪一種型態的资料

較適宜用來計算物價指標?為什麼?

10利片」主成分計分做散佈圖並將城市分群,群與群間有何不同?

4 . 5某大國際公司的人事部門委託行銷研究公司研究公司基層幹部的

工作態度。其中部分調查結果,含1 9個基層幹部在1 2項題目(五

點 ^ 衷 , 由 ⋯ 非 常 不 同 意 至 5 ^ 非 常 同 意 ) 的 資 料 在 附 檔 1 3 .

0/^X1)1 。 12項题| 1^^15^8.000 | | | 。

利用主成分分析^忙行銷研究公司找出關鍵工作態度。請你

對這些工作態度命名。

4.6消費者購買汽車時被要求就下列事項回答其需求度:

1. 我的車子要有圓滑氣派的外表。

1. 我的車子要有雙安全氣篛。

3, 我的車子要能在數秒內加速至高速。

《 我的車子要有豪華的內裝。

5, 我要有良好的銷售服務。

6^ 我的車子要有自動排檔。

1. 我的車子要能省油。

8, 我的車子要能自動鎖門並有電動窗。

9, 我的車子是市場的最新款。

10. 我要讓我的朋友看到我的車子時.印象深刻。

11. 我的車子要有空調。

12. 我的車子要有八!及錄音音響。

13. 我的車商位在我家附近。

14. 我的車胎要能保證在不良路況下安全駕駛。

15. 我的車子要有動力煞車。

16. 我車子的外觀顏色要能與內裝搭配。

17. 我的車子動力十足得以快速加速。

18. 我的車子要有安全帶。

19. 我的車子包含主要零件要有維修保證。

答項是五點量表(由1 :非常不同意至5 :非常同意)。下表是特徵

值大於一的主成分之負荷,由表中負荷指出顯著影響各主成分的

項目。因此可得潛在客戶購買汽車時考慮的主要構念為何?這些

主要構念的相關係數為何?

需求

項目

負荷 需求

項目 ?001 ?1-102 ?1-103 ?1104 ?11115

1 0.753 0.211 0.125 0.231 0.126

2 0.252 0.152 0.702 0.001 0.014

3 0.014 0.762 0.114 0.025 0.056

4 0.310 0.411 0.014 0.683 0.008

5 0.215 0.012 0.005 0.114 0.902

6 0.004 0.003 0.215 0.723 0.104

7 0.515 0.187 0.210 0.056 0.102

8 0.285 0.241 0.298 0.853 0.201

9 0.312 0.825 0.331 0.152 0.005

10 0.851 0.216 0.025 0.004 0.310

11 0.141 0.265 0.001 0.675 0.008

12 0.120 0.305 0.002 0.069 0.025

13 0.015 0.411 0.214 0.145 0.699

14 0.341 0.012 0.896 0.214 0.014

15 0.421 0.001 0.222 0.598 0.104

16 0.672 0.056 0.017 0.009 0.025

17 0.122 0.803 0.105 0.056 0.017

18 0.301 0.219 0.692 0.012 0.112

19 0.111 0.212 0.210 0.178 0.707

4.7 11010.0^7是100個39歲男生的聽力資料,聽力測驗是以一給

定頻率下漸漸加強其強度直到聽者能辨識為止,此測量值與儀器

標準值的差稱為分貝損失0&11^1 。每次只測一耳,頻率設定

為500112 、 1000 2 、 20001*2及4000112 ,儀器的測量極限為-10

至99分貝。負值並不表示聽力優於平均值,儀器自有校正的「零

點」,正負值是對該「零點」而言的。以此資料做主成分分析。

問應保留幾個主成分?基於什麼理由?保留的主成分為何?

4.8 1973-74阿拉伯石油禁運以來,石油價格暴漲,某研究評估三個城

市大眾運輸的潛在需求,調查所得資料見附檔八 7 ,資料

及其變數的說明見附檔^^!^^^:。對變數& 9 一 「^忽略其他

變數)做主成分分析以指出能源危機的關鍵認知,保留的主成分描

述什麼訊息?

附 錄

I相關矩陣的特徵結構

令X為尸個變數的隨機向量0^(10111 ^!),不失一般性,假設

2 X ^ 0 。其相關矩陣2 = 5(^》。?^&^,⋯,"為權重向量—"(^ 0【

^ ^ ^! ^ ),使 ^亡 ^為 X 的線性組合的新變數。故《的變異數

6(《^) = 5 ^ / ' X X ' 7 ) = 7 ' 2: 7 。今求解丫 ,使丫'27有最大值,且?4=1 。

用1,3^1136 11161110(1 ,令:

2 = 7 ^ 7 ― '了― !)

32

37

即,求解

(!:一 11)7 = 0

的聯立齊次方程組。此方程組有非零解,若且唯若

1 2 - ^ 1 1 = 0

(八4.1〉

(八4.2〉

(八4.3〉

行列式(八4.4〉為X的;7次多項式,設、2 、 2 ,

應2矩陣的;7個特徵值,代回原聯立方程組:

(!:" 311)7 = 0

則可解2矩陣的^個特徵值所對應的;7個特徵向量~…、

(八4.4〉

、為其個根,恰對

因為

02 - 、1)^ = 0

力了1 = 1

(八4.5〉

(八4.6〉

(八4.7〉

(八4.8〉

(八4.7〉式前乘以",故得

。釗^齒^蒈&脂I (^^)^^^ ^釗^^裹"^:X夸

。^目^爵獵^鲔XX 。褂《2^2覉靱^^剷

^兄乂蒈鹩^^0 1譽^瓛^^剷^XX著譽^]酚3/^,0

^ I剷^331著0^4釗^ 。釗^^乂"蒈0 '剁

^^^^^0 ^剷3^乂"著4 I

#1^ I黜^^ 0^0! 剷^酚三^駕

剷^《X ^蔓^铋著(朋口!30311100叩^!^岡!^"!

5)嫋^哥暂^

謭各酹霤袅

。I爵繮^^譽^1瓛^

^8^4 :8釗^暂籙傘囊一 ^0^3^ 丁^篡。凝暂鍰^^

^^著^ ^哥瓛^^制^ 3 。晷^1蠆勦^蒈^ I譽!^瓛^^^1

^3^0 。蹦^士》、!

^ 1 ; 0 = 1?人^ 《1:晷^!瓛^^ 3

。稱鼸蠤^^! 'X、'人凝

^。 爵瓛赫^瞢^壩暂籙^ ^ "薔^1瓛^^^晷《^^^3—紫^

。、!^鶴^^^ ^凝暂覉^々壩籙^^^3^^ "卞仍腿。I」扒人図

(^) ^他人

I人、人、1人2、人

(^人^一狄人

主 成 分 分 析

新變數的共變異矩陣&為

^ ^ ^ 2 二 ^ [ ( ? 0 〉 (?!))]^^(!)'^?!))^^(!)2)^^7 1 ) 2

(八《14〉

故資料矩陣的奇異值分解可得主成分析解,新變數的權重就是0

矩陣,主成分計分為1^矩陣,新變數的變異數為02《"-1〉的主對角

線。

矩陣的光譜分解

對稱方陣(叫皿!^ 3^111X101110 013&X〗的奇異值分解又稱為矩陣的光

譜分解(?!^!!^化~!!!!^^)!!)。任意/^/?對稱方陣X可寫成兩個矩

陣,?及八的乘積,使得

X:?八?, (八4.15〉

其中?是由X矩陣的特徵向量所組成的;7X^9對稱正交方陣,八是X矩

陣的特徵值所組成的對角線矩陣,且?'? ?'。

穩人編0互變異矩陣的光譜分解

因2矩陣為對稱方陣,由光譜分解,可得

!::? ?'

其中八^^圾^,;1 2,⋯&且;1^;1 2124為對稱矩陣I:的特徵值,?

是^X;?對稱正交方陣,其第7行向量即第7特徵值^/對應的特徵向量。

新變數的值〈主成分計分)記作5^ X?,則其互變異矩陣為:

2「丑〔 3 '三]^^(^?)'(乂?)^^:(?'乂^0? ' 2? (八4.16〉

將2矩陣代換,則得

2 ^ ? ? ^ ? ? ^ ^ \ (八4.17〉

因?'?-1 。即新變數^,6,⋯,&彼此不相關且變異數分別為山,4,⋯;。

。凝暂籙^《41^^5阜琴釗^

4蓽鼬著罾^1:^^釗级4 ^ 4^餽"覊^艏)鯓各哥暂^^釗^暂禳互X

。^41《^3蒈制。壩暂驕^^著

(! ― )/^ 。 ^目^蓽謝^"鲔0 ^ 4餽孖馬暂^^^募31鳞覉跻-1

。蓽翳^ 33^3 ^慕鏺^^ 1\^3會》^鱒驟瓛^^剷^暂禱互1

:#1^ I卞挲餱鲔「^挲餱^^ 。 「1^挲餱^畓

^ 。釗^麗^^「^夸對丄^13 。麴^糴^聯剷^ ^^1018 ^0/1^)15

^09^1^1 0^811^3 。餽^潘暂^/^(^慕3!:瘿爵^!^)剷^!^

靱(吣》40 0八811^3 。 33八3鲔1\^3母^:賠^晷^瓛^鲔哥瓛

^ 。 0^013脂)鱒^鏺^^釗^ 3鴛411^4^(^015 ':^八3 IV八3〉

^13013 11^3 。釗^騸^^暂籙互、^募31鳞爵& 、爵^鴛41^^!^

。 1?^^禀I ^^^^ ^ 11^100^ ^ 8^8著

1^挲。^^/^ 1^1 00^ &0^11^^:^^^ I卞挲^ 。餽^糴^^

(口八9綞孖^暂袅、^^^^^^ 11^100^ ^ 8^8

。《^军^^&^ ^餽^耩^^釗^暂鑌互^進1鳙^^暂

每^剷^^慕^進I暮!^鏺^鲔哥襯^^釗^暂籙互^ ^著驪^

。袞^暂覉鉞^(《^王)壩籙^鲔暂籙辦^壩籙^遛蘿裨

〈61卞V〉 (?1!) (^)^ (^^) ^ ^ (^^) ^^(^)^

丄^

簞^&綳^剷^3 。 )^^暂禳鉞/^乂^ ^旙暂籙^旙罄/"裟著?^出^

^蜒^剷^XX

0 0 指令

主 成 分 分 析

0 0 1 肌 0 0 ( 0 4 ^ 1 0 8 ? 0 8 舰 ^ 1 1 1 ? 1 1 1 ^ 7 1 0 1 1 5 0 8 0 ^ 7 ^ III

8 1 2 4 . 1 ;

0 5 * 1 而 5 ^ 0 0 2 ^ 1 2 1 1 ;

0 & ! ^ ?2^?;

1 ^? 0 1 X I XI;

0 ^ 0 5 ;

±0 3 6 1: ^ 4 3 乜 3 1161:6;

0 0 1141;

1 ^ 0 1 1 1 X 0 X ; 傘 ! ^ ! ) 0 & 7 & 1 1 * 1 0 X !^而乂,'

^ 8 & 。 " (乂) , '傘 8 0 0 ^ 1 7 1 1 1 1 5 1 8 2 801"!6511 0? 0 8 5 2 ^ ^ 7 1 0 1 1 5 ;

。 腿 - ^ , 1 , 1 〃 # 1 2 X 1 ^ 0 7 0 1 1 0 0 ^ 1 ^ 1 1 1 1 1 4 0 0 ^ 3 ;

0 ^ = ^ - 1 ;

^ 2 ^ : 《 0 1 4 2 、 聿 乂 ^ ; 寧 郷 ^ 似 1 & I X 0 0 ^ 1 & 1 1 1 5 7112 ^ ^ 1 1 3 ;

- 。 " 2 * * 1 2 ^ 1 ; 傘 做 船 7 & I X 0 0 ^ 7 & 1 1 1 3 ?112 ^ ^ ~ 0 0 ^ 2 0 1 2 0 0 & I

5 1 0 ^ = 5 5 0 ^ ^ / 0 ? ;

0 = 0 1 & 6 【 5 1 ( 3 即 ;

^ 5 ^ ^ ^ 5 0 ^ 7 (^) ^ ; 0 乂 3 0 0 X 1 ^ 1 1 * 5 1112 3 1 ^ 0 ^ 0 1 2 8 0 0 ^ 1 ^ ;

1 ^ X 5 、 " ^ / ( 投 - 1 》 7 聿 I I 1 5 7 8 2 ( : 。 ! ^ ! ^ ! ^ 。 " 他 I & 1 X 7

5 1 ( 3 2 1 4 《 5 ^ 1 , ^ ( : , 3 1 ( 3 到 ' ' " ^ ( ^ ! ^ & 0 0 1 1 ) 1 ^ 0? 7 8 2

0 0 ^ ^ 1 ^ 1 0 2 ^ 7 1 1 1 X ;

0 ^ 1 | 5 7 0 ( ? ^ ^ , ^ ) ; ^ 3 1 1 1 6 0 1 ^ ^ 1 ^ 8 0 2 0 0 ^ 0 5 1 1 1 0 1 1 0? 7 8 5

0 & 1 ^ I X;

0 = 0 1 ^ 6 ( 0 ;

3 0 0 1 1 2 5 = ^ * 0 ; 拿 0 0 ^? 1; 7 1 1 4 6 1112 ? 1 1 1 ^ 0 1 ? ^ 0 0 1 4? 0 1 4 2 ^ 1 5 5 0 0 1 1 2 5;

( : 5 ^ 0 ( 2 , 1 1 ^ 6 1 ^ , 0 , 5 1 6 * 1 ^ ) 7 ^ 5 ? 2 0 1 1 ^ 1 | 0 2 0 0 1 1? 0 5 1 1 1 0 1 1 0 ?

^ 1 1 ^ 0 , 0 , 5001125;

38.575813 5.6060049

0.7282381 0.6853242

0.7282381 0.6853242

0

20.599368 0

5001125 9.2525259 7.7102217 5.6971632 1.4993902 4.8830971 -2.013059 0.6853242 1.3277344 -6*296659 -6*382487 -8*481374 -7*881878

0.7282381 0.6853242

38.575813 5.6060049

? 1 1 0 0 1 ^ 輸 出

-0.685324 0.7282381

-0,685324 0.7282381

0 7.8527736

-1.841403 2.3563703 -1.241906 -2.784211 2.2705423 -3,598277 0.7282381 2.8700386 -2.313456 0.5136683 -0.257484 3.297879

-0,685324 0.7282381

0 0.7282381 -0,685324 0.6853242 0.1282381