第二節 spss 的層次集群分析法 · 2018. 10. 29. ·...

6
10 集群分析 385 3. 兩階段法:法可以分析大的資料檔。提供下列獨特的除了選擇 集群式的衡量方法外,自動的集群數根據類別和連續變 數,同時建立集群可將集群儲存XML 檔,之後再讀集群式。 第二節 SPSS 的層次集群分析法 個分析會試圖找有同質性的觀值(或變數)組別。使用的演算 法,會從個別集群中的每一個觀值(或變數)開始,然後與別的集群結合, 直到下一個集群為。第章的「距離」(Proxmities)程序會產生距離或相似 性衡量。分層法的變數可以是計量、二或個數資料。如果變數大, 應考慮化。每個階段都統計量,以協助選出最適用的數值。在此以 15 位學生期初中、成績來進行集群分析。 一、操作步驟 選擇分析(A )分類(F )階層式集群分法(H )出如10-6 的對話框,此 話框可選擇根據觀察值(E )或變數(B )來集群,接著進行集群分析的期初中、成績,左邊的變數選定後,點移到變數(V )中。有 關本範例法檔與輸出檔,10.2 學生-成績-層次集群」。 標註觀察值方式(C )中如果選變數,變數的值將在分析結果中變數名稱。將左邊的變數選定後,點擊右箭移到中。的統計量(I )(L )兩個選項是預設選項,通常會保留這兩個選項。另外在 此視窗下方,有四個按,包括統計量、形、方法與儲存(一)統計量(Statistics)子對話框 點選後 10-7 話框 凝聚排程(A ) Agglomeration Schedule預設選項,為集群程序的細紀錄出每一步合情況與對之距 離。近似性矩陣(P )Proximity Matrix,或稱相似性矩陣出觀察單位或變數間 的距離,如果是大檔比較過程將以幾何加,的輸出,使得此選 項變得不要。在集群成員Cluster Membership)資料種選擇,當 變數的數目多,而分析只關心類的情況時,此選項將非常有用︰ 1. 無(None)︰SPSS 預設選項,選項實際上會列出所有的集群,且預設

Upload: others

Post on 03-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 第二節 SPSS 的層次集群分析法 · 2018. 10. 29. · 另外,轉換測量還可轉換由距離衡量所產生的值,其可用的選項包括絕對值 (L)、變更符號(H)可將相似轉為相異或相異轉為相似,及重

第 10 章 集群分析 ■ 385

3. 兩階段法:此語法可以分析大型的資料檔。它提供下列獨特的功能:除了選擇

集群模式的衡量方法外,還可自動選取最佳的集群數;能夠根據類別和連續變

數,同時建立集群模式;可將集群模式儲存成 XML 檔,之後再讀取該檔案並

更新集群模式。

第二節 SPSS 的層次集群分析法

這個分析會試圖找出具有同質性的觀察值(或變數)組別。它所使用的演算

法,會從個別集群中的每一個觀察值(或變數)開始,然後再與別的集群結合,

直到只剩下一個集群為止。第六章的「距離」(Proxmities)程序會產生距離或相似

性衡量。分層法的變數可以是計量、二元或個數資料。如果變數尺度差異極大,

則應考慮標準化。每個階段都會顯示統計量,以協助選出最適用的數值。在此以

15 位學生的期初、期中、期末成績來進行集群分析。

一、操作步驟

選擇分析(A)→分類(F)→階層式集群分法(H),會彈出如圖 10-6 的對話框,此

對話框可選擇根據觀察值(E)或變數(B)來集群,接著將欲進行集群分析的期初、期

中、期末成績,從左邊的變數框選定後,點擊加箭頭按鈕,移到變數(V)框中。有

關本範例詳細的語法檔與輸出檔,請參考「10.2 學生-成績-層次集群」。

標註觀察值方式(C)框中如果選入變數,該變數的取值將在分析結果中取代原

變數名稱。將姓名從左邊的變數框選定後,點擊右箭頭按鈕,移到此框中。顯示

框裡的統計量(I)與圖形(L)兩個選項是預設選項,通常會保留這兩個選項。另外在

此視窗下方,有四個按鈕,包括統計量、圖形、方法與儲存。

(一)統計量(Statistics)子對話框

點選後會出現如圖 10-7的子對話框。凝聚排程 (A)(Agglomeration Schedule)

是預設選項,為集群程序的詳細紀錄,給出每一逐步合併的具體情況與對應之距

離。近似性矩陣(P)(Proximity Matrix,或稱相似性矩陣)列出觀察單位或變數間

的距離,如果是大檔案,比較過程將以幾何增加,會有好幾頁的輸出,使得此選

項變得不符合需要。在集群成員(Cluster Membership)資料框裡有三種選擇,當

變數的數目太多,而分析者只關心若干類的情況時,此欄選項將非常有用︰

1. 無(None)︰為 SPSS的預設選項,這選項實際上會列出所有的集群,且預設的

Page 2: 第二節 SPSS 的層次集群分析法 · 2018. 10. 29. · 另外,轉換測量還可轉換由距離衡量所產生的值,其可用的選項包括絕對值 (L)、變更符號(H)可將相似轉為相異或相異轉為相似,及重

386 ■

冰柱圖還用來顯示所有可能的解。

2. 單一解(S)︰指定一個大於 1的數字,指定輸出具體的群數。如在右方格內輸入

3,SPSS將輸出 3個集群的解。

3. 解範圍(R)︰如果想知道數個可能的解,可將希望的最少群數 i 輸入第一個方格

裡,希望的最多群數 j輸入第二個方格裡(i<j),之後將輸出 i 到 j群的解。

圖 10-6 階層式集群分析對話框

圖 10-7 階層式集群分析:統計量子對話框

Page 3: 第二節 SPSS 的層次集群分析法 · 2018. 10. 29. · 另外,轉換測量還可轉換由距離衡量所產生的值,其可用的選項包括絕對值 (L)、變更符號(H)可將相似轉為相異或相異轉為相似,及重

第 10 章 集群分析 ■ 387

(二)圖形(Plots)對話框

點擊圖形(T)按鈕會出現如圖 10-8 的子對話框。集群分析最適合以圖形來說

明,如樹狀圖(Dendrogram)可用來評估所形成之集群的內聚性,並提供適當集

群數的相關資訊以供參考;冰柱圖(Icicle)會顯示群數凝聚的過程,每次疊代分

析時,觀察值如何組合成集群的資訊,可以選擇垂直或水平的圖形。樹狀圖提供

的訊息比冰柱圖多了每一步驟變數或集群間差異大小的相對量數,當輸出分群的

變數較多時,樹狀圖通常比冰柱圖清楚得多。

若研究者希望顯示較小範圍的解,可以點選指定的集群範圍(S),然後在啟動

集群(T)中輸入所希望的最少集群數、在停止集群(P)中輸入最大集群數(Stop

Cluster)與依據(B),例如若輸入 2、6、2,將輸出 2、4、6群組的解;若輸入 1、

10、3,將輸出 1、4、6、9群組的解。點選無(N)則不會出現冰柱圖。方向框中有

兩種選項,垂直(V)選項顯示的觀察值比水平(H)選項要多,如果有太多的觀察值或

變數需要顯現,可能就要使用水平選項。

(三)方法(Method)對話框

點擊方法(M)按鈕會出現如圖 10-9的子對話框。其中包含許多集群分析步驟,

在集群方法(Cluster Method)、測量(Measure)、轉換值(Transform Values)的標

準化(Standardize)和轉換測量(Transform Measures)框裡包含許多選項。在本

圖 10-8 階層式集群分析:圖形子對話框

Page 4: 第二節 SPSS 的層次集群分析法 · 2018. 10. 29. · 另外,轉換測量還可轉換由距離衡量所產生的值,其可用的選項包括絕對值 (L)、變更符號(H)可將相似轉為相異或相異轉為相似,及重

388 ■

例是採用 Ward法,且以 Z分數將分群變數標準化。

凝聚分層法是 SPSS 的預設選項,不過在集群方法(M)的下拉式選單中尚提供

了七種不同方法,分別為群組間鍵結(Between-groups Linkage)或稱組間均連法

(Average Linkage between Groups)、群組內鍵結法(Within-groups Linkage)或稱

組內均連法(Average Linkage within Groups)、最近鄰接法(Nearest Neighbor,即

最近距離法)、最遠鄰接法即最遠距離法(Furthest Neighbor)、重心群法(Centroid

Clustering)、中位數法(Median Clustering)、華得法。其中群組間鍵結法為預設選

項。

在大部分的研究中,最好的集群方法不是華得法,就是群組間鍵結法,而單

一連結法效果最差;然而,在很多模擬研究得到的結果並不一致。例如當設計一

個有延伸、橢圓形或不規則集群的狀況時,單一連結法會比平均連結法或華得法

的效果好,而且華得法對偏離值較為敏感。如果母集群分開得很理想,則大部分

的集群法就會執行得很好。

測量(Measure)欄位包含區間(N)、計數(T)與二元(B),用以選擇資料類型之

距離或相似性可用的測距方法。區間(N)即等距資料,為 SPSS的預設選項,可用的

選項包括 Euclidean距離、平方 Euclidean距離、餘弦(Cosine)、Pearson相關係數、

Chebychev、區塊(Block)、Minkowski、自訂;預設方法為平方 Euclidean距離。

圖 10-9 階層式集群分析:方法子對話框

Page 5: 第二節 SPSS 的層次集群分析法 · 2018. 10. 29. · 另外,轉換測量還可轉換由距離衡量所產生的值,其可用的選項包括絕對值 (L)、變更符號(H)可將相似轉為相異或相異轉為相似,及重

第 10 章 集群分析 ■ 389

例如 Minkowski 法可設定冪(W)是 4,會得到 a4+b4的距離。冪的預設值是 2。若

選用 Minkowski或自訂量數,則可按↓按鈕,將冪值改為 1、3或 4。選擇 Minkowski

法則其內定值會產生 Euclidean距離。平方根(R)的預設值為 2。若選用自訂量數,

則可按↓按鈕,將 r 值改為 1、3 或 4。不同的冪值和根值的組合會產生平方

Euclidean、Minkowski、City-block及其他的相異性矩陣。

計數(T)即分群變數計數資料,距離是以其出現的次數為衡量的標準,可用的

選項包括卡方測量、Phi方測量。二元(B)資料可用的選項包括 Eucidean距離、平方

Euclidean距離、大小差異、型態差異、變異、離差、形狀、簡單式相符、Phi 4點

相關性等多種方法。詳細計算公式,請參考「SPSS 使用手冊」。

轉換值框中,在某些例子裡,如變數是以差異甚大之尺度來衡量時,或每個

變數所用的尺度不同,有些是 1~5 或是 1~20,則您可能會想在計算相異性之前

先將數值標準化。從「標準化」下拉式清單中,選取一種標準化方法(如果無須

標準化,請選取「無」)。下拉式選單內有以下七種轉換方法:

1. 無:此為 SPSS的預設方法。

2. Z 評分:為最常用方法,將數值標準化為 Z 分數,其平均數為 0,標準差為 1。

3. 範圍 -1 至 1:會將每個要標準化的項目值除以所有數值的範圍。

4. 範圍 0 至 1:會將每個要標準化的項目減去其中的最小值,再除以所有數值的

範圍。

5. 長度上限為 1:會將每個要標準化的項目值,除以所有數值的最大值。

6. 平均值為 1:會將每個要標準化的項目值,除以所有數值的平均數。

7. 標準差為 1:會將每個要標準化的項目值,除以所有數值的標準差。

另外,轉換測量還可轉換由距離衡量所產生的值,其可用的選項包括絕對值

(L)、變更符號(H)可將相似轉為相異或相異轉為相似,及重新調整為 0至 1範圍(E)。

(四)儲存(Save)對話框

儲存只有在選用觀察值集群(Cluster Cases)時可用,點擊儲存(A)按鈕會出現

圖 10-10的子對話框。其有三個選項,與統計資料子對話框中的集群成員(Cluster

Membership)資格框一致,同樣分為無、單一解、解範圍,只是此時所選擇的變

數並非輸出到結果中,而是以新的變數名稱來儲存。此功能相當重要,因集群分

析通常不是分析的結束點而是起點,所以最好儲存單一群數解或某個範圍群數解

之各集群組員,這樣便可以在後續分析中,用儲存的變數來探索集群間的其他差

異。

Page 6: 第二節 SPSS 的層次集群分析法 · 2018. 10. 29. · 另外,轉換測量還可轉換由距離衡量所產生的值,其可用的選項包括絕對值 (L)、變更符號(H)可將相似轉為相異或相異轉為相似,及重

390 ■

(五)階層式集群的語法

在按下確定按鈕前,可先按貼上(P)按鈕,就可以看到上述操作介面設定所產

生的相對應 SPSS 語法。可見到階層式集群的程序名稱為 CLUSTER,且可看出在

進行集群分析前,SPSS 必須先以 PROXIMITIES 程序來產生距離矩陣,並將距離

矩陣輸出(MATRIX OUT)到暫存檔,不過當結束 CLUSTER 分析後,就可將暫

存檔關閉(Dotaset Close)。

Dotaset Declare DO.19567573460135745.

PROXIMITIES 期初成績 期中成績 期末成績

/MATRIX OUT (DO.19567573460135745. Temp\spss3500\spssclus.tmp')

/VIEW= CASE /MEASURE= SEUCLID /PRINT NONE

/ID= 姓名 /STANDARDIZE= VARIABLE Z .

CLUSTER

/MATRIX IN (DO.19567573460135745.)

/METHOD WARD /ID=姓名

/PRINT SCHEDULE CLUSTER(2,6) /PRINT DISTANCE

/PLOT DENDROGRAM HICICLE(2,7,1) /SAVE CLUSTER(3) .

Dataset Close DO.19567573460135745.

二、SPSS的分層法結果輸出

用集群分析找出 15 位學生期初、期中、期末成績變數對塊頭的描述,將變數

標準化成相同尺度的 Z分配,用平方 Euclidean距離計算群間的距離。本範例將輸

圖 10-10 階層式集群分析:儲存子對話框