應用特徵分析探索有向網絡之拓撲結構applying eigen analysis to

30
461 December 2014 第十六卷 第四期 2014 12 月(pp.461490應用特徵分析探索有向網絡之拓撲結構 盧能彬 * 長庚大學資訊管理學系 摘要 在圖形理論中,相鄰矩陣為表示網絡的基本資料結構;而在線性代數中,一個矩 陣經由特徵分析則可找出其特徵值與對應之特徵向量。因此,透過相鄰矩陣的特徵分 析將可協助網絡拓撲結構的解析:若綜觀整體特徵向量,可探索整體網絡的聚合次團 體;若微觀特徵向量的個別元素值,則可分別評估各個節點的中心性。由於無向網絡 的相鄰矩陣為對稱、可以對角化,目前已有許多特徵分析的研究結果。然而,由於有 向網絡的相鄰矩陣不一定對稱、不一定可以對角化,所以其特徵分析的研究結果仍然 相當有限。因此,本研究嘗試以相鄰矩陣的特徵分析,探索有向網絡的拓撲結構,包 含強連通圖形、單一領結結構、以及遞迴領結結構等,進而瞭解有向網絡的相關特徵 性質,據以提出一個有向網絡特徵分析演算法,並實務應用在部落格好友網絡,探索 其中的拓撲結構。 關鍵詞:社會網絡分析、特徵分析、領結結構 Applying Eigen Analysis to Explore Topological Structures of Directed Networks Neng-Pin Lu Department of Information Management, Chang Gung University Abstract In graph theory, the adjacency matrix is the basic data structure to represent a network; in linear algebra, the eigenvalues and corresponding eigenvectors of a matrix can be found out via an eigen analysis. Therefore, the eigen analysis of adjacency matrix is an approach to investigating topological structures of networks. After an eigen analysis of adjacency matrix, by inspecting the eigenvectors from the macro view, we can explore * 電子郵件:[email protected] 本論文作者感謝兩位匿名評審委員的精闢見解與寶貴建議。 DOI: 10.6188/JEB.2014.16(4).04

Upload: tranhanh

Post on 14-Feb-2017

246 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

461December 2014

第十六卷 第四期 2014 年 12 月(pp.461~490)

應用特徵分析探索有向網絡之拓撲結構盧能彬 *

長庚大學資訊管理學系

摘要

在圖形理論中,相鄰矩陣為表示網絡的基本資料結構;而在線性代數中,一個矩

陣經由特徵分析則可找出其特徵值與對應之特徵向量。因此,透過相鄰矩陣的特徵分

析將可協助網絡拓撲結構的解析:若綜觀整體特徵向量,可探索整體網絡的聚合次團

體;若微觀特徵向量的個別元素值,則可分別評估各個節點的中心性。由於無向網絡

的相鄰矩陣為對稱、可以對角化,目前已有許多特徵分析的研究結果。然而,由於有

向網絡的相鄰矩陣不一定對稱、不一定可以對角化,所以其特徵分析的研究結果仍然

相當有限。因此,本研究嘗試以相鄰矩陣的特徵分析,探索有向網絡的拓撲結構,包

含強連通圖形、單一領結結構、以及遞迴領結結構等,進而瞭解有向網絡的相關特徵

性質,據以提出一個有向網絡特徵分析演算法,並實務應用在部落格好友網絡,探索

其中的拓撲結構。

關鍵詞:社會網絡分析、特徵分析、領結結構

Applying Eigen Analysis to Explore Topological Structures of Directed Networks

Neng-Pin Lu

Department of Information Management, Chang Gung University

AbstractIn graph theory, the adjacency matrix is the basic data structure to represent a

network; in linear algebra, the eigenvalues and corresponding eigenvectors of a matrix can be found out via an eigen analysis. Therefore, the eigen analysis of adjacency matrix is an approach to investigating topological structures of networks. After an eigen analysis of adjacency matrix, by inspecting the eigenvectors from the macro view, we can explore

* 電子郵件:[email protected] 本論文作者感謝兩位匿名評審委員的精闢見解與寶貴建議。 DOI: 10.6188/JEB.2014.16(4).04

Page 2: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

462 December 2014

cohesive subgroups of the whole network; and by inspecting the elements of eigenvectors from the micro view, we can evaluate centrality of the individual nodes. In the literature, there have been many eigen analytical results of undirected networks thanks to symmetric and diagonalizable adjacency matrices. However, adjacency matrices of direct networks may be asymmetric and not diagonalizable so that the eigen analytical results of direct networks are rare to date. Therefore, in this paper, we try to apply the eigen analysis of adjacency matrix to explore topological structures of directed networks, including the strongly connected graph, simple bowtie structure, and recursive bowtie structure, to further the understandings of eigen properties of directed networks. As a result, we propose an eigen analysis algorithm for directed networks in theory and apply the algorithm to explore topological structures of blogroll networks in practice.

Keywords: Social Network Analysis, Eigen Analysis, Bowtie Structure

1. 緒論

隨著社交媒體(Social Media)與社交軟體(Social Software)的蓬勃發展,各式各樣線上網絡中,使用者互動產出的源源不絕巨量資料(Big Data),正提供各種網絡相關研究進行理論與實務相互驗證的絕佳機會(Goel et al., 2012)。例如,Adar and Adamic(2005)以部落格網絡、Sun et al.(2009)以 Facebook網絡、Bakshy et al.(2009)以 Second Life網絡、Bakshy et al.(2011)以 Twitter網絡等不同社交平台為範圍,分別探索各式線上網絡的各樣擴散結構。另一方面,網絡擴散結構則為

線上電子行銷的重要依據:Domingos and Richardson(2001)針對線上病毒式行銷(Viral Marketing),提出感染力(Viral Lift)的概念,認為網絡中每位顧客的感染力並不相同,若欲擴大病毒式行銷的感染範圍,則必須以感染力較高的顧客為起

點;Domingos(2005)探討網絡資料探勘於病毒式行銷的應用時,指出一位顧客的價值並不只在於購買產品的可能性而已,更在於該顧客之影響網絡的潛在可達範圍;

另外,Watts and Peretti(2007)討論病毒式行銷的實務運用時,則提出大種子行銷(Big-Seed Marketing)的概念,認為仔細評估顧客於網絡結構中的所在位置,並據以慎選種子顧客,將是病毒式行銷成功與否的重要關鍵。

關於網絡擴散結構的相關研究,社會網絡分析(Social Network Analysis)為重要的分析工具之一(Borgatti and Foster, 2003; Hogan, 2008; Porter et al., 2009; Borgatti

Page 3: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

463December 2014

and Halgin, 2011)。除了蒐集被研究者之屬性資料之外,社會網絡分析更蒐集被研究者之間的互動資料,進而探討被研究者之間的關係結構與擴散脈絡(Wasserman and Faust, 1994; de Nooy et al., 2005; Hanneman and Riddle, 2005)。對於社會網絡分析的近期發展,Freeman(2011)歸納出兩大研究方向:聚合次團體分析(Cohesive Subgroup Analysis)的社群(Community)探索與發掘,以及位置分析(Position Analysis)的中心性(Centrality)定義與應用。然而目前這些熱門的研究大都只專注於個別計算效率的提昇(Wu and Huberman, 2004; Holme and Huss, 2005; Ragnaven et al., 2007; Freeman, 2008),至於同時考慮整體聚合次團體與個別節點位置的結構分析則著墨不多。

在圖形理論中,相鄰矩陣(Adjacency Matrix)為表示網絡的基本資料結構;而在線性代數中,一個矩陣經由特徵分析(Eigen Analysis)則可找出其特徵值(Eigenvalue)與對應之特徵向量(Eigenvector)。據此,一個網絡可以藉由相鄰矩陣的特徵分析來瞭解整體拓撲上的基本性質(Richards and Seary, 2000)。除了相鄰矩陣之外,特徵分析亦可應用於由相鄰矩陣衍生的其他各種特性矩陣,例如,拉

普拉斯矩陣(Laplacian Matrix)、變遷矩陣(Transition Matrix)、以及模組性矩陣(Modularity Matrix)等(Newman, 2006)。一個網絡的特性矩陣經由特徵分析產生的所有特徵值稱為該網絡的頻譜(Spectrum),因此網絡中各種特性矩陣的特徵分析又稱為頻譜分析(Spectral Analysis)。頻譜分析為網絡結構分析的重要基礎(Chung, 1997; Richards and Seary, 2000; Richards and Seary, 2003; Kannan and Vempala, 2008; Rajaraman et al., 2012; Spielman, 2012):若綜觀整體特徵向量,將可探索整體網絡的聚合次團體(Hubbell, 1965; Bonacich, 1972; Moody, 2001; Donetti and Munoz, 2004; Newman, 2006);若微觀特徵向量的個別元素值,則可分別評估各個節點的中心性(Bonacich, 1972; Bonacich, 1987; Friedkin, 1991; Bonacich and Lloyd, 2001)。

另一方面,根據是否考慮連結的方向性,網絡結構可分為有向與無向等兩大

類。由於無向網絡的相鄰矩陣為對稱、可以對角化(Diagonalizable),所以已有許多以特徵分析為基礎的網絡結構研究結果(Chung, 1997; Richards and Seary, 2000; Richards and Seary, 2003; Kannan and Vempala, 2008; Rajaraman et al., 2012; Spielman, 2012);然而,由於有向網絡的相鄰矩陣並不一定對稱、不一定可以對角化,使得探索網絡結構的特徵分析受到限制,目前的研究結果相當有限(Spielman, 2012)。因此,本研究嘗試以有向網絡的拓撲結構為主題,發展相鄰矩陣特徵分析的演算法,探

索有向網絡的各種拓撲結構,並以部落格好友網絡為例,說明此特徵分析演算法的實

務運用。

Page 4: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

464 December 2014

2. 研究背景

社會網絡是由節點、關係、以及連結所組成的一種結構。節點或稱行為者(可

以是個人或是組織)透過各種社會關係(如朋友關係、家庭關係等)將各個節點連結

起來。社會網絡分析則是藉由圖形理論將社會關係抽象化為節點與節點之間的連結圖

形,然後進行各種網絡拓撲分析(Wasserman and Faust, 1994)。本節說明本研究的相關背景,包括所使用的圖形定義、以及網絡分析方法。

2.1 圖形定義

在圖形理論中,一張圖形(Graph)是由節點(Vertex)和連結(Edge)所構成,記作 G (V, E);圖形的節點所形成的集合稱為節點集(Vertex Set),記作 V,節點集的元素個數記作 v;圖形的連結所形成的集合稱為連結集(Edge Set),記作E,連結集的元素個數記作 e(Sahni, 2001)。圖形又可因連結集的有無方向性分為有向圖(Directed Graph)與無向圖(Undirected Graph);因連結集的有無權重分為權重圖(Weighted Graph)與無權重圖(Unweighted Graph)。

在本研究中,只考慮連結的方向、但不考慮權重,使用有向二元網絡(Directed Binary Network),並以 v×v布林相鄰矩陣(Boolean Adjacency Matrix) M[mij]表示,其中若存在節點 i指向節點 j的連結,則以 mij1代表;若不存在節點 i指向節點 j的連結,則以 mij0代表。在一有向二元網絡中,一條路徑(Path)為起始節點i至目的節點 j之間所經過的相同方向連結依序構成的一個串列,而一條路徑的長度則為其串列中連結的個數。最短路徑長度(Geodesic Distance)則為連接起始節點 i至目的節點 j的最小連結數,其中最短路徑長度 lij唯一,但最短路徑數 gij可能大於

一:有多條長度相同、但連結串列不同的最短路徑。

圖 1為一個有向二元網絡之範例,其中圖 1(a)為此網絡之有向圖,圖 1(b)為此有向圖之相鄰矩陣。此網絡中共有 5個節點、8條連結,其中計有節點 1與節點 3之

3

54

12

0100000100100011010100100

(a) 有向圖 (b) 相鄰矩陣

圖 1 有向二元網絡之範例

Page 5: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

465December 2014

間的雙向連結兩條;從節點 2分別連至節點 1, 3, 5的三條單向連結;而節點 3除了與節點 1的雙向連結外,另有連至節點 5的單向連結一條;至於節點 4至節點 3、以及節點 5至節點 4則分別各有一條單向連結。

2.2 連通性

在一有向圖中,有以下三種連通性定義(Wasserman and Faust, 1994):(1) 弱連通(Weakly Connected):當有向圖中的所有連結均視為雙向後,任何兩個節點之間均存在有限長度的路徑,即為弱連通。以圖 1為例,任兩節點之間均為弱連通。

(2) 強連通(Strongly Connected):對於任何兩個節點 i, j,節點 i有路徑可以連通到節點 j,節點 j也有路徑可以連通到節點 i,即為強連通。其中路徑 i→ j與 j→ i所經過的節點可以不同。以圖 1為例,節點 1, 3, 4, 5之間均為強連通。

(3) 遞迴強連通(Recursively Strongly Connected):對於任何兩個節點 i, j,節點 i有路徑可以連通到節點 j,節點 j也有路徑可以連通到節點 i,並且路徑i→ j與 j→ i經過的所有連結必須均為雙向,才為遞迴強連通。以圖 1為例,只有節點 1, 3之間為遞迴強連通。

至於連通成份(Connected Component)則為一個圖形中可包含所有均互相連通節點的最大子圖形(Subgraph)。一個圖形的連通成份可能有多個,其中擁有最多節點的成份則稱為最大連通成份。依節點間的連通性,連通成份可再分為弱連通成份、

強連通成份、與遞迴強連通成份。以圖 1為例,整個圖形即為一最大弱連通成份;最大強連通成份則包含節點 1, 3, 4, 5以及它們之間的所有連結;最大遞迴強連通成份則只包含節點 1, 3以及它們之間的雙向連結。

2.3 聚合次團體

聚合次團體(Cohesive Subgroup)是由緊密連結的節點所組成的子圖形。常見的聚合次團體計有 clique、n-clique、n-clan、k-plex、與 k-core 等(Wasserman and Faust, 1994)。其中 clique、n-clique與 n-clan的定義是要求節點之間路徑長度;k-plex與 k-core的定義則是要求節點的分支度。因此本研究只討論與有向網絡較直接關聯的 clique、n-clique、與 n-clan等由路徑長度定義的聚合次團體。

(1) clique:為一個子圖形 G' (V', E')擁有三個或三個以上的節點,且 clique內的所有節點皆互相直接相連,最短路徑長度皆為 1,有著最緊密的連結關係。

(2) n-clique:由於 clique的定義過於嚴苛,因而有了放寬路徑長度限制的

Page 6: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

466 December 2014

n-clique,它與 clique同樣是擁有三個或三個以上節點的子圖形,但每個節點不一定需要直接相連,只要求任何兩個節點之間的最短路徑長度不大於 n:

lij ≤ n, i, jÎV' (1)

其中 lij代表節點 i, j之間的最短路徑長度。當 n1時,n-clique即為一個clique;而 n越大,則 n-clique包含的成員越多。

(3) n-clan:在一個 n-clique中,兩個節點之間的最短路徑可能會經由 n-clique子圖形的外部。為消除此種異常,n-clan修正 n-clique的定義,限制節點之間的最短路徑,只能經由子圖形內部的路徑。因此一個 n-clan必定是一個n-clique;但一個 n-clique不一定是一個 n-clan。

綜合以上聚合次團體介紹,再檢視圖 1,可以發現包含節點 1, 3, 4, 5以及它們之間所有連結的最大強連通成份即為一個 3-clique,並同時為 3-clan;至於包含節點 3, 4, 5以及它們之間所有連結的子圖形則為 2-clique,並同時為 2-clan。

2.4 中心性

在網絡圖形中,節點所在位置會影響節點所能控制的資源,而每個節點控制各種

資源的能力可以用不同的中心性(Centrality)來代表。常見的中心性有三種,分別為分支度中心性(Degree Centrality)、接近中心性(Closeness Centrality)、以及中介中心性(Betweenness Centrality)(Freeman, 1979)。

(1) 分支度中心性:以節點的分支度 找出圖形的區域中心性(Local Centrality)。給定一節點 i,其分支度為其相鄰節點的個數,依照連結方向又可分為連入分支度(In Degree)ki

in與連出分支度(Out Degree)kiout。據此,

節點 i的連入分支度中心性:

c i kDin

iin( )= (2)

以及連出分支度中心性:

c i kDout

iout( )= (3)

(2) 接近中心性:以節點間的最短路徑長度來衡 節點的全域中心性(Global Centrality)。為避免圖形不完全連通時,部份節點間的最短路徑為無限大的問題,可先將路徑長度取倒數為接近程度(Closeness),再計算接近中心性。而依接近方向,節點 i的接近中心性可分為連入接近中心性:

c i lCin

jij i

( )=≠

∑ 1 (4)

Page 7: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

467December 2014

以及連出接近中心性:

c i lCout

ijj i

( )=≠

∑ 1 (5)

(3) 中介中心性:為另種全域中心性指標,考慮節點位於其他節點之間最短路徑中的比率。一個圖形中任何 個節點的最短路徑若必須透過某一特定節點,則

此特定節點即居於圖形連通的關鍵位置,中介性較高。據此,加總節點 k位於任何兩節點 i, j之間所有可能最短路徑的比率,可得節點 k的中介中心性:

c kg kgBij

ijj ki k

( )=( )

≠≠

∑∑ (6)

其中 gij (k)代表節點 i, j透過節點 k中介的最短路徑數,gij為節點 i, j之間的最短路徑數。

綜合以上中心性介紹,再以圖 1為例,考慮各個節點的中心性,則經由方程式(2)與 (3),可得出節點 3的連入分支度中心性與節點 2的連出分支度中心性分別為最高;再經由方程式 (4)與 (5),可得出節點 3的連入接近中心性與節點 2的連出接近中心性亦為最高;而經由方程式 (6),則可得出節點 3的中介中心性為最高。

2.5 相鄰矩陣之特徵分析

在圖形理論中,相鄰矩陣為表示網絡的基本資料結構;而在線性代數中,一個矩

陣則可經特徵分析找出其特徵值與對應之特徵向量。因此,一個網絡可以藉由相鄰矩

陣的特徵分析來瞭解整體拓撲上的基本性質(Richards and Seary, 2000)。以下分別說明相鄰矩陣特徵分析在中心性分析、以及聚合次團體分析中的應用。

2.5.1 中心性分析除了 2.4小節的中心性定義之外,Bonacich(1972)考慮相鄰節點之間的彼此影

響程度,認為一個節點的相鄰節點雖然不多,但只要與一個中心性高的節點相鄰,那

麼中心性相對就高;另一方面,一個節點的相鄰節點雖然很多,但若均只與中心性低

的節點相鄰,那麼中心性相對也就不高。以此概念,一個節點 i的中心性 ci應正比於

其相鄰節點的中心性加總:

ci ~ c1m1i c2m2i c3m3i ⋯ cvmvi c mj jij

v

=

∑1

(7)

Page 8: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

468 December 2014

ci ~ mi1c1 mi2c2 mi3c3 ⋯ mivcv m cij jj

v

=

∑1

(8)

其中方程式 (7)是以連入節點 i的鄰居進行加總,而方程式 (8)則是以節點 i連出的鄰居進行加總。接著,再一同考量網絡中所有節點的中心性,並彙整為向量,則方程式

(7)與 (8)可以分別改寫成:

lcT cTM (9)

lc Mc (10)

即為特徵分析方程式,其中 M[mij]為 v×v之相鄰矩陣、l為特徵值、cT[cj]為1×v之左方特徵向量、c[ci]為 v×1之右方特徵向量。欲進行方程式 (9)與 (10)之特徵解構(Eigen Decomposition)時,可先取得矩陣M的特徵多項式(Characteristic Polynomial):

det (M - lI) 0 (11)

再解出其中 v個解:

(l - l1) (l - l2) (l - l3) ⋯ (l - lv) 0 (12)

即為矩陣 M的 v個特徵值。然後將這 v個特徵值分別代回方程式 (9)與 (10),則可分別求出它們所對應的 v組左方特徵向量與 v組右方特徵向量(Horn and Johnson, 1985)。而在這 v組的特徵值與特徵向量之中,最大特徵值所對應的特徵向量稱為主要特徵向量(Principal Eigenvector)。

在無向圖中,其相鄰矩陣為對稱:mijmji,因此方程式 (7)與 (8)完全相同,並且方程式 (9)中的左方特徵向量經轉置後與方程式 (10)中的右方特徵向量亦完全相等,所以由方程式 (11)與 (12)解出 v個實數(Real Number)的特徵值後,只須單獨考慮左方或右方特徵向量即可。至於有向圖,由於相鄰矩陣不一定對稱,所以除了

實數的特徵值之外,方程式 (11)與 (12)亦可能產生複數(Complex Number)的特徵值,不過目前有向圖特徵分析的解讀大多僅以實數的特徵值為限,然後再分別考慮其

對應的左右兩方特徵向量。

關於特徵向量於中心性分析的應用,Bonacich(1972)證明一個無向圖相鄰矩陣的主要特徵向量的元素值均大於等於零(ci ≥ 0),可以代表節點 i的中心性,稱為特徵向量中心性(Eigenvector Centrality)。另外,其他相關研究也提出許多以特徵向量為基礎的各種衍生中心性(Katz, 1953; Hubbell, 1965, Bonacich, 1987; Friedkin, 1991)。這些衍生中心性雖然不一定使用矩陣的特徵分析,但其計算結果均與矩陣

Page 9: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

469December 2014

的特徵向量相關,因此 Bonacich and Lloyd(2001)將它們統稱為類特徵向量中心性(Eigenvector-like Centrality)。

2.5.2 聚合次團體分析藉由相鄰矩陣的特徵分析,除了可以取得個別節點的中心性之外,若再藉由個

別中心性進行節點的聚合,則可找出相關的聚合次團體。Hubbell(1965)以強連通n-clique為目標,先取得主要特徵向量的元素值 ci為各個節點 i的特徵向量中心性後,再計算節點 i, j之間的中心性影響程度:

fij fji min (cimij, cjmji) (13)

然後選擇適當的門檻值,將中心性影響程度較高的節點依次合併,即可找出對應的

強連通 n-clique。除了特徵向量中心性的計算之外,Bonacich(1972)並指出相鄰矩陣的最大特徵值即代表一個聚合次團體的聚合指標(Cohesive Index),而一個聚合次團體即是由特徵向量中心性較高的節點所構成。另外,Moody(2001)以同儕影響(Peer Influence)模型為概念,發展大型網絡中找尋密集群集的遞迴鄰居平均(Recursive Neighborhood Mean)演算法,其原理也類似於相鄰矩陣的特徵分析。然而特徵分析的目標並不以相鄰矩陣為限,由相鄰矩陣衍生的其他矩陣亦可為特徵分析

的目標。例如,Donetti and Munoz(2004)採用拉普拉斯矩陣的特徵分析來偵測網絡中的社群所在。至於 Newman(2006)的社群偵測方法則是以模組性矩陣為特徵分析的目標。

2.6 領結結構

為了解全球資訊網(World Wide Web)的連結結構,Broder et al.(2000)透過網頁擷取工具的協助,探討巨量網頁間的超連結(Hyperlink)關係,歸納出領結結構(Bowtie Structure),如圖 2所示。在扣除獨立成份(Disconnected Components)後,領結結構的最大弱連通成份(Largest Weakly Connected Component, LWCC)可再分為:最大強連通成份(Largest Strongly Connected Component, LSCC)、單向連入最大強連通成份的輸入成份(IN)、單向連出最大強連通成份的輸出成份(OUT)等三大主要核心部份;至於周邊部份則包含由輸入成份連出以及連入輸出成份的卷鬚成份(Tendril),而當輸入成份連出的卷鬚成份若與連入輸出成份的卷鬚成份相連則形成不經由最大強連通成份的管狀成份(Tube),為卷鬚成份的特例。利用領結結構進行分析時,通常以輸入成份、最大強連通成份、與輸出成份等三大成份為

主:輸入成份的所有節點並不一定互相連通,但輸入成份的所有節點均可連通至最大

強連通成份與輸出成份的所有節點;最大強連通成份的所有節點均互相連通,並均可

Page 10: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

470 December 2014

連通至輸出成份的所有節點,但最大強連通成份的所有節點均無法連通至輸入成份的

任何節點;輸出成份的所有節點並不一定互相連通,同時輸出成份的所有節點均無法

連通至最大強連通成份或輸入成份的任何節點。簡言之,領結結構成份之間的可達性

(Reachability)為單向地,由輸入成份、而最大強連通成份、最後再至輸出成份。關於領結結構於全球資訊網的成因,Metaxas(2012)以個別超連結逐一加入網

頁之間的過程,說明了領結結構中各個成份形成的必然性。除了全球資訊網之外,

領結結構亦可用於有向連結網絡的分析,例如,Zhang et al.(2007)分析線上討論社群的互動網絡時,以及 Vitali et al.(2011)探討跨國企業因持股比率所形成的控制網絡時,均發現領結結構的存在。然而領結結構分析的初步結果只能說明整體網絡各

個成份之間的可達關係,若欲解讀領結結構分析的意涵,則必須考慮對應網絡文本

(Network Context)中有向連結所代表的關係。以電子商務網站中的推薦網絡為例,當顧客 A推薦某個商品給顧客 B時,若使用由節點 A指向節點 B的有向連結來表示顧客 A與顧客 B之間的推薦關係,那麼此推薦網絡領結結構分析的結果,便可說明輸入成份內的顧客為影響力較高的推薦者;以社交媒體或社交軟體上的好友網絡為

例,當使用者 A將使用者 B加入自己的好友名單時,若使用由節點 A指向節點 B的有向連結來表示使用者 A單方面地視使用者 B為好友的關係,那麼此好友網絡領結結構分析的結果,則可說明輸出成份內的使用者為影響力較高的使用者。

OUTIN

LargestStrongly

ConnectedComponent

… …

Disconnected Components

Tube

Tendrils

OUTIN

LargestStrongly

ConnectedComponent

… …

Disconnected Components

Tube

Tendrils

圖 2 領結結構

Page 11: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

471December 2014

3. 有向網絡之特徵分析

相對於無向網絡特徵分析的許多研究結果(Chung 1997; Richards and Seary, 2000; Richards and Seary, 2003; Kannan and Vempala, 2008; Rajaraman et al., 2012; Spielman, 2012),關於有向網絡的特徵分析,由於其相鄰矩陣不一定對稱、不一定可以對角化,所以目前的研究結果相當有限(Spielman, 2012)。因此,本研究嘗試以特徵分析,探索有向網絡的拓撲結構,包含強連通圖形、單一領結結構、以及遞迴領結結構

等。

3.1 強連通圖形

根據 Perron-Frobenius Theorem,給定一個強連通圖形 G (V, E),則其相鄰矩陣M的最大特徵值 lmax>0,並且所對應的主要特徵向量的所有元素值均大於零(Bapat and Raghavan, 1997)。雖然 Perron-Frobenius Theorem證明所有強連通圖形的最大特徵值 lmax>0,但並未指出最大特徵值的上限,因此為瞭解強連通圖形的最大特徵值的可能範圍,本研究考慮給定 n個節點的所有強連通圖形,發現它們的最少連結數為 n,最多連結數為 n (n-1),如圖 3所示。在此兩種極端狀況下,它們的連結結構亦為所有節點的分支度均相同的正規圖(Regular Graph):圖 3(a)為連入、連出分支度均為 1的正規圖;圖 3(b)為連入、連出分支度均為 n-1的正規圖。另一方面,Bonacich(2007)則指出在正規圖中,各個節點的特徵向量中心性等同分支度中心性。因此,本研究以分支度組成的向量代回方程式 (9)與 (10),即可推得擁有 n個節點的強連通圖形的最大特徵值

1 ≤ lmax ≤ n-1 (14)

以圖 3為例,則圖 3(a)的最大特徵值 lmax1;圖 3(b)的最大特徵值 lmaxn-1。然而除了以上少數正規圖之外,一個強連通圖形的相鄰矩陣並不一定對稱,因此左右

兩方的主要特徵向量並不必然相同,必須分別考慮:首先由方程式 (11)解出最大特徵值 lmax,然後再代回方程式 (9)與 (10)即可分別求得左方主要特徵向量 l[li],其中li>0為節點 i的左方特徵向量中心性;以及右方主要特徵向量 r[ri],其中 ri>0為節點 i的右方特徵向量中心性。

Page 12: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

472 December 2014

1

3

5

n

6

2

4

1

3

5

n

6

2

4

1

3

5

n

6

2

4

1

3

5

n

6

2

4

(a) 最少連結 (b) 最多連結

圖 3 強連通圖形

3.2 單一領結結構

本小節說明本研究如何使用相鄰矩陣特徵分析的結果來解析單一領結結構。進行

領結結構分析時,通常將不連通的獨立成份扣除,只考慮由最大強連通成份、輸入成

份、輸出成份、以及卷鬚成份等四大群集構成的最大弱連通成份。在前一小節中,本

研究由 Perron-Frobenius Theorem已知強連通成份節點的左方與右方特徵向量中心性均大於零。以下則分別再討論輸入成份、輸出成份、以及卷鬚成份中,左方與右方特

徵向量中心性之可能範圍。

Bonacich and Lloyd(2001)討論非對稱相鄰矩陣之特徵向量於中心性的應用時,建議以左方主要特徵向量為主,並指出該方法的問題:一個節點的連入分支度若

為零,則其對應之左方主要特徵向量的元素值、亦即其左方特徵向量中心性必然為

零,又一個節點若只被左方特徵向量中心性為零的節點所連入,那麼其左方特徵向量

中心性同樣為零。以圖 4(a)為例,節點 1的連入分支度為零,所以其左方特徵向量中心性為零,至於節點 2的連入分支度雖不為零,但因只被左方特徵向量中心性為零的節點 1所連入,所以其左方特徵向量中心性同樣為零。若將以上問題對照圖 2之領結結構,可以發現輸入成份節點的左方特徵向量中心性均全部為零。

根據左方主要特徵向量元素部份為零的特性,我們同樣可在右方主要特徵向量

中發現其元素部份為零的特性:一個節點的連出分支度若為零,則其對應之右方主要

特徵向量的元素值、亦即其右方特徵向量中心性必然為零,又一個節點若只連出至右

方特徵向量中心性為零的節點,那麼即其右方特徵向量中心性同樣為零。再以圖 4(a)為例,節點 10的連出分支度為零,所以其右方特徵向量中心性為零,至於節點 9的連出分支度雖不為零,但因只連出至特徵向量中心性為零的節點 10,所以其右方特

Page 13: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

473December 2014

徵向量中心性同樣為零。將以上特性對照圖 2之領結結構,即可發現輸出成份節點的右方特徵向量中心性均全部為零。

1

4

8

102

3

5

69

711

12

1

4

8

102

3

5

69

711

12

1

4

8

102

3

5

69

711

12

1

4

8

102

3

5

69

711

12

(a) 單一強連通成份 (b) 多重強連通成份

圖 4 領結結構之範例圖形

至於卷鬚成份的節點,由於它們只會被左方特徵向量中心性為零的輸入成份節點

所連入,或是連入右方特徵向量中心性為零的輸出成份節點,因此它們的左方與右方

特徵向量中心性均為零。綜合以上分析,本研究歸納出以特徵向量中心性為基礎的領

結結構節點分類規則於表 1,並以圖 4(a)說明此規則的應用。首先,將圖 4(a)的相鄰矩陣進行特徵分析後,可得最大特徵值 lmax、以及對應的左方主要特徵向量 l[li]與右方主要特徵向量 r[ri],如表 2所示。然後,根據表 1之分類規則,即可發現節點3, 4, 5, 6, 7, 8的左方與右方特徵向量中心性均大於零,所以屬於最大強連通成份;節點 1, 2的左方特徵向量中心性為零、但右方特徵向量中心性大於零,所以屬於輸入成份;節點 9, 10的左方特徵向量中心性大於零、但右方特徵向量中心性為零,所以屬於輸出成份;至於節點 11, 12的左方與右方特徵向量中心性則均為零,所以屬於卷鬚成份。

表 1 領結結構之節點分類規則

ri = 0 ri > 0

li 0 Tendril IN

li > 0 OUT SCC

Page 14: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

474 December 2014

表 2 圖 4(a)之第一次特徵分析結果

lmax=2.188 1 2 3 4 5 6 7 8 9 10 11 12

l 0 0 0.23 0.11 0.51 1.00 0.84 0.84 0.38 0.18 0 0

r 0.02 0.05 0.11 0.23 0.51 1.00 0.84 0.84 0 0 0 0

3.3 遞迴領結結構

Dill et al.(2002)探討全球資訊網的自我相似性(Self-Similarity)時,發現領結結構的遞迴特性:除了最大強連通成份之外,在輸入成份、輸出成份、以及卷鬚成份

中,還有其他較小強連通成份存在的可能,若再以其他較小強連通成份為中心則可再

遞迴解析出領結結構中的領結結構。以圖 4(a)為例,若將節點 5, 6之間的雙向連結改成由節點 5至節點 6的單向連結後,即為一個遞迴領結結構,如圖 4(b)所示。據此,再將圖 4(b)的相鄰矩陣經過特徵分析後,同樣可得最大特徵值、以及對應的左方與右方主要特徵向量,如表 3所示。接著根據表 1進行分類,即可發現以節點 6, 7, 8為中心的領結結構:最大強連通成份包含節點 6, 7, 8;輸入成份包含節點 1, 2, 3, 4, 5;輸出成份包含節點 9, 10;至於節點 11, 12則屬於卷鬚成份。由圖 4(b)與表 3,除了可以清楚地知曉以上領結結構的對應之外,並可輕易地看出輸入成份中還包含另一

個強連通成份:節點 3, 4, 5以及以此強連通成份為中心的另一領結結構。

表 3 圖 4(b)之第一次特徵分析結果

lmax=2 1 2 3 4 5 6 7 8 9 10 11 12

l 0 0 0 0 0 1.00 1.00 1.00 0.50 0.25 0 0

r 0.04 0.07 0.14 0.29 0.57 1.00 1.00 1.00 0 0 0 0

然而在一個大型網絡中,並不易取得清晰明白的視覺化結果,因此本研究提出

一個以相鄰矩陣特徵分析為基礎的演算法來解析遞迴領結結構,如圖 5所示。此演算法是以 Friedkin(1991)的影響結構(Influence Structure)分析為概念,跳脫出原本二元相鄰矩陣中 0/1整數的限制,改以表示節點之間連結權重的影響矩陣(Influence Matrix) W [wij], 0 ≤ wij ≤ 1進行特徵分析。另外,由於有向圖的相鄰矩陣不一定對稱,所以除了實數特徵值之外,亦可能產生複數特徵值,不過本研究對於有向圖特徵

分析的解讀僅以實數特徵值為限,然後再分別考慮其對應的左右兩方特徵向量。本演

算法的進行步驟說明如下:

步驟一, 首先以相鄰矩陣初始化影響矩陣,然後進行影響矩陣的特徵解構,找出其最大實數特徵值、左方與右方主要特徵向量。

Page 15: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

475December 2014

步驟二, 判斷最大特徵值是否大於等於 1,若是則進行第三步驟;若否則代表已無其他強連通成份的存在,結束此演算法,並輸出以各個不同強連通成份為中心

的領結結構節點分類結果。

步驟三, 依表 1進行各個節點於領結結構成份的分類,若強連通成份不為空集合,則繼續步驟四;若強連通成份為空集合,則亦提前結束此演算法的執行。

步驟四, 根據步驟三的分類,弱化強連通成份中所有連結於影響矩陣中的權重,其權重弱化的準則如下。假設弱化前影響矩陣W中大於等於 1的實數特徵值共有 k個:

lmax = l1 ≥ l2 ≥ l3 ≥ ⋯ ≥ lk ≥ 1 (15)

     此時若將影響矩陣W中對應最大特徵值的強連通成份的所有連結權重均除以比 lmax稍大的數(lmaxe),即可使得該強連通成份於弱化後的特徵值

小於 1,同時弱化後影響矩陣W'中大於等於 1的實數特徵值亦將減為 k'個(k' k):

lmax' = l1' ≥ l2' ≥ l3' ≥ ⋯ ≥ lk' ≥ 1 > lmax/(lmaxe) (16)

     並對應其他 k'個強連通成份的可能存在。步驟五, 以弱化後的影響矩陣W'進行特徵解構,並分別找出其最大特徵值、左方與

右方主要特徵向量,然後再至步驟二進行最大特徵值的判斷,考慮是否仍有

其他強連通成份的存在。

根據以上進行步驟,本研究再以圖 4(b)為例,說明圖 5演算法的主要流程。首先,執行步驟一至步驟三,產生第一次特徵分析的結果,如表 3所示,並依表 1之規則,完成第一層領結結構之節點分類;接著,執行步驟四,將影響矩陣中強連通成份

節點 6, 7, 8之間的連結權重弱化;而步驟五則再進行弱化後的影響矩陣特徵解構,其結果如表 4所示;然後,跳回步驟二,根據弱化後影響矩陣的最大特徵值 lmax1,發現另一個強連通成份的可能存在;而步驟三則再將表 4的結果依表 1之規則,解析出以另一個強連通成份為中心的第二層領結結構:節點 3, 4, 5為強連通成份,節點 1, 2為輸入成份,節點 6, 7, 8, 9, 10為輸入成份,節點 11, 12為卷鬚成份;最後,依序執行步驟四、步驟五、以及跳回步驟二,分別再進行強連通成份連結權重弱化、再弱化

後的影響矩陣特徵解構、以及確定再弱化後影響矩陣的最大特徵值 lmax1之後,結束此演算法的執行。

Page 16: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

476 December 2014

Algorithm: Recursive Bowtie Analysis

Input: An adjacency matrix M of a graph G (V, E)

Begin k← 0 // number of found SCCs

// Step 1: W←M // initialization of influence maritx W Perform the eigen decomposition of W Find the largest real eigenvalue lmax and the corresponding left and right eigenvectors: l [li] and r [ri]

while (lmax>1) // Step2: Determine if there is an SCC { k Tendrilk← Æ

INk← Æ

OUTk← Æ

SCCk← Æ

// Step3: Classify the bowtie structure based on SCCk

for (each vertex i Î V)

{ if ((li0) && (ri0)) Tendrilk← TendrilkÈ{i} if ((li0) && (ri>0)) INk← INkÈ{i} if ((li>0) && (ri0)) OUTk← OUTkÈ{i} if ((li>0) && (ri>0)) SCCk← SCCkÈ{i} } if (SCCkÆ) exit // SCC not found, terminate the algorithm

// Step 4: Weaken the edge weights within SCCk

for (each vertex i Î SCCk) for (each vertex j Î SCCk)

wij← wij / (lmax+e)

// Step 5: Perform the eigen decomposition of the weakened W' Find the largest real eigenvalue lmax' and the corresponding left and right eigenvectors: l' [li'] and r' [ri'] lmax← lmax' l← l' r← r' }End

Output: Component sets of bowtie structures based on different SCCs, including INi, SCCi, OUTi, Tendrili, i 1, ⋯, k

圖 5 遞迴領結結構分析之演算法

Page 17: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

477December 2014

表 4 圖 4(b)之第二次特徵分析結果

lmax=1 1 2 3 4 5 6 7 8 9 10 11 12

l 0 0 0.67 0.67 0.67 1.00 0.50 0.50 0.50 0.50 0 0

r 1.00 1.00 1.00 1.00 1.00 0 0 0 0 0 0 0

4. 分析範例

為說明本研究特徵分析演算法的實務應用,本研究以 2008年與 2009年兩個時點之台灣前百大部落格的好友連結網絡為範例(盧能彬,2013),探索其中的拓撲結構。

4.1 範例網絡

圖 6為這兩個時點的範例網絡;表 5則是它們的基本拓撲參數。這兩個範例網絡均是以「部落格觀察」網站(look.urs.tw)所提供的排名為基準,然後蒐集各個部落格首頁的好友名單(Blogroll)彙整而成。其中圖 6(a)為 2008年 10月 26日前百大部落格在 2008年 11月 1日的連結網絡,節點上的數字代表該節點於 2008年 10月 26日的排名。此網絡在扣除不公開資訊的 3個部落格後,總計有 97個部落格,分別以97個節點代表,並以該部落格的排名為節點編號。至於連結部份,則是由這 97個部落格首頁的好友名單解析而得:若在部落格 i的好友名單中包含部落格 j,則以由節點 i指向節點 j的有向連結來代表;若在部落格 j的好友名單中也包含部落格 i,則另以由節點 j指向節點 i的有向連結來代表。換言之,任兩個部落格之間,若雙方互相將對方列於自己的好友名單中,則計連結兩條;若只有單方面的好友名單表列,則計

連結一條。據此,依序解析所有好友名單後,共篩選出這 97個前百大部落格之間的所有好友連結,計有 252條,連結密度為 0.0271。

圖 6(b)則為 2008年 10月 26日與 2009年 9月 6日兩個時點之所有前百大部落格於 2009年 9月 11日的連結網絡,節點上的數字代表各個節點於 2009年 9月 6日的排名,其中圓形節點代表 2008年 10月 26日與 2009年 9月 6日兩個時點都在前百大之內的部落格;正三角形是 2009年 9月 6日新進榜的部落格;倒三角形則是 2009年 9月 6日退出榜的部落格。至於連結部份,在解析所有部落格的好友名單後,共篩選出 124個前百大部落格之間的所有好友連結,計有 374條,連結密度為 0.0245。另外,圖 6(a)與圖 6(b)這兩個網絡的最大弱連通成份的節點數、連結數、以及連結密度等亦分別彙整於表 5。

Page 18: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

478 December 2014

(a) 2008年 11月 1日 (b) 2009年 9月 11日

圖 6 部落格好友連結網絡

表 5 部落格好友連結網絡之基本拓撲參數

年度 網絡節點數

v連結數

e

連結密度

d = ev v( )-1

2008整體網絡 97 252 0.0271

最大弱連通成份 79 251 0.0407

2009整體網絡 124 374 0.0245

最大弱連通成份 112 374 0.0301

4.2 領結結構分析

在領結結構分析中,通常以最大弱連通成份為主。因此,本研究先將兩個網絡

中的獨立成份排除,均只以最大弱連通成份進行特徵分析。據此,依圖 5之演算法,首先以 2008年的最大弱連通成份的相鄰矩陣將影響矩陣初始化,然後進行影響矩陣的第一次特徵解構,找出最大特徵值 lmax5.8453,並分別取得對應之左方與右方主要特徵向量後,再根據表 1之分類規則,將 2008年的最大弱連通成份解析為領結結構的四大主要部份,如表 6所示:輸入成份計有 6個節點,強連通成份計有 34個節點,輸出成份計有 38個節點,卷鬚成份計有 1個節點。接著,根據第一次分析的結果,將影響矩陣中所有屬於強連通成份的連結權重弱化後,再進行影響矩陣的

第二次特徵解構,結果找出其最大特徵值 lmax1,代表另一個強連通成份的可能存

Page 19: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

479December 2014

在。然而將各個節點所對應之左方與右方主要特徵向量元素值再依表 1分類後,發現SCC2Æ,並無另一個強連通成份的存在,所以結束演算法的執行。綜合以上分析,

圖 7將 2008年最大弱連通成份依以上分析的結果重繪:位於圖中間的圓形節點屬於最大強連通成份;位於圖左側的正三角形節點屬於輸入成份;位於圖的上方、右側、

以及下方的倒三角形節點屬於輸出成份;另外,圖左下方的菱形節點則屬於卷鬚成

份,而此卷鬚成份亦為管狀成份,不經由最大強連通成份,單向連接輸入成份節點至

輸出成份節點。

表 6 單一領結結構之特徵分析結果

範例網絡 lmax IN SCC OUT Tendril

2008 年最大

弱連通成份5.8453

53, 57, 61, 65, 72, 89

7, 8, 9, 10, 11, 16, 17, 20, 21, 22, 29, 33, 34, 40, 41, 42, 43, 48, 56, 63, 64, 71, 74, 75, 76, 79, 82, 85, 86, 87, 91, 92, 95,

97

1, 3, 4, 5, 6, 12, 13, 14, 15, 18, 19, 23, 24, 25, 26, 27, 28, 30, 31, 32, 36, 39, 44, 45, 46, 49, 50, 51, 55, 62, 67, 69, 70, 73, 77, 78, 96, 99

68

圖 7 單一領結結構

Page 20: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

480 December 2014

至於 2009年的最大弱連通成份,本研究以圖 5之演算法,依序進行以相鄰矩陣初始化的影響矩陣、弱化一個強連通成份的影響矩陣、以及弱化兩個強連通成份的影

響矩陣等三次特徵解構,分別找出三個大於 1的最大特徵值 lmax:6.2433、5.7899、以及 2.6705。以上三個最大特徵值即代表三個不同強連通成份的存在,而分別以這三強連通成份為中心的領結結構解析,則如表 7所示。另外,圖 8則分別繪製出以三個不同強連通成份為中心的領結結構,在各子圖中,節點的標示與圖 7的標示相同:圓形節點屬於強連通成份;正三角形節點屬於輸入成份;倒三角形節點屬於輸出成份;

菱形節點則屬於卷鬚成份。綜合以上,2009年的最大弱連通成份有以下三種不同的領結結構觀點:以第一次分析出的強連通成份 SCC1為中心,如圖 8(a)所示,可看出其領結結構的輸入成份與輸出成份中,分別各有一個強連通成份 SCC2與 SCC3;以

第二次分析的最大強連通成份 SCC2為中心,如圖 8(b)所示,可看出其領結結構的

表 7 遞迴領結結構之特徵分析結果

範例網絡 lmax IN SCC OUT Tendril

2009 年

最大

弱連通

成份

6.2433

9, 18, 21, 22, 32, 33, 35, 36, 37, 39, 40, 47, 50, 52, 57, 62, 65, 70, 71, 76, 84, 90, 92, 98, 99, 110, 122, 139, 172,

219, 240, 256, 419,

6, 11, 12, 13, 15, 16, 85,

89, 96, 102, 181

1, 3, 4, 10, 14, 19, 20, 23, 24, 25, 26, 27, 29, 30, 38, 43, 44, 46, 51, 54, 55, 56, 58, 59, 60, 61, 63, 64, 77, 82, 83, 87, 95, 106, 107, 114,

140, 171, 755

5, 7, 8, 17, 31, 34, 41, 42, 45, 49, 67, 69, 72, 73, 74, 75, 78, 79, 81, 93, 94, 100, 104, 105,

116, 128, 162, 184, 698

5.789921, 62, 65, 172, 240,

256

9, 18, 22, 32, 33, 35, 36, 37, 39, 40, 47, 50, 52, 57, 70, 71, 76, 84, 90, 92, 98,

99, 110, 122, 139, 219, 419

1, 3, 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 19, 20, 23, 24, 25, 26, 27, 29, 30, 38, 41, 42, 43, 44, 45, 46, 49, 51, 54, 55, 56, 58, 59, 60, 61, 63, 64, 72, 74, 75, 77, 78, 79, 81, 82, 83, 85, 87, 89, 94, 95, 96,

100, 102, 104, 105, 106, 107, 114, 128, 140, 162,

171, 181, 184, 755,

31, 34, 67, 69, 73, 93, 116, 698

2.6705

6, 9, 11, 12, 13, 15, 16, 18, 21, 22, 32, 33, 35, 36, 37, 39, 40, 47, 50, 52, 57, 62, 65, 70, 71, 76, 84, 85, 89, 90, 92, 96, 98, 99, 102, 110, 122, 139, 172, 181, 219, 240, 256, 419

3, 4, 10, 20, 25, 54, 59, 87, 95, 114,

140

14, 23, 24, 26, 27, 29, 30, 38, 43, 46, 51, 55, 56, 58, 60, 61, 63, 77, 82, 83, 106, 107, 171,

755

1, 5, 7, 8, 17, 19, 31, 34, 41, 42, 44, 45, 49, 64, 67, 69, 72, 73, 74, 75, 78, 79, 81, 93, 94,

100, 104, 105, 116, 128, 162, 184, 698

Page 21: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

481December 2014

輸出成份中,另有兩個強連通成份 SCC1與 SCC3;以第三次分析的最大強連通成份

SCC3為中心,如圖 8(c)所示,則可看出其領結結構的輸入成份中,另有兩個強連通成份 SCC1與 SCC2。

再仔細比對圖 8的所有子圖,可以發現強連通成份的節點數以第二次分析的結果為最多。因此若以圖 8(b)為主,依序配合圖 8(a)與圖 8(c)即可看出整體網絡的三層遞迴領結結構:首先,以第二次分析出的最大強連通成份 SCC2為中心(參見圖

8(b)),可看出其對應的輸出成份 OUT2中,仍包含兩個強連通成份 SCC1與 SCC3;

接著,在第二次分析出的輸出成份 OUT2中,以 SCC1為中心(參見圖 8(a)),可看出其對應的輸出成份 OUT1中,仍包含一個強連通成份 SCC3;最後,在第一次分析

出的輸出成份 OUT1中,以強連通成份 SCC3為中心(參見圖 8(c)),可再看出對應的領結結構。

(a) 以 SCC1為中心

(b) 以 SCC2為中心 (c) 以 SCC3為中心

圖 8 遞迴領結結構

Page 22: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

482 December 2014

4.3 討論

根據以上分析結果,本研究再檢視個別節點屬性,討論其中的社會意涵。Gould(2002)討論地位階層(Status Hierarchy)理論時,指出地位相近者之間通常有較頻繁的互動;地位差距較大者之間則存在著由地位較低者單方面地往地位較高者的趨

附(Attachment)關係。Kadushin(2012)探討社交網絡特性時,則指出互相的連結(Reciprocated links)通常存在於地位相近者之間;而地位差距較大者之間則存在著由地位較低者單方面地視地位較高者為朋友的社交攀升(Social Climbing)現象。而Ball and Newman(2013)則在中學生的友誼網絡中,實證發現互相的友誼連結大多存在於同年級學生之間;單向的友誼連結則多數由低年級學生單方面地視高年級學生

為朋友。至於本研究的領結分析結果中,則發現 2008年的前六大部落格,除了第二大部落格因資訊不公開被排除於網絡之外,排名 1, 3, 4, 5, 6等五個部落格均位於輸出成份,對應影響力較高的地位階層。而在 2009年的分析結果中,則可以發現 SCC1, SCC2, SCC3等三個強連通成份,均具有極高比率的互相連結,呼應地位階層理論,

並分別對應「圖文」、「資訊科技」、以及「美食與旅行」等三個部落格社群(盧

能彬,2013)。另外,由圖 8中這三個社群之間的單向連結:「資訊科技」至「圖文」、以及「圖文」至「美食與旅行」,本研究則以社交攀升現象,推論它們相對的

影響力:「美食與旅行」社群較高,「圖文」社群居中,「資訊科技」社群較低。然

而關於此推論的確切證據則仍有待進一步的研究與分析。

接著,本研究再彙整所有強連通成份之基本拓撲參數於表 8中,發現 2009年網絡的特徵分析中,強連通成份的解析順序是以最大特徵值為基準。若再參照方程式

(7)與 (8)則可清楚看出強連通成份的最大特徵值正比於節點特徵向量中心性與連結關係的乘積之和,而節點數與最大特徵值並非為線性關係。因此,若以本研究的遞迴

特徵分析演算法,探索遞迴領結結構時,最大強連通成份很可能因其最大特徵值 lmax

為最小,而最後才被解析出。若欲以節點數的多寡,依序解析出強連通成份,本研

究建議可先由相鄰矩陣計算出代表節點 i至節點 j之間是否存在可達路徑的遞移閉包(Transitive Closure)矩陣(Aho et al., 1972)。在一個遞移閉包矩陣中,代表強連通成份 n個節點之間可達性的 n (n-1)個元素均為 1,其最大特徵值 lmaxn-1。因此,若以遞移閉包矩陣為目標,執行本研究的遞迴特徵分析演算法,自然可以節點數的多

寡依序解析出強連通成份。

Page 23: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

483December 2014

表 8 強連通成份之基本拓撲參數

範例

網絡強連通成份

最大特徵值

lmax

節點數

v連結數

e

連結密度

d = ev v( )-1

聚合次團體

n-clique

2008年最大弱連通成份

SCC1 5.8453 34 131 0.1168 9-clique

2009年最大弱連通成份

SCC1 6.2433 11 66 0.6000 3-clique

SCC2 5.7899 27 111 0.1581 7-clique

SCC3 2.6705 11 25 0.2273 5-clique

另一方面,在強連通成份最大特徵值 lmax的判斷上,由方程式 (14)雖然可得知其範圍,但最大特徵值 lmax1時,卻無法確定強連通成份的存在:一個強連通成份的最大特徵值可能為 lmax1(參見圖 3(a));但本研究在 2008年網絡的第二次、以及 2009年網絡的第四次特徵分析雖均得到 lmax1,然而根據表 1分類後,並未發現強連通成份的存在。因此在 lmax1這個邊界狀況時,強連通成份的解讀必須謹慎處理。一般而言,在大型隨機網絡中,強連通成份以圖 3(a)型式出現的機率應該不高,所以可以考慮將圖 5演算法中最大特徵值 lmax的判斷,由 lmax>1簡化為lmax>1,避免最大特徵值 lmax1時的困擾。不過仔細再檢視上述最大特徵值 lmax1時的問題,本研究發現其應為特徵值的重根(Multiplicity)所導致:在 2008年網絡中,lmax1為二重根;2009年網絡中,lmax1為三重根。Bonacich(2007)探討特徵向量中心性的特性時,指出當相鄰矩陣的特徵值出現重根時,特徵向量中心性並無

法適當地解釋對應的同型成份(Isomorphic Component)。因此,本研究提出的演算法亦只適用於所有大於等於 1的特徵值均不為重根的狀況下:

l1 > l2 > l3 > ⋯ > lk-1 > lk ≥ 1 (17)

根據 Perron-Frobenius Theorem(Bapat and Raghavan, 1997),依特徵值由大至小,依序遞迴解析出可能的強連通成份以及對應的領結結構。至於特徵值重根時的網

絡解讀,則仍有待後續的研究與探討。

除了本研究探討的單一領結結構(Broder et al., 2000)與遞迴領結結構(Dill et al., 2002)之外,Doreian et al.(2000)另提出了對稱無循環(Symmetric-Acyclic)結構:每個 clique中的所有節點間均具有對稱的雙向連結,而各個 clique之間則存在單向的無循環連結。仔細對照遞迴領結結構與對稱無循環結構之間的異同,可發現對稱

無循環結構是以 clique為基礎,而遞迴領結結構則是以強連通成份為基礎。再根據強連通成份的定義,其所有節點間均存在有限長度的可達路徑,因此一個強連通成份亦

Page 24: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

484 December 2014

即為一個 n步之內均互相可達的 n-clique(參見方程式 (1))。綜合以上觀察,一個遞迴領結結構在節點之間的可達性上,亦可視為對稱無循環結構:每個 n-clique中的所有節點間均為 n步之內互相可達,而各個 n-clique之間則存在單向的可達關係。再根據聚合次團體的定義,當 n1時,一個 n-clique即為一個 clique。因此,利用本研究遞迴特徵分析演算法,先找出以 n-clique為基礎的對稱無循環的可達結構,然後再分析各個 n-clique內的 clique成份與組構,即可進一步解析出對稱無循環的連結結構。

為 分 析 對 稱 無 循 環 連 結 結 構,Doreian et al.(2000) 採 用 區 塊 模 式 化(Blockmodeling)方法(White et al., 1976; Doreian et al., 2005)。傳統區塊模式化若欲尋求最佳解則為 NP-hard問題,所以各種區塊模式化的演算法均是以多項式時間(Polynomial Time)解法尋求近似解。例如,常用的區塊模式化近似演算法CONCOR(CONvergence of iterated CORrelations)(Breiger et al., 1975),其時間複雜度即為 O (n3)。至於本研究遞迴特徵分析的計算時間複雜度方面,第一次特徵解構可得到 k個大於等於 1的特徵值,代表 k個強連通成份的可能存在,亦即最多必須再執行特徵解構 k-1次,而本研究所使用的社會網絡分析軟體 UCINET(Borgatti et al., 2002)中的特徵解構函式,其時間複雜度為 O (n3),所以整體時間複雜度為 O (k×n3)。以一般的隨機網絡而言,扣除最大強連通成份後,其他較小的強連通成份通常不多,所以整體強連通成份數 k可視為常數。因此,本研究遞迴特徵分析的時間複雜度仍可視為 O (n3)。然而,本研究各次特徵解構的結果均只採用最大特徵值與主要特徵向量進行網絡解讀,若改使用部份特徵解構(Partial Eigen Decomposition)(Richards and Seary, 2000),只計算最大特徵值與主要特徵向量,則本研究的時間複雜度可由 O (n3)再降低為 O (n2)。除了時間複雜度可以較區塊模式化為佳之外,本研究以強連通成份為基礎的確定解也較優於以 clique為基礎的區塊模式化近似解。

最後,除了遞迴領結結構分析之外,本研究亦可應用於大型網絡的遞移簡化

(Transitive Reduction)。Rajaraman et al.(2012)探討巨量資料探勘時,指出遞移簡化於大型網絡分析的重要性:根據遞移閉包矩陣計算的結果,可將強連通成份內的

節點合併為單一節點,藉以大量降低網絡的節點數,進而加速簡化後的網絡分析與結

構探索。本研究的遞迴演算法,以強連通成份的特徵分析為基礎,即可取代遞移閉包

矩陣中強連通成份的尋找,協助大型網絡的遞移簡化。另一方面,本研究的遞迴特徵

分析演算法亦可以遞移簡化的概念,依序將強連通成份內的所有節點合併,然後再以

簡化後的網絡進行遞迴特徵分析,繼續其他強連通成份的解析與所屬節點的合併。

Page 25: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

485December 2014

5. 結論

本研究以特徵分析探索有向網絡的拓撲結構,歸納出以相鄰矩陣之左右特徵向

量為基礎的領結結構節點分類規則,並提出遞迴領結結構的特徵分析演算法。在學術

意涵上,本研究以對應最大特徵值的強連通成份為基礎,配合相鄰矩陣特徵分析的遞

迴使用,釐清複雜的有向網絡結構,可為網絡分析相關研究之參考。在管理意涵上,

相關電子商務業者可以利用本研究所解析的遞迴領結結構,初步篩選高感染力的種子

顧客,依序擴大顧客關係網絡的專注範圍,進行社交顧客關係管理(Social CRM)(Baird and Parasnis, 2011)。在實務應用上,隨著社交商務(Social Commerce)於社交媒體與社交軟體中的快速發展,了解顧客如何由家人、朋友、專家、及社群等線

上網絡中,取得評論、意見、推薦、與證言將可進一步擴展社交商務的獲利空間。而

本研究分析出的遞迴領結結構即可為高感染力種子顧客篩選的初步參考。首先,從第

一層的遞迴領結結構中,瞭解輸入成份與輸出成份之間的單向網絡擴散與影響路徑:

由輸入成份、強連通成份、輸出成份順著連結方向依序正向擴散,或是由輸出成份、

強連通成份、輸入成份逆著連結方向反向逐步影響。接著,依次在各個成份之中,則

可再解析更小的領結結構,依序瞭解整體網絡的有效可達範圍,藉以選擇適當的病毒

式行銷起點(Leskovec et al., 2007; Goel et al., 2012)。本研究之遞迴特徵分析目前仍以強連通成份的解析為限,至於未來研究方向,

根據遞迴領結結構所對應的對稱無循環可達結構,可以分為兩大方向:對稱可達結構

部份,以及無循環可達結構部份。在對稱可達的強連通成份之內,可再進行其他各種

更緊密聚合次團體的特徵分析。Richards and Seary(2000)探討網絡的特徵分析時,指出可用以尋找聚合次團體的區塊模式化近似演算法 CONCOR即為以連結相似性(Connectedness Similarity)矩陣為目標的特徵分析,因此本研究認為連結相似性矩陣,應是未來其他各種更緊密聚合次團體特徵分析的參考基礎,另外由連結關係所衍

生的可達相似性(Reachability Similarity)矩陣也應是聚合次團體特徵分析的可能探索方向。至於在無循環可達的強連通成份之間,本研究則認為將所有強連通成份經遞

移簡化後,再將所得的無循環網絡進行特徵分析,則可探索整體網絡的資訊傳遞路徑

與影響擴散脈絡。而 Fortunato and Flammini(2007)探討 PageRank(Brin and Page, 1998)於有向樹狀結構的特例應用,則應是無循環網絡特徵分析的重要起點。最後,除了特徵分析的理論研究之外,關於遞迴領結結構的實證應用方面,則有待各種有向

網絡實證資料的持續蒐集以及更深入的分析與探討。

Page 26: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

486 December 2014

參考文獻

盧能彬(2013)。部落格空間之核心社群探索。電子商務學報,15(2),235-264。Adar, E., & Adamic, L. A. (2005). Tracking Information Epidemics in Blogspace. Proceed-

ings of the 2005 IEEE/WIC/ACM International Conference on Web Intelligence, Compiegne, France.

Aho, A. V., Garey, M. R., & Ullman, J. D. (1972). The transitive reduction of a directed graph. SIAM Journal on Computing, 1(2), 131-137.

Baird, C. H., & Parasnis, G. (2011). From social media to social CRM: What customers want. IBM Global Business Services Executive Report, GBE03391-USEN-00. New York: IBM.

Bakshy, E., Karrer, B., & Adamic, L. (2009). Social influence and the diffusion of user-created content. Proceedings of the 10th ACM Conference on Electronic Commerce, Stanford, California, USA.

Bakshy, E., Hofman, J., Mason, W., & Watts, D. (2011). Everyone’s an influencer: Quan-tifying influence on twitter. Proceedings of the fourth ACM International Conference on Web Search and Data Mining, Hong Kong, China.

Ball, B., & Newman, M. E. J. (2013). Friendship networks and social status. Network Science, 1(1), 16-30.

Bapat, R. B., & Raghavan, T. E. S. (1997). Nonnegative Matrices and Applications. New York: Cambridge University Press.

Bonacich, P. (1972). Factoring and weighting approaches to status scores and clique identification. The Journal of Mathematical Sociology, 2(1), 113-120.

Bonacich, P. (1987). Power and centrality: A family of measures. American Journal of Sociology, 92(5), 1170-1182.

Bonacich, P., & Lloyd, P. (2001). Eigenvector-like measures of centrality for asymmetric relations. Social Networks, 23(3), 191-201.

Bonacich, P. (2007). Some unique properties of eigenvector centrality. Social Networks, 29(4), 555-564.

Borgatti, S. P., Everett, M. G., & Freeman, L. C. (2002). Ucinet for Windows: Software for Social Network Analysis. Massachusetts: Analytic Technologies.

Borgatti, S. P., & Foster, P. C. (2003). The network paradigm in organizational research: A review and typology. Journal of Management, 29(6), 991-1013.

Borgatti, S. P., & Halgin, D. S. (2011). On network theory. Organization Science, 22(5),

Page 27: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

487December 2014

1168-1181.Breiger, R., Boorman, S., & Arabie, P. (1975). An algorithm for clustering relational data

with applications to social network analysis and comparison with multidimensional scaling. Journal of Mathematical Psychology, 12(3), 328-383.

Brin, S., & Page, L. (1998). The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems, 30(1), 107-117.

Broder, A., Kumar, R., Maghoul, F., Raghavan, P., Rajagopalan, S., Stata, R., Tomkins, A., & Wiener, J. (2000). Graph structure in the web. Computer Networks, 33(1-6), 309-320.

Chung, F. (1997). Spectral Graph Theory. Rhode Island: AMS Publications.de Nooy, W., Mrvar, A., & Batagelj, V. (2005). Exploratory Social Network Analysis with

Pajek. New York: Cambridge University Press.Dill, S., Kumar, R., McCurley, K. S., Rajagopalan, S., Sivakumar, D., & Tomkinst, A.

(2002). Self-similarity in the web. ACM Transactions on Internet Technology, 2(3), 205-223.

Domingos, P., & Richardson, M. (2001). Mining the network value of customers. Proceed-ings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, California, USA.

Domingos, P. (2005). Mining social networks for viral marketing. IEEE Intelligent Systems, 20(1), 80-82.

Donetti, L., & Munoz, M.A. (2004). Detecting network communities: A new systematic and efficient algorithm. Journal of Statistical Mechanics: Theory and Experiment, P10012.

Doreian, P., Batagelj, V., & Ferligoj, A. (2000). Symmetric-acyclic decompositions of networks. Journal of Classification, 17(1), 3-28.

Doreian, P., Batagelj, V., & Ferligoj, A. (2005). Generalized Blockmodeling. New York: Cambridge University Press.

Fortunato, S., & Flammini, A. (2007). Random walks on directed networks: The case of PageRank. International Journal of Bifurcation and Chaos, 17(7), 2343-2353.

Freeman, L. C. (1979). Centrality in social networks: Conceptual clarification. Social Networks, 1(3), 215-239.

Freeman, L. C. (2008). Going the wrong way on a one-way street: Centrality in physics and biology. Journal of Social Structure, 9(2). Retrieved October 3, 2014, from http://www.cmu.edu/joss/content/articles/volume9/Freeman/

Page 28: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

488 December 2014

Freeman, L. C. (2011). The development of social network analysis - With an emphasis on recent events. In Scott, J., & Carrington, P. J. (Eds.), The SAGE Handbook of Social Network Analysis (26-39). London: SAGE Publications.

Friedkin, N. E. (1991). Theoretical foundations for centrality measures. American Journal of Sociology, 96(6), 1478-1504.

Goel, S., Watts, D. J., & Goldstein, D. G. (2012). The structure of online diffusion net-works. Proceedings of the 13th ACM Conference on Electronic Commerce, Valencia, Spain.

Gould, R. V. (2002). The origins of status hierarchies: A formal theory and empirical test. American Journal of Sociology, 107(5), 1143-1178.

Hanneman, R., & Riddle, M. (2005). Introduction to Social Network Methods. California: University of California, Riverside.

Hogan, B. (2008). Analyzing social networks via the Internet. In Fielding, N., Lee, R. M., & Blank, G. (Eds.), The SAGE Handbook of Online Research Methods (141-161). London: SAGE Publications.

Holme, P., & Huss, M. (2005). Role-similarity based functional prediction in networked systems: Application to the yeast proteome. Journal of the Royal Society Interface, 2(4), 327-333.

Horn, R. A., & Johnson, C. R. (1985). Matrix Analysis, New York: Cambridge University Press.

Hubbell, C. (1965). An input-output approach to clique identification. Sociometry, 28(4), 377-399.

Kadushin, C. (2012). Understanding Social Networks: Theories, Concepts, and Findings. New York: Oxford University Press.

Kannan, R., & Vempala, S. (2008). Spectral algorithms. Foundations and Trends in Theoretical Computer Science, 4(3-4), 132-288.

Katz, L. (1953). A new status index derived from sociometric analysis. Psychometrika, 18(1), 39-43.

Leskovec, J., Adamic, L. A., & Huberman, B. A. (2007). The dynamics of viral marketing. ACM Transactions on the Web, 1(1), 1-39.

Metaxas, P. T. (2012). Why is the shape of the web a bowtie? Proceedings of the 21st International Conference on World Wide Web, Lyon, France.

Moody, J. (2001). Peer influence groups: Identifying dense clusters in large networks. Social Networks, 23(4), 261-283.

Page 29: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

電子商務學報 第十六卷 第四期

489December 2014

Newman, M. E. J. (2006). Finding community structure in networks using the eigenvectors of matrices. Physical Review E, 74(3), 036104.

Porter, M. A., Onnela, J. -P., & Mucha, P. J. (2009). Communities in networks. Notices of the AMS, 56(9), 1082-1166.

Ragnaven, U. N., Albert, R., & Kumara, S. (2007). Near linear time algorithm to detect community structures in large-scale networks. Physical Review E, 76(3), 036106.

Rajaraman, A., Leskovec, J., & Ullman, J. D. (2012). Mining of Massive Datasets. New York: Cambridge University Press.

Richards, W., & Seary, A. (2000). Eigen analysis of networks. Journal of Social Structure, 1(2), 1-17. Retrieved October 3, 2014, from http://www.cmu.edu/joss/content/articles/volume1/RichardsSeary.html

Richards, W., & Seary, A. (2003). Spectral methods for analyzing and visualizing networks: An introduction. In Breiger, B., Carley, K., & Pattison, P. (Eds.), Dynamic Social Network Modeling and Analysis: Workshop Summary and Papers (209-228). Washington, DC: The National Academies Press.

Sahni, S. (2001). Data Structures, Algorithms, and Applications in Java. New York: McGraw-Hill.

Spielman, D. (2012). Spectral graph theory. In Naumann, U. & Schenk, O. (Eds.), Combi-natorial Scientific Computing (495-524). Florida: CRC Press.

Sun, E., Rosenn, I., Marlow, C., & Lento, T. (2009). Gesundheit! Modeling contagion through facebook news feed. Third International AAAI Conference on Weblogs and Social Media, San Jose, California, USA.

Vitali, S., Glattfelder, J. B., & Battiston, S. (2011). The network of global corporate control. PLoS ONE, 6(10), e25995.

Wasserman, S., & Faust, K. (1994). Social Network Analysis: Methods and Applications. New York: Cambridge University Press.

Watts, D. J., & Peretti, J. (2007). Viral marketing for the real world. Harvard Business Review, 85(5), 22-23.

White, H. C., Boorman, S. A., & Breiger, R. L. (1976). Social structure from multiple networks: I. Blockmodels of roles and positions. American Journal of Sociology, 81(4), 730-780.

Wu, F., & Huberman, B. A. (2004). Finding communities in linear time: A physics ap-proach. The European Physical Journal B, 38(2), 331-338.

Zhang, J., Ackerman, M. S., & Adamic, L. (2007). Expertise networks in online communi-

Page 30: 應用特徵分析探索有向網絡之拓撲結構Applying Eigen Analysis to

應用特徵分析探索有向網絡之拓撲結構

490 December 2014

ties: Structure and algorithms. Proceeding of the 16th International Conference on World Wide Web, Banff, Alberta, Canada.