複雑ネットワーク勉強会 第2章ネットワークの特徴量(後半) 20120215
TRANSCRIPT
第2章 ネットワークの特徴量(後半)『複雑ネットワーク - 基礎から応⽤用まで』増⽥田直紀, 今野紀雄
複雑ネットワーク勉強会15th of February, 2012
@millionsmile
Special thanks to @komiya_atsushi
コミュニティの定義• コミュニティとは、同じネットワーク内に、枝が密な塊と、異なる塊との間には枝があまりないような状態のとき、その塊のことを指す。下記図でいう点線内の塊をコミュニティといういう。
• コミュニティは、モジュール、グループ、クラスター、コンパートメントなどとも呼ばれる。クラスターはクラスター係数と紛らわしいので使わない⽅方がよい。
• コミュニティ構造を持つネットワークについては、以下の論⽂文が詳しい。ざっとみたが、300ページにも及ぶ⼤大作。”Complex networks: Structure and dynamics”http://oldweb.ct.infn.it/̃latora/report_06.pdf
コミュニティ検出問題• ネットワークをどのようにコミュニティに分割するかが重要で、これをコミュニティ検出問題という。この問題の難しさとして、たいていはよい分割⽅方法がわからない、分割の答えが⼀一意ではない、コミュニティの⼤大きさが違うなどがある。(P.38)
• ネットワークをコミュニティに分割したい理由としては、頂点を類別できる、コミュニティから意味づけを持たせることができる、ネットワークを粗視化できるなどなど。(P.38-39)
以下、有名な空⼿手クラブのネットワークをgephiで描いたもの。
コミュニティ検出⽅方法• divisive algorithmで分割する⽅方法(トップダウン型)→代表的なものに、ギルバンとニューマンのコミュニティ検出⽅方法
• agglomerative algorithmで分割する⽅方法(ボトムアップ型)→代表的なものに、ニューマンのコミュニティ検出⽅方法
ここから先の説明は、@komiya_atsushiさんがTokyoWebminingで発表した資料が⾮非常によくま
とまっているのでそちらを参照
Newman アルゴリズムによるソーシャルグラフのクラスタリングhttp://www.slideshare.net/komiyaatsushi/newman-6670300
コミュニティ検出⽅方法補⾜足• Modularity Qの計算式で、以下2つは同じ【@komiya_atsushiさんの資料】
【⾚赤い本の(2.54)】
• ΔQの計算式で、以下2つは同じ【@komiya_atsushiさんの資料】
【⾚赤い本の(2.56)】
Q =NCM�
c=1
[CMc内の 2点をつなぐ枝数
M− (
�Ni=1;vi∈CMc
ki
2M)2]
Q =(�N
i=1;vi∈CM1ki)× (
�Ni=1;vi∈CM2
ki)2M2
その他のコミュニティ検出⽅方法• コミュニティ検出⽅方法は様々。⾚赤い本では、統計物理学のスピン系モデルに基づく⽅方法を紹介している。
• Qとは関係ない⽅方法も含め、様々なコミュニティ検出⽅方法があり、プログラミングや実データに関する情報も含めて以下の論⽂文が詳しいらしい。興味のある⼈人は読んでみるとよいかも。Santo Fortunato, “Community detection in graphs”http://arxiv.org/abs/0906.0612
• あとは機械学習的なアプローチに興味がある⼈人は、坪坂さんの修論もよいかも。読みたい場合は、坪坂さんに直接交渉してください。坪坂正志『ネットワークのコミュニティ構造を抽出するベイズ推論アルゴリズムの研究』
モチーフ• モチーフとは、そのネットワークに含まれやすい⼩小さいネットワーク(パターン)の種類のこと。P.49の図2.17参照。どのパターンがモチーフになるかは、ネットワークの種類にかなり依存する。⾷食物網は(A)の2、神経回路は(A)の5など
• モチーフの有無を結論するためには、そのパターンがネットワークに多いかどうかを調べる必要がある。例えば、パターンi(有向グラフにおいてパターンは1≦i≦13)がNm個あるとする。つなぎかえたネットワークを1個つくり、その中にパターンiが個あるとする。Nmが よりも⼗十分に⼤大きければ、パターンiはこのネットワークのモチーフであると判断する。
Zmが⼤大きければ、次数分布は同⼀一の平均的なネットワークと⽐比べて、そのパターンを有意に多く持つ。パターンiはそのネットワークのモチーフである。
Nrandm
Nrandm
Zm =Nm− < Nrand
m >
σrandNm
σrandNm
< Nrandm > ・・・つなぎかえたパターンiの数の平均
・・・標準偏差