fast shortest path distance estimation in large networks

32
Fast Shortest Path Distance Estimation in Large Networks Michalis Potamias, Francesco Bonchi, Carlos Castillo, and Aristides Gionis 発発 : 発発 発発 ( 発発発発発発発発発発 M1) 2011/10/24 Web 発発

Upload: jaime-tyler

Post on 31-Dec-2015

34 views

Category:

Documents


1 download

DESCRIPTION

2011/10/24 Web 工学. Fast Shortest Path Distance Estimation in Large Networks. Michalis Potamias , Francesco Bonchi , Carlos Castillo, and Aristides Gionis 発表 : 秋葉 拓哉 ( コンピュータ科学専攻 M1). どんな論文?. 最短 路クエリのアルゴリズムと実験 チーム: 主著者はボストン大学 他 3 名は Yahoo! Research ( Barcelona, Spain) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Fast Shortest Path Distance Estimation in Large Networks

Fast Shortest Path DistanceEstimation in Large Networks

Michalis Potamias, Francesco Bonchi,Carlos Castillo, and Aristides Gionis

発表 : 秋葉 拓哉 ( コンピュータ科学専攻 M1)

2011/10/24   Web 工学

Page 2: Fast Shortest Path Distance Estimation in Large Networks

どんな論文?

• 最短路クエリのアルゴリズムと実験

• チーム:– 主著者はボストン大学– 他 3 名は Yahoo! Research (Barcelona, Spain)– 主著者がインターンした際の成果

• CIKM 2009 の Student Best Paper– ちなみに同会議の Best Paper も Yahoo! Research– 現在 CIKM 2011 開催中 (Glasgow)

Page 3: Fast Shortest Path Distance Estimation in Large Networks

話の流れ

1. 最短路クエリ問題とは?

2. ランドマークを用いた最短距離の推定

3. ランドマーク選択の手法の検討

4. 実験結果

Page 4: Fast Shortest Path Distance Estimation in Large Networks

最短路クエリ問題とは?

Page 5: Fast Shortest Path Distance Estimation in Large Networks

Social Search

Page 6: Fast Shortest Path Distance Estimation in Large Networks

Social Search

Page 7: Fast Shortest Path Distance Estimation in Large Networks

Context-Aware Search

「木」を検索

Page 8: Fast Shortest Path Distance Estimation in Large Networks

「木」を検索

Context-Aware Search

Page 9: Fast Shortest Path Distance Estimation in Large Networks

これらの応用におけるグラフ・最短距離

• Social Search– Social Network: 人を頂点,枝を友人関係

• Context-Aware Search– Web Graph: ページを頂点,枝をリンク

これらのグラフ上での最短距離を結果のランキングの指標に使う

Page 10: Fast Shortest Path Distance Estimation in Large Networks

最短経路問題のその他の需要

10

経路設計道 乗り換え案内・

データマイニング

[WF94, Sco06]

情報検索・データベース[HWYY07, TWRC09]

生物情報学[RAS+05, RS06]

コンピュータネットワーク

[BLM+06, PS06]

その他 ...XML, オントロジー , ...

基礎的な問題 → 需要も幅広い

Page 11: Fast Shortest Path Distance Estimation in Large Networks

最短距離を知りたいけど…

• 幅優先探索:  ( : 辺の本数 )

• 世の中のグラフはとても大きい

• 毎回幅優先探索するのは遅すぎる

Twitter のユーザ数 人

Facebook のユーザ数 人

Google の持つページ数 ページ( 多分ちょっと古いデータ )

Page 12: Fast Shortest Path Distance Estimation in Large Networks

最短経路クエリ処理

1. 前処理

2. クエリ処理

「本郷から駒場」

「中野から秋葉原」

「札幌から那覇」

「 30 分です」

「 20 分です」

「 7 時間です」

前計算データ

Page 13: Fast Shortest Path Distance Estimation in Large Networks

最短経路クエリ処理

1. 前処理

2. クエリ処理

「本郷から駒場」

「中野から秋葉原」

「札幌から那覇」

「 30 分です」

「 20 分です」

「 7 時間です」

前計算データ

活用

Page 14: Fast Shortest Path Distance Estimation in Large Networks

ランドマークを用いた最短距離の推定

Page 15: Fast Shortest Path Distance Estimation in Large Networks

三角不等式

• グラフ 上での の最短距離

• ★

( は任意の頂点 )

Page 16: Fast Shortest Path Distance Estimation in Large Networks

上界による最短距離推定( 単一ランドマーク )

• ★これをそのまま使う

1. 前処理– 頂点 を 1 つ選ぶ(ランドマーク)– , を全頂点に対し前計算しておく

( 幅優先探索 )

2. クエリ処理

u

s t

Page 17: Fast Shortest Path Distance Estimation in Large Networks

上界による最短距離推定( 複数ランドマーク )

ランドマークを単一 () から複数 () にしよう

• ★複数頂点に使う

1. 前処理– 一定数の頂点集合を決める(ランドマーク)– 各 に対し , を全長点に対し前計算 (BFS)

2. クエリ処理}

s t

Page 18: Fast Shortest Path Distance Estimation in Large Networks

ランドマーク選択の手法

Page 19: Fast Shortest Path Distance Estimation in Large Networks

ランドマークの選択

• 個のランドマークを選びましょう– は 20 とか 100 とか 300 とか

• ベースライン : ランダムな選択– [Tang+, SIGCOMM’03], [Kleinberg+, FOCS’04], [Vieira+, CIKM’07]

• 本論文の Key Insight:–ランダムより良いヒューリスティクスがある

のでは?

Page 20: Fast Shortest Path Distance Estimation in Large Networks

アイディア

• 多くの最短路が通る点がよさそう

• グラフの中央っぽい点がよさそう

グラフ グラフ

良い例 嫌な例

Page 21: Fast Shortest Path Distance Estimation in Large Networks

Basic Strategies

• Degree Strategy– 次数の高いものから選ぶ

• Centrality Strategy– Closeness Centrality の小さいものから選ぶ

頂点の Closeness Centrality とは?

つまり,全長点への距離の平均.小さいものほど `` 中央’’ に近いと考える.実際には,ランダムサンプルにより近似して計算.

Page 22: Fast Shortest Path Distance Estimation in Large Networks

Constrained Strategies

• アイディア–近いところに一杯あっても無駄

• Degree/ Strategy–既に選んだ頂点から距離は選択禁止

• Centrality/ Strategy

Page 23: Fast Shortest Path Distance Estimation in Large Networks

Partitioning-Based Strategies

• アイディア– 色々なところに散らばっているとよさそう

• Graph Partitioning を使おう

Graph Partitioning とは?

1. グラフ を 個の近いサイズの成分に分解2. 違う成分間の辺数を最小化

NP-困難であり,ヒューリスティクスがよく研究されている(10th DIMACS Implementation Challenge 開催中 )

Page 24: Fast Shortest Path Distance Estimation in Large Networks

Partitioning-Based Strategies

• Degree/P– 各分割で次数最高の点

• Centrality/P– 各分割で Closeness Centrality 最高の点

• Border/P– 各分割で以下を最大化する点 (≒縁に近い点 )

Page 25: Fast Shortest Path Distance Estimation in Large Networks

評価実験

Page 26: Fast Shortest Path Distance Estimation in Large Networks

データセット

Table 1

Page 27: Fast Shortest Path Distance Estimation in Large Networks

近似精度 (相対誤差 )

Table 2

Page 28: Fast Shortest Path Distance Estimation in Large Networks

近似精度 (相対誤差 )

Figure 3

Page 29: Fast Shortest Path Distance Estimation in Large Networks

厳密手法とのクエリ時間の比較

Table 5

Page 30: Fast Shortest Path Distance Estimation in Large Networks

Social Search での精度

Figure 5

Page 31: Fast Shortest Path Distance Estimation in Large Networks

まとめ

• 話したこと– 最短経路クエリ問題とは– ランドマークを用いた最短経路の推定– ランドマークを選択の戦略– 実験結果

• 話さなかったこと– ランドマーク選択の NP-困難性– 下界による推定,上界と下界を同時に用いた推定

( うまくいかない )

Page 32: Fast Shortest Path Distance Estimation in Large Networks

Related Work( 本論文の後の文献を含む )

• 交通ネットワークでの最短路クエリ– より構造が活用しやすいため多くの手法あり– ALT (A* + landmarks), Reach, Hierarchical, …

• 厳密最短路クエリ– ALT– 2-HOP [Cohen+, SODA’02] [Cheng+, EDBT’09]– 対称性 [Xiao+, EDBT’09]– 木分解 [Wei, SIGMOD’10]

• 近似最短路クエリ– NSI [Rattigan+, SIGKDD’06]– Landmark [Potamias+, CIKM’09 ( 本論文 )]– Distance-Sketch [Das Sarma+, WSDM’10]– Path-Sketch [Gubichev+, CIKM’10]

• 到達可能性クエリ