tori-lab_who proposed the relationship? — recovering the hidden directions of undirected social...

42
論論論論 Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks 5 月 30 月 月月月月 月月月月月月 tori-lab 月月月

Upload: kazuki-komura

Post on 15-Apr-2017

411 views

Category:

Engineering


4 download

TRANSCRIPT

Page 1: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

論文紹介Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

5 月 30 日東京大学 工学系研究科tori-lab 輪読会

Page 2: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

本論文について• Jun Zhang, Chaokun Wang, Jianmin Wang

• WWW2014

Page 3: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

概要• 方向性の無いソーシャルネットワークにおいて、

4 つの仮説を元に ReDirect フレームワークを提案し、隠れた方向性を明らかにした• 本モデルが半教師あり学習や教師無し学習等様々な他のモデルと組み合わせる事を示した• 本手法が、従来の向きを考慮しないネットワーク構造の推定に比べ精度が高いことを示した

Page 4: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

背景• ソーシャルネットワークの方向性は、直接観測できないことから考慮されない事が多い• しかし、ネットワーク構造や他のソーシャルデータマイニングを行う上で重要(リンク推定、商品のリコメンデーション、コミュニティ抽出 etc )

⇒ 無向ネットワークのパターンから有向   ネットワークを構築し、隠れた影響関係を   見たい

Page 5: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

TDI ( Tie Direction Inference ) problem

• ソーシャルネットワークに興味深い方向性のパターンがあるのか• ネットワークのトポロジーのみを基に、ネットワークの各リンクの方向性を推定できるか• ラベル付きデータが構築できたとして、それを推定に役立てることができるか• 学習データを容易に作成できるか• 本結果をネットワークの分析やデータマイニングに活かす事が出来るか

Page 6: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

データセット• 6 つの有向ネットワークを用意– Slashdot• IT 関連ニュースの電子掲示板。ユーザは互いを「友達」「敵」として登録できる。ユーザ数: 77,360  リンク数: 905,468  平均リンク数: 11.7

– Epinions• 一般消費者のレビューサイトで、誰を信用するかを登録できる。

ユーザ数: 75,879  リンク数: 508,837  平均リンク数: 6.7– Tencent• 中国で最大のブログサイト。ユーザ数: 1,330,850  リンク数: 5,064,496  平均リンク数:

3.8

Page 7: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

データセット• 6 つの有向ネットワークを用意– Sina• 中国で二番目に大きいブログサイトユーザ数: 528,390  リンク数: 1,330,850  平均リンク数: 2.5

– LiveJournal• 日記、ブログ共有が主なコンテンツの SNS 。ユーザ数: 4,847,571  リンク数: 68,993,773  平均〃:

14.2– Twitter• 省略ユーザ数: 112,044  リンク数: 468,238  平均〃: 4.2

Page 8: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

データセット• 4 つの無向ネットワークを用意– CondMat

• arXiv という論文保存のウェブサイトの中で、「 Condenced Matter  = 固体物理」に分類される共著者ネットワークユーザ数: 27,348  リンク数: 72,119  平均リンク数: 2.5– HepEx

• 同上で「 High energy physics  = 素粒子物理学」に分類される共著者ネットワークユーザ数: 5,667  リンク数: 60,425  平均リンク数: 10.7– Flickr

• カナダ発の写真共有の SNS 。ユーザ数: 1,846,198  リンク数: 22,613,981  平均〃: 12.2– Youtube

 ユーザ数: 1,157,827  リンク数: 4,945,382  平均〃: 4.3

Page 9: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

4 つの仮説( 1/4 )• 有向ネットワークの特徴を観察

Page 10: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

4 つの仮説( 1/4 )①Degree consistency

あるリンクに方向がある場合、元ノードの  入次数は先ノードに比べて低く、出次数は  高い傾向にある

Page 11: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

4 つの仮説( 2/4 )②Triad status consistency

方向性を持つリンクは、  ループを作る事を避ける傾向にある

Page 12: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

4 つの仮説( 3/4 )③Similarity consistency

似ているノードは同じポジション( proposer or    responder )をとりやすい

Page 13: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

4 つの仮説( 4/4 )④Collaborative consistency

followers よりも followees と趣向が似ている下記の場合、 c,d は a,b よりも e,f と似ている

Page 14: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

モデル化• 4 つの仮説を基に、 ReDirect フレームワークを構築する– 目的は、無向グラフを有向グラフとして再出力すること– 先の 4 つの仮説との「不一致度」を定義– その「不一致度」の総和を目的関数として

ReDirect フレームワークを構築する

Page 15: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

①Degree Inconsistency

4 つの不一致度

ペナルティ関数、符号の一致を見る 入次数、出次数それぞれ follower, followee両方について合計する

Hi,j ... 無向⇒有向の隣接行列

Page 16: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

②Triad status Inconsistency

③Similarity Inconsistency

4 つの不一致度

i, m, n … Triad の構成ノード

Page 17: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

4 つの不一致度④Collaborative Inconsistency  Di + … i が将来リンクを張るノードセット

  Di - … i がリンクを張っていないノードセット      …  i が j にリンクを張ろうとするスコアを 与える予測関数

Page 18: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

The ReDirect Framework

Page 19: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

Matrix factorization-based Implementation

• 協調フィルタリングの一種–予測やリコメンデーションに役立つ

– P,Q は i の隠れた特徴を示した行列– 要素数 = ユーザ数 × 特徴数– ネットワークのトポロジーを表す

Page 20: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

定義式の書き換え

Page 21: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

定義式の書き換え

Page 22: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

Matrix factorization-based Implementation

… j が proposer となり、リンクを形成する

… i と j が双方向的にリンクを形成する

Page 23: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

教師あり学習へ• 有向ネットワークがある場合はそのデータを活用したい• 無向ネットワークの場合でも、単純なヒューリティクスでラベル付きデータを構築し、自己学習できるようにしたい

Page 24: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

半教師あり学習• 損失関数

先ほどの目的関数と合わせて …

Page 25: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

Self-Supervised ReDirect

• ラベル付きデータの取得は難しい– 先ほどの実データの観測で、方向性は元ノードと先ノードの入次数と出次数に相関がある事がわかった– しかし、次数も i と j で極端に違うと使えるのでは

Page 26: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

Self-Supervised ReDirect

• Accuracy と Coverage 共に相関が強い⇒   訓 練 デ ー タ の 構 築 に 応 用 可 能⇒ 下位 k%の deg(i) / deg(j) を用いる

Page 27: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

実験による評価• 6 つのネットワークで評価– データスパースネス問題を考慮し、サブネットワークを構築– その際、隣接する全てのノードを含んでいるノードを egos と呼ぶ– 半教師学習での訓練データは 20%のみ用いる

Page 28: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

実験による評価– Degree が Random に劣る場合もある– SF-ReDirect が常に US-ReDirect より優れている

Page 29: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

実験による評価– egos のみを用いると性能は向上する

Page 30: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

4 つの仮説の評価– degree が最も劣る⇒ 入次数、出次数の訓練データを推定しても   あまり意味がない

Page 31: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

4 つの仮説の評価• SM-ReDirect でも仮説の優劣関係はほとんど変わらない

Page 32: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

効果的な学習• K (用いる学習データ数)を増やしていくと、ノイズが増え、モデルの性能が落ちてしまう

Page 33: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

効果的な学習• egos を用いると、その性能の劣化がさらに著しい– これは、 egos が全隣接ノードを含むことで、ノイズの影響を受け易いためである

• 下記のように、用いる訓練データの母体数を大きくすれば性能はデータ数に応じて上昇する

Page 34: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

リンク形成の予測• 4 つの一般的な手法を ReDirect によって改良①Common Friends– 共通の友人(隣接ノード)の数によってリンク形成を予測–隣接行列 H を用いた

Page 35: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

リンク形成の予測②Jaccard 係数–隣接行列 H を用いた

③指数カーネル– カーネル法のカーネル関数に指数関数を用いた

④Matrix Factorization

Page 36: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

リンク形成予測の評価• 5 つの有向グラフ、 3 つの無向グラフで比較• Area Under the ROC Curve で評価

Page 37: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

リンク形成予測の評価– 元々の directed network が最も高い  ⇒ 情報が失われている⇒  そもそも無向グラフへの適用が目的

Page 38: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

リンク形成予測の評価– undirected より redirected の方が高い–条件によっては directed network よりも高い

Page 39: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

リンク形成予測の評価• us-redirected が sf-redirected に勝る場合がある⇒  学習データの質に依存するため

Page 40: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

リンク形成予測の評価

Page 41: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

まとめ• 方向性の無いソーシャルネットワークにおいて、

4 つの仮説を元に ReDirect フレームワークを提案し、隠れた方向性を明らかにした• 本モデルが半教師あり学習や教師無し学習等様々な他のモデルと組み合わせる事を示した• 本手法が、従来の向きを考慮しないネットワーク構造の推定に比べ精度が高いことを示した

Page 42: tori-lab_Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks

今後の課題• 他の予測モデルと組み合わせた際の本モデルのパフォーマンスを評価したい• リコメンデーションやスパム検出等、様々なタスクを通じた評価も行いたい• 訓練データのラベリングについても、他のヒューリスティクスを検討したい