tori-lab_who proposed the relationship? — recovering the hidden directions of undirected social...
TRANSCRIPT
論文紹介Who Proposed the Relationship? — Recovering the Hidden Directions of Undirected Social Networks
5 月 30 日東京大学 工学系研究科tori-lab 輪読会
本論文について• Jun Zhang, Chaokun Wang, Jianmin Wang
• WWW2014
概要• 方向性の無いソーシャルネットワークにおいて、
4 つの仮説を元に ReDirect フレームワークを提案し、隠れた方向性を明らかにした• 本モデルが半教師あり学習や教師無し学習等様々な他のモデルと組み合わせる事を示した• 本手法が、従来の向きを考慮しないネットワーク構造の推定に比べ精度が高いことを示した
背景• ソーシャルネットワークの方向性は、直接観測できないことから考慮されない事が多い• しかし、ネットワーク構造や他のソーシャルデータマイニングを行う上で重要(リンク推定、商品のリコメンデーション、コミュニティ抽出 etc )
⇒ 無向ネットワークのパターンから有向 ネットワークを構築し、隠れた影響関係を 見たい
TDI ( Tie Direction Inference ) problem
• ソーシャルネットワークに興味深い方向性のパターンがあるのか• ネットワークのトポロジーのみを基に、ネットワークの各リンクの方向性を推定できるか• ラベル付きデータが構築できたとして、それを推定に役立てることができるか• 学習データを容易に作成できるか• 本結果をネットワークの分析やデータマイニングに活かす事が出来るか
データセット• 6 つの有向ネットワークを用意– Slashdot• IT 関連ニュースの電子掲示板。ユーザは互いを「友達」「敵」として登録できる。ユーザ数: 77,360 リンク数: 905,468 平均リンク数: 11.7
– Epinions• 一般消費者のレビューサイトで、誰を信用するかを登録できる。
ユーザ数: 75,879 リンク数: 508,837 平均リンク数: 6.7– Tencent• 中国で最大のブログサイト。ユーザ数: 1,330,850 リンク数: 5,064,496 平均リンク数:
3.8
データセット• 6 つの有向ネットワークを用意– Sina• 中国で二番目に大きいブログサイトユーザ数: 528,390 リンク数: 1,330,850 平均リンク数: 2.5
– LiveJournal• 日記、ブログ共有が主なコンテンツの SNS 。ユーザ数: 4,847,571 リンク数: 68,993,773 平均〃:
14.2– Twitter• 省略ユーザ数: 112,044 リンク数: 468,238 平均〃: 4.2
データセット• 4 つの無向ネットワークを用意– CondMat
• arXiv という論文保存のウェブサイトの中で、「 Condenced Matter = 固体物理」に分類される共著者ネットワークユーザ数: 27,348 リンク数: 72,119 平均リンク数: 2.5– HepEx
• 同上で「 High energy physics = 素粒子物理学」に分類される共著者ネットワークユーザ数: 5,667 リンク数: 60,425 平均リンク数: 10.7– Flickr
• カナダ発の写真共有の SNS 。ユーザ数: 1,846,198 リンク数: 22,613,981 平均〃: 12.2– Youtube
ユーザ数: 1,157,827 リンク数: 4,945,382 平均〃: 4.3
4 つの仮説( 1/4 )• 有向ネットワークの特徴を観察
4 つの仮説( 1/4 )①Degree consistency
あるリンクに方向がある場合、元ノードの 入次数は先ノードに比べて低く、出次数は 高い傾向にある
4 つの仮説( 2/4 )②Triad status consistency
方向性を持つリンクは、 ループを作る事を避ける傾向にある
4 つの仮説( 3/4 )③Similarity consistency
似ているノードは同じポジション( proposer or responder )をとりやすい
4 つの仮説( 4/4 )④Collaborative consistency
followers よりも followees と趣向が似ている下記の場合、 c,d は a,b よりも e,f と似ている
モデル化• 4 つの仮説を基に、 ReDirect フレームワークを構築する– 目的は、無向グラフを有向グラフとして再出力すること– 先の 4 つの仮説との「不一致度」を定義– その「不一致度」の総和を目的関数として
ReDirect フレームワークを構築する
①Degree Inconsistency
4 つの不一致度
ペナルティ関数、符号の一致を見る 入次数、出次数それぞれ follower, followee両方について合計する
Hi,j ... 無向⇒有向の隣接行列
②Triad status Inconsistency
③Similarity Inconsistency
4 つの不一致度
i, m, n … Triad の構成ノード
4 つの不一致度④Collaborative Inconsistency Di + … i が将来リンクを張るノードセット
Di - … i がリンクを張っていないノードセット … i が j にリンクを張ろうとするスコアを 与える予測関数
The ReDirect Framework
Matrix factorization-based Implementation
• 協調フィルタリングの一種–予測やリコメンデーションに役立つ
– P,Q は i の隠れた特徴を示した行列– 要素数 = ユーザ数 × 特徴数– ネットワークのトポロジーを表す
定義式の書き換え
定義式の書き換え
Matrix factorization-based Implementation
… j が proposer となり、リンクを形成する
… i と j が双方向的にリンクを形成する
教師あり学習へ• 有向ネットワークがある場合はそのデータを活用したい• 無向ネットワークの場合でも、単純なヒューリティクスでラベル付きデータを構築し、自己学習できるようにしたい
半教師あり学習• 損失関数
先ほどの目的関数と合わせて …
Self-Supervised ReDirect
• ラベル付きデータの取得は難しい– 先ほどの実データの観測で、方向性は元ノードと先ノードの入次数と出次数に相関がある事がわかった– しかし、次数も i と j で極端に違うと使えるのでは
Self-Supervised ReDirect
• Accuracy と Coverage 共に相関が強い⇒ 訓 練 デ ー タ の 構 築 に 応 用 可 能⇒ 下位 k%の deg(i) / deg(j) を用いる
実験による評価• 6 つのネットワークで評価– データスパースネス問題を考慮し、サブネットワークを構築– その際、隣接する全てのノードを含んでいるノードを egos と呼ぶ– 半教師学習での訓練データは 20%のみ用いる
実験による評価– Degree が Random に劣る場合もある– SF-ReDirect が常に US-ReDirect より優れている
実験による評価– egos のみを用いると性能は向上する
4 つの仮説の評価– degree が最も劣る⇒ 入次数、出次数の訓練データを推定しても あまり意味がない
4 つの仮説の評価• SM-ReDirect でも仮説の優劣関係はほとんど変わらない
効果的な学習• K (用いる学習データ数)を増やしていくと、ノイズが増え、モデルの性能が落ちてしまう
効果的な学習• egos を用いると、その性能の劣化がさらに著しい– これは、 egos が全隣接ノードを含むことで、ノイズの影響を受け易いためである
• 下記のように、用いる訓練データの母体数を大きくすれば性能はデータ数に応じて上昇する
リンク形成の予測• 4 つの一般的な手法を ReDirect によって改良①Common Friends– 共通の友人(隣接ノード)の数によってリンク形成を予測–隣接行列 H を用いた
リンク形成の予測②Jaccard 係数–隣接行列 H を用いた
③指数カーネル– カーネル法のカーネル関数に指数関数を用いた
④Matrix Factorization
リンク形成予測の評価• 5 つの有向グラフ、 3 つの無向グラフで比較• Area Under the ROC Curve で評価
リンク形成予測の評価– 元々の directed network が最も高い ⇒ 情報が失われている⇒ そもそも無向グラフへの適用が目的
リンク形成予測の評価– undirected より redirected の方が高い–条件によっては directed network よりも高い
リンク形成予測の評価• us-redirected が sf-redirected に勝る場合がある⇒ 学習データの質に依存するため
リンク形成予測の評価
まとめ• 方向性の無いソーシャルネットワークにおいて、
4 つの仮説を元に ReDirect フレームワークを提案し、隠れた方向性を明らかにした• 本モデルが半教師あり学習や教師無し学習等様々な他のモデルと組み合わせる事を示した• 本手法が、従来の向きを考慮しないネットワーク構造の推定に比べ精度が高いことを示した
今後の課題• 他の予測モデルと組み合わせた際の本モデルのパフォーマンスを評価したい• リコメンデーションやスパム検出等、様々なタスクを通じた評価も行いたい• 訓練データのラベリングについても、他のヒューリスティクスを検討したい