the bursty dynamics of the twitter information network

41
The Bursty Dynamics of the Twitter Information Network D1 臼井翔平 第一回とりらぼ輪読会 2014/5/31 Seth Myers Jure Leskovec Stanford University

Upload: shohei-usui

Post on 11-Jul-2015

368 views

Category:

Social Media


3 download

TRANSCRIPT

Page 1: The bursty dynamics of the twitter information network

The Bursty Dynamics of the

Twitter Information Network

D1 臼井翔平

第一回とりらぼ輪読会 2014/5/31

Seth Myers Jure Leskovec

Stanford University

Page 2: The bursty dynamics of the twitter information network

Abstruct

• Tweet,Retweet burstがネットワーク構造を変える事がある

このネットワーク構造の変化はどんなものか

ネットワークの変化を起こすバーストはどんなものか

• Retweetが引き起こすネットワーク構造変化をモデル化

Page 3: The bursty dynamics of the twitter information network

Background

• ネットワークのダイナミクスは理解されていない

リンクの生成と削除

• 2つのダイナミクスに着目

情報共有のダイナミクス

ネットワークの進化

Page 4: The bursty dynamics of the twitter information network

目的

• 情報共有がネットワーク構造の変化をもたらすか

• ネットワーク上での情報拡散の理解

burstの分析

Page 5: The bursty dynamics of the twitter information network

Present work

• Information causes bursts in network

evolution

• Bursts of edge creations and deletions

• Modeling and predicting bursts

Page 6: The bursty dynamics of the twitter information network

Present work

• Information causes bursts in network

evolution

• Bursts of edge creations and deletions

• Modeling and predicting bursts

Page 7: The bursty dynamics of the twitter information network

Twitterのダイナミクス

• Followリンクの追加と削除

• 2011年11月のfollowerネットワークを収集

13,100,000ノード

1,700,000,000リンク

• 112,300,000リンクの追加(7%)

• 39,200,000リンクの削除(2.3%)

Page 8: The bursty dynamics of the twitter information network

Twitterのダイナミクス

• 9%のリンクが変化している

• 3リンク追加される毎に1リンク削除

高いダイナミクス

成長するだけのネットワークではない

Page 9: The bursty dynamics of the twitter information network

Twitterの情報共有

• 1,200,000,000ツイート

• 116,300,000リツイート

• TweetとRetweetがfollowerネットワークに影響を与える?

Page 10: The bursty dynamics of the twitter information network

入次数との関係

入次数との関係がある

Page 11: The bursty dynamics of the twitter information network

Retweetとnew Follow

• 入次数1000から2000のノード

Retweetが多い程new followerが多い

Page 12: The bursty dynamics of the twitter information network

Tweet数とfollowの削除

• 入次数1000から2000のノード

tweetが多すぎるとfollowが減る

Page 13: The bursty dynamics of the twitter information network

ユーザアクティビティとfollow

• 入次数が多いノードに関して関係あり?

Retweetとfollow

Tweetとunfollow

• 本当に関係があるかはわからない

時系列でみてみる

Page 14: The bursty dynamics of the twitter information network

時系列での比較

• ユーザA(𝑑𝑖𝑛 = 266,842)

Retweetが増加した後followが増加

Page 15: The bursty dynamics of the twitter information network

時系列での比較

• ユーザA(𝑑𝑖𝑛 = 218,045)

Retweetが増加してもfollowは増加しない

Page 16: The bursty dynamics of the twitter information network

時系列での比較

• ユーザA(𝑑𝑖𝑛 = 112,988)

Retweetがなくてもfollowは増減

Page 17: The bursty dynamics of the twitter information network

時系列での比較

• Retweetが増加した後にfollowが増加する事がある

• Retweetが増加した後常にfollowが増加するわけではない

• Retweetがなくてもfollowの増減はある

どんなRetweetがfollowは増加につながる?

変化後のネットワークの構造は?

Page 18: The bursty dynamics of the twitter information network

Present work

• Information causes bursts in network

evolution

• Bursts of edge creations and deletions

• Modeling and predicting bursts

Page 19: The bursty dynamics of the twitter information network

ノードのego-network

• あるノードをfollowしているノードのネットワーク

• Follow(Unfollow)バーストの前後でego-

networkが変化する?

Page 20: The bursty dynamics of the twitter information network

Tweet similarity

• 2ノード間のtweet similarityをTF-IDFで定義

• 𝑡𝑓𝑖𝑑𝑓 = 𝑡𝑓 ∙ 𝑖𝑑𝑓

𝑡𝑓:単語の出現頻度

𝑖𝑑𝑓:逆文書頻度

Page 21: The bursty dynamics of the twitter information network

Follower Tweet Similarity

• Tweet元ノードとfollowerのtweet similarity

Tweet-unfollow retweet-follow

Page 22: The bursty dynamics of the twitter information network

Follower Tweet Coherence

• Tweet元ノードのfollower間のtweet similarity

Tweet-unfollow retweet-follow

Page 23: The bursty dynamics of the twitter information network

ノード間類似度

• Follow, unfollow burst発生後

Retweet及びtweet元とfollowユーザの類似度が増加

Followユーザ間の類似度も増加

Ego-network全体の類似度が増加

Page 24: The bursty dynamics of the twitter information network

Weakly connected components

• Ego-networkのコンポーネントの比

Tweet-unfollow retweet-follow

Page 25: The bursty dynamics of the twitter information network

Edge density

• Ego-networkのリンク密度

Tweet-unfollow retweet-follow

Page 26: The bursty dynamics of the twitter information network

ネットワークの性質

• Follow, unfollow burst発生後

• コンポーネント数の増加

新しいコミュニティからの参入が予想される

• リンク密度の増加

Followerがお互いにfollowし合う

これが類似度の上昇になっている

Page 27: The bursty dynamics of the twitter information network

Follow burstを引き起こすtweet

• どのような場合にfollow burstが起きる?

• トークン:10回以上使われた単語

• 全てのトークンがretweet burstに含まれるが,全てがfollow burstを引き起こしてない

• あるトークン𝑡𝑜𝑘𝑖がfollow burstを引き起こす確率

Page 28: The bursty dynamics of the twitter information network

事例

• “Occupy Wall Street”

movement

収入不平等に対する活動

• 少なくとも16個のトークンが活動に関わっている

Page 29: The bursty dynamics of the twitter information network

事例

• “officer”を含むtweetはかなりfollowバーストをおこしやすい

• Followバーストを起こしやすいtokenが存在する

Page 30: The bursty dynamics of the twitter information network

Present work

• Information causes bursts in network

evolution

• Bursts of edge creations and deletions

• Modeling and predicting bursts

Page 31: The bursty dynamics of the twitter information network

Followバーストのモデリング

• Retweet burstの元tweetからfollow burstが起きるかどうかを予測する

• 2-hop neighborhoodだけを考える

Followの追加先の平均パス長は2.036

Page 32: The bursty dynamics of the twitter information network

followバーストのアイディア

• より興味の近いノードを発見する事で起きる

Follow burst後に類似度が上がる

• 普段retweetしないノードがretweetすると発生

普段目に届かない

Page 33: The bursty dynamics of the twitter information network

Tweet similarityのモデル化

• いくつかのユーザのtweet similarityの分布

おおむね正規分布

Page 34: The bursty dynamics of the twitter information network

Tweet similarityのモデル化

• 𝑌𝑖𝑗:iのfollowerの類似度の平均と比べたjの

類似度

• 𝑆 𝑖, 𝑗 :iとjの類似度

Page 35: The bursty dynamics of the twitter information network

Follow確率

• 𝑃𝑗,𝑖 = 𝑃 𝑗 𝑓𝑜𝑙𝑙𝑜𝑤 𝑖 𝑌𝑖𝑗)

≡ 𝐶 ∙ exp 𝛼 ∙ 𝑌𝑖𝑗

= 𝐶 ∙ exp𝛼

𝜎𝑖∙ 𝑙𝑛 𝑆 𝑖, 𝑗 − 𝜇𝑖

= 𝐶 ∙exp(𝑙𝑛 𝑆 𝑖, 𝑗 )

exp(𝜇𝑖)

𝛼𝜎𝑗

= 𝐶 ∙𝑆(𝑖, 𝑗)

exp(𝜇𝑖)

𝛼𝜎𝑗

Page 36: The bursty dynamics of the twitter information network

Cと𝛼の最適化

• 実データとフィッティング

Page 37: The bursty dynamics of the twitter information network

Follow burstの確率

• 新規followの期待値: 𝑗∈𝑁2(𝑖) 𝑃𝑗,𝑖

• Follow burstはそれまで知らなかったノードをretweetによって知る

𝑁𝑅𝑇(𝑖, [𝑡, 𝑡 + ∆𝑡)):区間[𝑡, 𝑡 + ∆𝑡)の間にfollowしている誰かがiのtweetをretweetしたノード集合

Page 38: The bursty dynamics of the twitter information network

実験

• Retweetバーストデータ:400,000

内21%がfollowバースト

• followバースト確率を使ってランク付け

• Precision-recall曲線のAUCで評価

Page 39: The bursty dynamics of the twitter information network

結果

既存手法より優れている

Page 40: The bursty dynamics of the twitter information network

まとめ

• Retweetとfollowの関係を分析

retweetバーストが起こると,followバーストが起こる事がある

• Followバースト後のネットワークの特性を分析

Followバースト後にはユーザの類似度が増加

• Followバーストのモデル化

Retweetからfollowバーストの発生を高精度で推定

Page 41: The bursty dynamics of the twitter information network

意見

• Follow burstを起こしやすいtokenがある

うん・・・

どういうtokenがburstしやすいっていうのは言えるんだろうか・・・ってか言ってどうするんだろう・・

• このモデルは一体何につかうんだろうか・・・

Retweetに対して広がった結果を使ってるから予測は無理

シミュレーションとかに使うってことなのかなぁ..