detecting spam in a twitter network ( 과제 세미나 ) 2012.5.11

13
Detecting spam in a Twitter network ( 과과 과과과 ) 2012.5.11 과과과과 과과과 과과 23 과 과과과

Upload: nathan

Post on 04-Feb-2016

32 views

Category:

Documents


0 download

DESCRIPTION

Detecting spam in a Twitter network ( 과제 세미나 ) 2012.5.11. 정보보증 연구실 석사 23 기 윤수 진. 목차. 기존 연구. 실험 설계. 결 과. 결론 – 과제와의 연관. 기존 연구. E-mail 에서의 spam 탐지 ( Feamster , 2008) message 검사 , IP 검사를 통해 IP-based blacklist ( Ramachandran , 2007) Behavioral blacklisting - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

Detecting spamin a Twitter network

( 과제 세미나 ) 2012.5.11

정보보증 연구실 석사 23 기

윤수진

Page 2: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

목차

기존 연구

실험 설계

결과

결론 – 과제와의 연관

Page 3: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

기존 연구• E-mail 에서의 spam 탐지– (Feamster, 2008) message 검사 , IP

검사를 통해 IP-based blacklist– (Ramachandran, 2007) Behavioral black-

listing– (Famster, 2008) Spatial, temporal traffic

pattern

Page 4: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

가정• High following to friend ratios• Retweet and change legitimate links

to illegitimate ones• Temporal patterns

• 측정– Age, frequency of tweets, ratio of friend-

follower, clustered, location on network structure

Page 5: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

실험설계• #robotpickuplines 안에서 4 일동안

올라오는 tweet 을 data set 으로 함– Hashtag : 트윗 내에 # 키워드 식으로

적어서 해당 트윗에 태그를 붙이는 방식 . 해당 hashtag 에 들어가면 태그가 된 트윗들을 전부 볼 수 있다

Page 6: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

실험• Hashtag lifecycle – 24 시간• 17,803 트윗 , 8,616 사용자• External URL– URL shortener 로 알아보기 힘듦

• Spammer 특징–이질적인 hashtag 가 많음– ID 형식이 letter+number–외설적 키워드

Page 7: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

실험• Algorithm based..– Searches for URLs– Username pattern matches– Keyword detection

• 300 개의 트윗을 임의로 뽑아한 결과– 27 개의 spam 을 놓침– 12 개의 정상 트윗을 spam 으로 판정– 91% spam 을 찾아냄

Page 8: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

실험 중 발견• Hashtag 내 시간에 따른 트윗 갯수

Page 9: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

자료 분석• 전체 tweet 중 14% 가 spam• Trend 가 spam 서는 조금 늦게 나타남

Page 10: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

실험 결과• Age – 차이 별로 없음• Frequency of tweets– Spam : 8.66, legitimate : 6.7– Retweet, @reply 는 차이가 미미• Chi-squared test 에서 의미가 없음을 밝힘

• Ratio–차이 별로 없음–그러나 , 평균적으로 friend, follower

숫자가 spammer 가 더 많음

Page 11: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

실험 결과• Clustered–차이 별로 없음–다만 , spam 이 상대적으로 적은 숫자로

clustering 되어 있다• Location on network structure– Spammer 는 follower 로 edge 에 있는

경향이 있음 : 5 번 다리를 건너면 100 개의 edge 중 63 개가 spammer

– Legitimacy : high indegree– Spam : high outdegree

Page 12: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

과제와의 연관

Page 13: Detecting spam in a Twitter network ( 과제 세미나 )  2012.5.11

감사합니다 .