공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계...

12
공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘 군산대학교 컴퓨터정보공학과 조현구

Upload: hyungu-cho

Post on 14-Aug-2015

33 views

Category:

Technology


5 download

TRANSCRIPT

Page 1: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

공간 소셜 분석을 위한마이크로블로그 데이터의

맵리듀스 기반 공간 집계 알고리즘

군산대학교 컴퓨터정보공학과

조현구

Page 2: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

발표 순서

서론

마이크로블로그데이터와 일반 집계

마이크로블로그데이터의 공간 집계

결론

Page 3: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

서론

인터넷, 모바일 환경의 발전에 따라 작성하는 데이터는 변화

마이크로블로그데이터의 구성

BBS Blog Microblog

Microblog Core Data

Core-related Data

Additional Data

UserTag(id, realname, nickname,

lang., profile image url, et al.)

GeoTag, et al.

Language, Retweet,

Favorite(or like),

Source

ID, Content,

Writer Info.(simply),

Written Timestamp,

Spatial Social

Web Objects

Page 4: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

마이크로블로그 데이터와 일반 집계

Simplified Microblog Data Model

Core data (mid, text)

GeoTag (x, y)

Core-related data

(time)

UserTag (userid)

Microblog : (mid, userid, x, y, time, text)

Page 5: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

마이크로블로그 데이터와 일반 집계

Simplified Microblog Data Model

MapReduce based Microblog Counting by User : Model

(mid, userid,

x, y, time,

{word, …})

Map

(userid1, mid1)

(userid2, mid2)

(userid3, mid3)

(userid2, mid4)

(userid3, mid5)

(userid4, mid6)

Shuffle Reduce

(userid1, {mid1})

(userid3, {mid3,mid5})

(userid2, {mid2,mid4})

(userid4, {mid6})

(userid1, 1)

(userid3, 2)

(userid2, 2)

(userid4, 1)

Microblog : (mid, userid, x, y, time, text)

Microblog : (mid, userid, x, y, time, {word, …})

Page 6: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

마이크로블로그 데이터와 일반 집계

MapReduce based Microblog Counting by User : Algorithm

Page 7: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

마이크로블로그 데이터의 공간 집계

지오해시 (GeoHash)

Convert from Latitude, Longitude (double) to Base32

-90.0 0 90.0

35.9452°N

0.0 90.0

0.0 45.0

1

0

1

-180.0 0 180.0

126.6821°E

0.0 180.0

1

90.0 180.0

1

0

1 1 1 0 0 1 …

35.9452°N

126.6821°E

1 0 1

1 1 0

Bit Precision : 30

Character Precision : 6

wy6h6x

Decimal 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Base 32 0 1 2 3 4 5 6 7 8 9 b c d e f g

Decimal 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

Base 32 h j k m n p q r s t u v w x y z

Base32 character map

Page 8: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

마이크로블로그 데이터의 공간 집계

GeoHash based Spatial Microblog Counting

Model

Simulation

(mid, userid,

x, y, time,

{word, …})

(geoh, mid1)

(geoh, mid2)

Map

(geoid, {mid1, mid2, …}) (geoid, n)

Shuffle Reduce

(gh01, mid1)

(gh03, mid2)

(gh01, mid3)

(gh02, mid4)

(gh02, mid5)

(gh03, mid6)

Map

(gh01, {mid1, mid3})

(gh02, {mid4, mid5})

(gh03, {mid2, mid6})

(mid1, u1, 𝒙𝟏 , 𝒚𝟏 , …)

(mid2, u2, 𝒙𝟑 , 𝒚𝟑 , …)

(mid3, u3, 𝒙𝟏, 𝒚𝟏, …)

(mid4, u4, 𝒙𝟐 , 𝒚𝟐 , …)

(mid5, u4, 𝒙𝟐 , 𝒚𝟐 , …)

(mid6, u5, 𝒙𝟑, 𝒚𝟑, … )

(gh01, mid1)

(gh01, mid3)

(gh02, mid4)

(gh02, mid5)

(gh03, mid2)

(gh03, mid6)

Shuffle

(gh01, 2)

(gh02, 2)

(gh03, 2)

Reduce

Page 9: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

마이크로블로그 데이터의 공간 집계

GeoHash based Spatial Microblog Counting : Map Algorithm

Page 10: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

마이크로블로그 데이터의 공간 집계

Spatial Microblog Counting by User : Model

Spatial Microblog Counting by User : Map Algorithm

(mid, userid,

x, y, time,

{word, …})

(<userid, geoid>, mid)

(<userid, geoid>, mid)

(<userid, geoid>, mid)

Map Shuffle

(<userid, geoid>,

{mid, mid, …})

Reduce

(<userid, geoid>, n)

Page 11: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

마이크로블로그 데이터의 공간 집계

Used words Counting by Spatial area: Model

Used words Counting by Spatial area : Map Algorithm

(<geoid, word>, mid)

(<geoid, word>, mid)

(<geoid, word>, mid)

Map Shuffle

(<geoid, word>,

{mid, mid, …})

Reduce

(<geoid, word>, n)

(mid, userid,

x, y, time,

{word, …})

Page 12: 공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계 알고리즘

결론

Spatial Social Web Object = Social Web Object + GeoTag (+ et al.)

일반 집계로는 공간에 대한 정보와의 연결점을 찾기 힘듦.

맵리듀스를 기반으로 하는 공간 소셜 분석을 수행

추후 연구

추가적인 알고리즘 작성

대량의 마이크로블로그 데이터셋을 이용한 공간 소셜 및 성능 분석 진행