공간 소셜 분석을 위한 마이크로블로그 데이터의 맵리듀스 기반 공간 집계...
TRANSCRIPT
공간 소셜 분석을 위한마이크로블로그 데이터의
맵리듀스 기반 공간 집계 알고리즘
군산대학교 컴퓨터정보공학과
조현구
발표 순서
서론
마이크로블로그데이터와 일반 집계
마이크로블로그데이터의 공간 집계
결론
서론
인터넷, 모바일 환경의 발전에 따라 작성하는 데이터는 변화
마이크로블로그데이터의 구성
BBS Blog Microblog
Microblog Core Data
Core-related Data
Additional Data
UserTag(id, realname, nickname,
lang., profile image url, et al.)
GeoTag, et al.
Language, Retweet,
Favorite(or like),
Source
ID, Content,
Writer Info.(simply),
Written Timestamp,
Spatial Social
Web Objects
마이크로블로그 데이터와 일반 집계
Simplified Microblog Data Model
Core data (mid, text)
GeoTag (x, y)
Core-related data
(time)
UserTag (userid)
Microblog : (mid, userid, x, y, time, text)
마이크로블로그 데이터와 일반 집계
Simplified Microblog Data Model
MapReduce based Microblog Counting by User : Model
(mid, userid,
x, y, time,
{word, …})
Map
(userid1, mid1)
(userid2, mid2)
(userid3, mid3)
(userid2, mid4)
(userid3, mid5)
(userid4, mid6)
Shuffle Reduce
(userid1, {mid1})
(userid3, {mid3,mid5})
(userid2, {mid2,mid4})
(userid4, {mid6})
(userid1, 1)
(userid3, 2)
(userid2, 2)
(userid4, 1)
Microblog : (mid, userid, x, y, time, text)
Microblog : (mid, userid, x, y, time, {word, …})
①
②
마이크로블로그 데이터와 일반 집계
MapReduce based Microblog Counting by User : Algorithm
마이크로블로그 데이터의 공간 집계
지오해시 (GeoHash)
Convert from Latitude, Longitude (double) to Base32
-90.0 0 90.0
35.9452°N
0.0 90.0
0.0 45.0
1
0
1
-180.0 0 180.0
126.6821°E
0.0 180.0
1
90.0 180.0
1
0
1 1 1 0 0 1 …
35.9452°N
126.6821°E
1 0 1
1 1 0
Bit Precision : 30
Character Precision : 6
wy6h6x
Decimal 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Base 32 0 1 2 3 4 5 6 7 8 9 b c d e f g
Decimal 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Base 32 h j k m n p q r s t u v w x y z
Base32 character map
마이크로블로그 데이터의 공간 집계
GeoHash based Spatial Microblog Counting
Model
Simulation
(mid, userid,
x, y, time,
{word, …})
(geoh, mid1)
(geoh, mid2)
…
Map
(geoid, {mid1, mid2, …}) (geoid, n)
Shuffle Reduce
(gh01, mid1)
(gh03, mid2)
(gh01, mid3)
(gh02, mid4)
(gh02, mid5)
(gh03, mid6)
Map
(gh01, {mid1, mid3})
(gh02, {mid4, mid5})
(gh03, {mid2, mid6})
(mid1, u1, 𝒙𝟏 , 𝒚𝟏 , …)
(mid2, u2, 𝒙𝟑 , 𝒚𝟑 , …)
(mid3, u3, 𝒙𝟏, 𝒚𝟏, …)
(mid4, u4, 𝒙𝟐 , 𝒚𝟐 , …)
(mid5, u4, 𝒙𝟐 , 𝒚𝟐 , …)
(mid6, u5, 𝒙𝟑, 𝒚𝟑, … )
(gh01, mid1)
(gh01, mid3)
(gh02, mid4)
(gh02, mid5)
(gh03, mid2)
(gh03, mid6)
Shuffle
(gh01, 2)
(gh02, 2)
(gh03, 2)
Reduce
마이크로블로그 데이터의 공간 집계
GeoHash based Spatial Microblog Counting : Map Algorithm
마이크로블로그 데이터의 공간 집계
Spatial Microblog Counting by User : Model
Spatial Microblog Counting by User : Map Algorithm
(mid, userid,
x, y, time,
{word, …})
(<userid, geoid>, mid)
(<userid, geoid>, mid)
(<userid, geoid>, mid)
Map Shuffle
(<userid, geoid>,
{mid, mid, …})
Reduce
(<userid, geoid>, n)
마이크로블로그 데이터의 공간 집계
Used words Counting by Spatial area: Model
Used words Counting by Spatial area : Map Algorithm
(<geoid, word>, mid)
(<geoid, word>, mid)
(<geoid, word>, mid)
Map Shuffle
(<geoid, word>,
{mid, mid, …})
Reduce
(<geoid, word>, n)
(mid, userid,
x, y, time,
{word, …})
결론
Spatial Social Web Object = Social Web Object + GeoTag (+ et al.)
일반 집계로는 공간에 대한 정보와의 연결점을 찾기 힘듦.
맵리듀스를 기반으로 하는 공간 소셜 분석을 수행
추후 연구
추가적인 알고리즘 작성
대량의 마이크로블로그 데이터셋을 이용한 공간 소셜 및 성능 분석 진행