위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구...

12
- 777 - 대한지리학회지 제53권 제5호 2018(777~788) 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 일대의 퇴근 후 활동공간을 대상으로 문성국*·조성진**·황철수*** Extracting Location Information From Non-georeferenced Personal Blog Posts: A case of activities after work in Jongro-gu, Seoul Seonggook Moon* · Sung-Jin Cho** · Chul Sue Hwang*** 이 논문은 2016년 6월 대한지리학회 지리학대회에서 발표한 내용을 수정·보완 한 것임. * 경희대학교 지리학과 박사후연구원(Researcher, Department of Geography, Kyung Hee University), [email protected] ** 아주대학교 교통연구소 전임연구원(Researcher, Transportation Research Center, Ajou University), [email protected] *** 경희대학교 지리학과 교수(Professor, Department of Geography, Kyung Hee University), [email protected] 요약 : 최근 빅 데이터를 활용한 사례가 증가하는 추세로 주로 SNS(트위터나 페이스북 등)에서 수집한 위치태그 를 이용해 사용자의 위치정보를 추출하는 연구가 진행되어 왔다. 본 연구는 위치태그가 없거나 콘텐츠 특성 상 위치정보를 수집하기 어려운 경우, 이에 대한 대안으로써 개인 블로그 자료의 활용가능성을 종로구 일대의 퇴근 후 활동위치를 사례연구를 통해 확인하였다. 실험 결과, 사전기반 매칭을 이용해 네이버 블로그의 단어에서 블 로그에 삽입된 지도 보다 더 많은(12배 이상) 활동유형별 위치 좌표와 활동순서 데이터를 생성하였다. 사례연구 를 통해서, 자료의 신뢰도 측정, 사전 기반 매칭방법의 의존도, 시간해상도의 불일치 등 위치정보 추출과정에서 발생할 수 있는 몇 가지 고려사항을 도출하였다. 앞으로 이론 및 방법론, 입력 자료의 보완을 통해서 비교적 정확 한 위치정보를 필요로 하는 여러 분야에 활용될 수 있다. 주요어 : 개인 블로그, 위치 정보 추출, 자연어 처리, 사전기반 매칭, 순서 자료 추출 Abstract : As researches using Big Data are increasing recently, many studies have been conducted to extract location information of users by using geo-tags collected from SNS such as Twitter and Facebook. In cases where location tags are missing or where location information is difficult to collect due to content characteris- tics, this study attempted to appraise the possibility of using personal blog data in Jongro-gu, Seoul, as a case study. As a result of the experiment, we used a dictionary-based matching for extracting location coordinates (12 times or more than the maps inserted into the blogs) by activity type in Naver blogs and also produced time-series data using the location data. rough the cast study, several considerations were derived, such as measurement of data reliability, dependence on reference dictionary, and mismatch in temporal resolution. To conclude, by making up theories, methodologies, and inputs, we hope this study supports several fields that typically require accurate location information in the future. Key Words : personal blog, location information extraction, natural language processing, dictionary-based matching, sequence data extraction

Upload: others

Post on 07-Jan-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 777 -

?대한지리학회지 제53권 제5호 2018(777~788)

위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 일대의 퇴근 후 활동공간을 대상으로

문성국*·조성진**·황철수***

Extracting Location Information From Non-georeferenced Personal Blog Posts: A case of activities after work in Jongro-gu, Seoul

Seonggook Moon* · Sung-Jin Cho** · Chul Sue Hwang***

이 논문은 2016년 6월 대한지리학회 지리학대회에서 발표한 내용을 수정·보완 한 것임.

* 경희대학교 지리학과 박사후연구원(Researcher, Department of Geography, Kyung Hee University), [email protected]

** 아주대학교 교통연구소 전임연구원(Researcher, Transportation Research Center, Ajou University), [email protected]

*** 경희대학교 지리학과 교수(Professor, Department of Geography, Kyung Hee University), [email protected]

?

?

??

참고문헌

?

대한지리학회지

?

?

?

??

?

?

?

?

?

요약 : 최근 빅 데이터를 활용한 사례가 증가하는 추세로 주로 SNS(트위터나 페이스북 등)에서 수집한 위치태그

를 이용해 사용자의 위치정보를 추출하는 연구가 진행되어 왔다. 본 연구는 위치태그가 없거나 콘텐츠 특성 상

위치정보를 수집하기 어려운 경우, 이에 대한 대안으로써 개인 블로그 자료의 활용가능성을 종로구 일대의 퇴근

후 활동위치를 사례연구를 통해 확인하였다. 실험 결과, 사전기반 매칭을 이용해 네이버 블로그의 단어에서 블

로그에 삽입된 지도 보다 더 많은(12배 이상) 활동유형별 위치 좌표와 활동순서 데이터를 생성하였다. 사례연구

를 통해서, 자료의 신뢰도 측정, 사전 기반 매칭방법의 의존도, 시간해상도의 불일치 등 위치정보 추출과정에서

발생할 수 있는 몇 가지 고려사항을 도출하였다. 앞으로 이론 및 방법론, 입력 자료의 보완을 통해서 비교적 정확

한 위치정보를 필요로 하는 여러 분야에 활용될 수 있다.

주요어 : 개인 블로그, 위치 정보 추출, 자연어 처리, 사전기반 매칭, 순서 자료 추출

Abstract : As researches using Big Data are increasing recently, many studies have been conducted to extract location information of users by using geo-tags collected from SNS such as Twitter and Facebook. In cases where location tags are missing or where location information is difficult to collect due to content characteris-tics, this study attempted to appraise the possibility of using personal blog data in Jongro-gu, Seoul, as a case study. As a result of the experiment, we used a dictionary-based matching for extracting location coordinates (12 times or more than the maps inserted into the blogs) by activity type in Naver blogs and also produced time-series data using the location data. Through the cast study, several considerations were derived, such as measurement of data reliability, dependence on reference dictionary, and mismatch in temporal resolution. To conclude, by making up theories, methodologies, and inputs, we hope this study supports several fields that typically require accurate location information in the future.

Key Words : personal blog, location information extraction, natural language processing, dictionary-based matching, sequence data extraction

Page 2: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 778 -

문성국·조성진·황철수

1. 서론

최근 빅 데이터에 대한 사회적 관심과 수요가 증대

되면서 다양한 미디어를 통해 획득한 빅 데이터를 활

용한 사례가 증가하는 추세다. 초기 빅 데이터의 활용

은 주로 사용자가 작성한 웹페이지의 로그 데이터 등

을 주로 사용해왔으나 GPS를 장착한 스마트폰의 이

용과 이에 기반을 둔 정보 공유가 증대됨에 따라 개인

에 의한 사용자 참여형 공간 정보(VGI, volunteered

geographic information)가 축적되면서 대안 자료

로써 이들 공간 빅 데이터의 활용 가능성이 논의되고

있다(구자용, 2016; Kitchin, 2013; Li et al., 2013;

Shin, 2014).

빅 데이터를 이용한 국내연구는 주로 트위터(Twit-

ter)나 페이스북(Facebook), 포스퀘어(Foursquare)

등의 소셜네트워크서비스에서 제공하는 Open API

를 통해 수집한 지오태그(Geo-tag)를 이용해 사용

자의 공간(위치)정보를 추출하는 연구가 진행되어 왔

다(구자용, 2015; 홍일영, 2015; 홍일영, 2016; 황태

건 등, 2016; Shin, 2014). 하지만 트위터의 경우, 이

러한 위치태그를 가지는 자료는 전체 트윗 자료의

1.5~3%정도에 지나지 않으며(Wang et al., 2018) 이

로 인해 관심대상의 공간정보를 직접 확인하기 어렵

다(Flatow et al., 2015). 또한 콘텐츠 측면에 있어 대

부분 일상의 신변잡기 위주의 글을 생산하며, 언어적

측면에서 잦은 축약어나 비표준어를 많이 사용한다.

또한 글 생성 시 타 지역에 대한 서술일 경우 작성 위

치와 내용 기술 위치가 다를 수 있으며 이동 중 글이

생성 될 수 있어 실제 위치와의 차이를 나타내는 등의

특징으로 인해 정확한 공간정보를 수집하는데 어려

움이 있다(Cheng et al., 2010).

하지만 소셜네트워크 서비스 이전부터 사용되던

사회적 매체(social media)의 한 일종인 블로그는 웹

로그(web log)의 줄임말로, 다양한 주제에 대해 일기

장 형식, 사회 전반적인 문제에 대해 입장을 표명하

는 형식, 사진자료를 올리는 형식 등으로 다양하게 나

타난다. 또한 블로그는 기록상 글자 수의 제약이 없고

사진, 동영상, 그래프, 지도 등 다양한 형식의 콘텐츠

를 기록할 수 있다. 따라서 위치태그가 없는 경우에도

지도 등 다양한 자료(지도 등)를 이용해 공간정보를

수집할 수 있다. 또한, 불특정 다수를 대상으로 정보

공유를 목적으로 작성하기 때문에 지명 등과 같은 용

어 사용이 비교적 신중하다. 마지막으로, 블로그 평판

이라는 검증 과정을 통해 블로그 내용에 대한 어느 정

도 신뢰성을 확보할 수 있다. 따라서 소셜네트워크서

비스 자료 중 위치태그가 없거나 앞서 여러 한계점으

로 인해 공간정보를 확인하기 어려운 경우, 이에 대한

대안으로써 블로그(Blog) 자료를 고려해 볼 수 있다.

다음 표 1은 트위터와 블로그를 비교한 것이다.

이 연구는 소셜미디어 자료를 이용한 국내 연구에

서 개인블로그 자료의 활용가능성을 살펴보기 위함

이며 이를 위해 개인블로그에 포함된 지도를 통해 추

출한 위치정보의 개수와 단어를 바탕으로 추출된 위

치정보의 개수를 비교하고자 한다. 또한 추출된 자료

를 이용하여 활동유형별 위치자료를 시각화하고 개

인블로그에서 추출한 위치정보를 개인블로그에 나타

난 순차적 흐름에 따른 일련의 순서(sequence) 자료

로 도출하려 한다.

본 논문은 다음과 같이 구성되었다. 2장에서는 소

셜미디어 자료를 이용한 국내외 연구동향을 살펴보

고, 이어서 3장에서는 관련 기술을 정리하고 4장에서

표 1. 트위터와 블로그의 비교

트위터 블로그

문자 수 - 140자 이내 - 무제한

사용목적- 관계형성

- 엔터테인먼트

- 정보 공유

- 일상 기록

글의 중심 - 작성자 - 독자

주체:대상

- 1:1 또는 1:N

- 주로 신뢰관계를 기

반한 지인

- 1:N

- 익명성을 가진 불

특성 다수

콘텐츠 - 신변잡기 정보

- 특정 주제에 대한

주관적 논평

- 신변잡기 정보

정보 신뢰도

- 필명을 기반으로 왜

곡가능성은 낮으나,

정보 검증이 어려움

- 주관적 해석/비판

- 평판으로 인해 왜

곡가능성이 낮음

Page 3: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 779 -

위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출

연구대상과 방법에 대해 설명한다. 5장에서는 개인블

로그 자료를 이용한 사례결과에 대해 기술하고, 마지

막 결론에서 연구요약과 논의사항에 대해 기술한다.

2. 관련 연구 동향

대체로 기존 연구는 트위터, 페이스북, 포스퀘어 등

소셜미디어 자료 중 위치태그를 통해 수집한 위치정

보를 활용하여 이를 시각화하고 있다. 예컨대, 공간

빅 데이터 및 트위터 사용자의 타임라인 데이터를 분

석하여 거주 지역을 추정하는 연구, 소셜미디어 데이

터와 부동산가격지수의 공간적 상관성 분석, 블로그

의 여행 관련 포스팅 자료를 이용한 연구, 여행 목적

추론 연구, 소셜미디어 자료를 이용한 다양한 공간 빅

데이터 분석 모델의 개발과 정책의사결정 지원시스

템 및 위치기반 마케팅 분야에의 활용가능성을 시사

하는 연구 등이 있다(문성국·황철수, 2014; 양은정·

황철수, 2014; 홍석현·황철수, 2014; 강애띠·강영

옥, 2015; 구자용, 2015; 박우진 등, 2015; 박우진·

유기윤, 2015; Larsson and Hrastinski, 2011; Meng

et al., 2017). 최근 연구에서는 시간 자료를 활용하

여 폭발적 공간정보의 군집 연구, 지오태그가 없는

트윗에서 위치를 추정하는 연구 등이 수행되었다(Li

et al., 2013; Kim and MacEachren, 2014; Samuel

and Sharma, 2018).

트위터의 태그된 위치정보를 활용하여 분석에 사

용하기 위한 시도에 있어 몇 가지 시사점들이 나타났

다. 예컨대, 이범석 등(2012)은 트위터 사용자의 프

로필 위치와 사용 장소의 GPS 정보간의 상관관계를

토대로 국내 트위터 사용자의 위치정보를 활용 시 특

별한 주의가 필요함을 밝힘과 동시에, 비교적 지역

수준의 이벤트를 추출하는데 적합하다고 지적하였

다. 임준엽 등(2015)은 트위터 자료에서 GPS 정보가

없는 경우에 텍스트의 유사 키워드를 추출하여 이벤

트 지역을 탐지하는 알고리즘을 이를 탑재한 시스템

을 개발하였다. 그 결과, 자연어 처리에 한계점으로

인해 처리율이 비교적 낮은 것으로 나타냈다. 구자용

(2016)은 위치 정보에 기반을 둔 소셜미디어 자료의

정확한 분석을 위해 다양한 지리정보를 보완하여 종

합적인 분석이 필요함을 지적했다.

Hasan and Ukkusuri(2014)는 소셜미디어로부터

수집한 대규모 위치자료를 이용하여 개개인의 활동

패턴을 추정하였다. 결론에서 추정된 활동패턴에 대

한 통계적 설명력 부족, 관측치로부터 전체 활동연쇄

를 파악할 수 없음, 마지막으로 추정된 활동패턴정보

의 대표성이 떨어지는 한계점을 지적하였다. 서태웅

등(2013)은 트위터로부터 재해정보를 추출하여 활용

하는 방안을 제시하였다. 사례 결과, 약 66.6%의 검

색 정확도 개선을 보이는 반면에 트위터를 통해 제보

된 글에 대한 신뢰도 문제를 한계로 지적하였다.

Chen et al.(2014)은 관광객의 정보검색과 목적지

선택에 대해 고찰함과 동시에, 목적지 방문에 대한 행

동의지의 형성과정에 관한 모형을 개발하여 여행블

로그가 여행객의 미래 행동의지에 대한 영향 정도를

실험하였다. 실험결과, 각각의 여행블로그가 가지는

관광객에 대한 영향 정도는 다르게 나타나며, 블로그

사용을 통한 행동의지는 여행 정보의 참신성, 이해도

및 관심 블로그의 콘텐츠에 영향을 받는 것으로 나타

났다.

요컨대, 소셜미디어 자료는 다양한 분야에서 빅데

이터 시대의 도래와 함께 분석자료로 활발히 이용되

고 있음을 확인할 수 있다. 하지만 기존 연구에서는

대부분 트위터 등의 소셜미디어 자료 중 위치태그가

포함된 자료를 이용하여 분석이 진행되었으며 위치

태그에 대한 정밀도와 정확도 문제, 시공간 불일치 가

능성을 시사하고 있다. 또한 텍스트의 처리 결과는 언

어의 변형과 자연어 처리의 한계점에 영향을 받을 수

있고 활동패턴정보의 추출에 있어 한계를 지닐 수 있

다. 하지만 이는 소셜미디어의 특징에 의해 야기되는

문제일 수 있으므로 다양한 개선방법과 접근방법이

연구되어야 함을 시사한다.

Page 4: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 780 -

문성국·조성진·황철수

3. 관련 기술 검토

텍스트 마이닝(Text Mining)은 비정형 혹은 반정

형 텍스트 데이터에서 자연어 처리 기술에 기반을

두어 양질의 정보를 추출하고 가공하는 과정을 말

한다. 텍스트 분석은 각 영역의 특성에 따라 정보검

색(search and information retrieval, IR), 문서 군

집(document clustering), 문서 분류(document

classification), 웹 마이닝(web mining), 정보 추출

(information extraction, IE), 자연어 처리(natu-

ral language processing, NLP), 개념 추출(concept

extraction) 등의 7개 영역으로 구분한다(Miner et

al., 2012).

정보 추출(Information Extraction)이란 사람이

사용하는 자연어와 같은 비정형 데이터로부터 구

조적인 형태의 정보를 추출하는 것을 말한다(Jiang,

2012). 정보 추출에 있어 수행되는 여러 하위 작업들

중 분석에 필요한 객체 이름, 예컨대 사람이나 조직,

장소, 시간, 숫자 등의 객체를 추출하는 것을 개체명

인식(Named Entity Recognition)이라 한다.

자연어 처리를 이용해 개체명 인식을 수행할 수 있

는데 자연어 처리는 언어학을 근간으로 하고 있다. 언

어학은 말소리를 연구하는 음운론(phonology), 단어

와 형태소를 연구하는 형태론(morphology), 문법과

맥락을 논의하는 통사론(syntax), 의미를 논의하는

의미론(semantics) 등의 세부분야가 있는데 자연어

처리 절차와 단계도 이러한 구분과 맥을 같이 한다.

일반적으로 자연어 처리를 위한 첫 단계로 형태소

분석이 이루어진다. 심광섭·양재형(2004)에 의하면,

‘형태소 분석이란 주어진 어절에서 형태소를 분리하

고 각 형태소에 범주를 부여하는 것‘으로 정의하고 있

다. 정보 추출 과정에 있어 어휘를 이용한 분석은 일

반적으로 형태소 분석과 품사태깅(Part-Of-Speech

tagging, POS tagging) 과정을 거친다. 형태소는 의

미를 지니는 최소 단위를 말하며 품사를 결정하여 분

석에 이용한다. 이는 자연어 처리(Natural Language

Processing)와 그 역사를 같이 하고 있으며 기술의 발

달과 함께 활용도를 높이고 있다(김재훈, 2004). 한

글을 대상으로 한 형태소 분석기는 “한나눔”, “꼬꼬

마”, “KOMORAN”, “Mecab”, “트위터” 등이 있으며

KoNLP 패기지를 통해 R 혹은 파이썬으로도 분석할

수 있다.

일반적으로 개체명 인식을 위해 객체 추론을 하는

사전 기반, 규칙 기반, 머신러닝 기반의 세 기술이 사

용되고 있다(Freire, 2012). 먼저, 사전 기반 기술은

목록 혹은 지명 사전, 어휘 목록, 사전 등으로 명명되

는 객체 이름의 집합체를 기반으로 단어의 유사성 매

칭을 통하여 분석하는 것이다. 따라서 사전의 완성

도가 결과에 영향을 미친다(Cohen and Sarawagi,

2004). 반면, 규칙 기반 기술은 일정한 규칙을 설정하

고 이에 따라 분석하는 것으로(Cunningham et al.,

2002), 규칙 정의와 추론에 따라 방대한 패턴을 지니

면 복잡해 질 수 있다. 마지막으로, 머신러닝 기반 기

술은 객체 추론을 위해 훈련데이터를 이용하여 감독

혹은 무감독 분류를 수행하여 추정하는 기법이다.

비정형 자료에서 정형 자료를 자동으로 데이터베

이스화하여 구축하는 시스템, 즉 정보추출 시스템

은 부동산 정보, 법률정보, 의료정보, 등 매우 다양

한 분야에서 응용되고 있다(김재훈, 2004; Sarawagi,

2008).

4. 분석 자료 및 방법

1) 시공간적 범위 및 자료

본 연구는 공간정보 추출을 위한 블로그 자료의 활

용가능성을 평가하기 위한 사례로써, 네이버 블로

그 페이지에서 “종로 퇴근 후”로 검색되는 블로그 중

2013년 2월에서 7월 사이에 작성된 블로그를 대상으

로 자료를 수집하였다. 공간 범위로서 종로지역은 강

남과 더불어 중심 업무지구로 많은 이동이 발생되는

곳이며 관광, 업무, 쇼핑 등 다양한 활동이 이루어지

는 곳이다. 분석의 단순화를 위해 종로지역에서 발생

하는 업무 활동을 배제하려 검색어에 “퇴근 후”를 입

력하였다. 시간 범위 설정은 블로그 내용에 지도가

Page 5: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 781 -

위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출

포함된 비율과 포함하지 않은 비율을 조절하기 위해

2013년 2월에서 7월 사이를 이용하였다. R을 이용하

여 677개의 블로그 텍스트 자료를 수집했고, 이 중 지

도가 포함된 블로그 포스트는 179개이다.

2) 실험과정

실험은 다음의 세 단계로 나누어 수행되었다(그림

1). 첫째는 웹 스크래핑을 통한 자료수집 단계이며,

둘째는 추출된 단어로부터 위치 좌표를 추출하기 위

한 일종의 지오코딩(geocoding) 단계를 거치며 수집

된 블로그 텍스트 자료를 이용하여 단어사전을 구축

하였다. 마지막으로, 단어사전을 기반으로 블로그 글

에서 매칭 되는 단어를 추출 후 궤적 데이터를 생성하

는 단계를 거쳤다.

(1) 웹 스크래핑을 통한 자료 수집

웹 스크래핑(Web scraping)은 웹사이트에서 정보

를 추출하는 컴퓨터 기술 중 하나로, HTTP (Hyper-

Text Transfer Protocol)를 통해 직접적으로 추출하

거나 웹 브라우저를 통해 수행 될 수 있다. 웹 스크래

핑은 웹 인덱싱(Web indexing) 기술과 관련이 있으

며, 웹 크롤링(Web crawling)과 밀접한 관계를 가지

고 있지만 다른 개념으로 사용된다. 웹 크롤링은 앤트

(ants), 봇(bots), 웹 스파이더(web spider), 웹 로봇

(web robot) 등으로 명명되는 웹 크롤러를 이용하여

자동화된 방법으로 월드 와이드 웹을 탐색하여 웹 사

이트의 인덱싱을 수행하는 반면, 웹 스크래핑은 이러

한 사이트의 웹 페이지를 전송받아 구조를 파악하여

원하는 정보를 추출하는 것과 더욱 밀접하다. 일반적

으로 HTML(HyperText Markup Language) 페이지

의 구조를 분석하기 위해 HTML 파싱(HTML pars-

ing)이 이루어지며 HTML 태그에 해당하는 값을 반

환 받을 수 있다. 웹 페이지의 구조는 웹 페이지를 생

성하는 주체에 따라 달라 질 수 있으므로 파싱 후 필

요한 데이터를 추출하는데 있어 일률적으로 코드를

적용하기 힘들다.

따라서 R의 ‘XML’, ‘httr’, ‘tm’ 라이브러리(librar-

ies)를 이용하여 블로그의 HTML 구조를 파악하고 파

싱과정을 거쳐 csv 파일 형태로 블로그 주소, 제목,

본문, 작성일자, 지도좌표를 추출하였다(그림 2). 획

득한 블로그 포스트는 677개였으며 그 중 하나 이상

의 지도를 포함하는 블로그는 179개로 위치정보(XY

좌표)를 추출하였다.

(2) 관심단어 추출 및 단어사전 구축

수집된 677개의 블로그 포스트의 글 중 단어를 추

출하기 위해 R의 ‘tm’, ‘KoNLP’ 라이브러리를 이용하

였다. 형태소 분석을 실시하기 위해 ‘KoNLP’ 라이브

러리 중 ‘MorphAnalyzer’ 함수를 이용하였다. 문장

을 형태소 분석하여 품사를 판별하는 품사태깅을 수

행 한 후 위치를 포함 할 수 있는 단어가 포함 될 가능

성이 있는 품사 즉, 비서술형 명사, 기타 일반 고유명그림 1. 분석과정

그림 2. HTML 구조파악

Page 6: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 782 -

문성국·조성진·황철수

사, 부사격조사, 목적격조사를 포함하는 형태소를 추

출하였다. 전체 블로그 텍스트에서 490,276개 형태

소를 추출했으며, 중복을 제외한 154,337개 형태소

가 최종적으로 추출되었다. 이 중 행정구역명, 지하철

역사명, 장소명, 상호명 등 위치를 담고 있는 단어는

854개였으며, 형태소 내 중복되는 단어를 제외하고

좌표획득에 문제가 되는 단어들을 제외하는 정제과

정을 거쳐 574개의 단어가 결과적으로 사전으로 구축

되었다. 이를 바탕으로 블로그에 포함되지 않은 블로

그 내용에서 위치정보를 추출하기 위하여 앞서 추출

한 574개 단어를 R을 이용하여 네이버 지도페이지에

서 검색되도록 하고 그 결과 페이지를 파싱하여 좌표

를 추출하는 과정을 거쳐 총 수집된 블로그 텍스트에

서 고유한 2,125개의 위치좌표를 추출하였다(그림 3).

(3) 사전 기반 매칭 방법을 이용한 순서자료 추출

본 연구에서는 컴퓨팅 환경에 대한 요건이 상대적

으로 낮고, 수집된 글자를 바탕으로 정확히 매칭 되

는 단어를 추출하는 사전기반 매칭기술을 적용하였

다. 규칙기반기술의 경우 각 단어에 사전에 정의된 형

태의 규칙이 필요하며 혹은 그 형태가 규칙을 잘 따를

수 있는 완전한 문법 형태의 경우 더욱 높은 정확도를

담보 할 수 있고, 머신러닝의 경우 상대적으로 더욱

유연한 처리가 가능하나 처리의 복잡도와 많은 연산

으로 인해 높은 컴퓨터 사양이 요구된다.

데이터의 공개가 활발해질 경우 규칙기반기술 혹

은 머신러닝기반기술 등에 의한 추정방법보다 매칭

방법이 간단하면서 데이터의 정확도를 더욱 높일 수

있다. 텍스트의 흐름이 시간의 흐름에 따라 진행될 경

우 정확도를 더욱 담보할 수 있다.

앞서 구축한 단어사전에서 574개의 지명 단어를

추출했으며, 네이버 지도를 이용해 위치 좌표를 설정

하고 퇴근 이후에 발생하는 일반적인 활동유형에 따

라 표2와 같이 정의하였다. 활동유형은 통행 조사의

일반적인 통행목적(조성진 등, 2014) 중 본 연구의 상

황에 적용할 수 없는 귀가, 출근, 외근, 배웅/마중 등

을 제외하고 사전으로 수집된 최종 장소, 상호를 일반

적인 목적으로 부여하였다. 이러한 단어 사전을 기반

으로 각 블로그 포스트에 나타나는 단어를 단어사전

과 일치하는 단어를 순서대로 추출하였다.

5. 사례 결과

1) 추출된 데이터의 비교

실험 결과의 정확도 평가를 위해서 블로그 내에 포

함된 지도 상 위치정보와 블로그 텍스트를 이용하여

중복되지 않는 고유의 기반사전 단어를 추출하여 이

를 각 블로그 텍스트에 매칭 하여 획득한 위치정보를

추출하였다. 따라서 텍스트 매칭에 의한 위치와 블로

그에 포함된 지도의 위치가 어느 정도 유사할 경우에

실험결과에 대한 긍정적 평가가 가능할 것으로 본다.

연구에서 활용한 전체 블로그에 포함된 지도는

179개로, 이들 지도는 블로그에 작성한 목적에 따라

최종 목적지의 위치정보를 제공한다. 반면에, 블로그

텍스트에서 직접 추출한, 기반 사전에 포함된 고유의

위치 좌표는 574개로 블로그 지도의 약 3.2배의 위치

정보를 포함하고 있다. 또한 각 블로그 텍스트에 매

칭 시킬 경우 전체 2,125개의 좌표를 추출할 수 있으

며, 블로그 텍스트에서 매칭 하여 추출한 위치는 지도

가 포함된 블로그 역시 포함하여 추출한 결과로 지도

가 포함된 블로그 포스트 보다 약 12배 가까이 더 많

은 위치 좌표를 추출하였다. 이는 블로그 상의 지도

보다 텍스트에서 최종목적지를 포함한 더 많은 공간

그림 3. 단어사전 구축과정에 따른 수집된 단어와

지오코딩 된 좌표 현황

Page 7: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 783 -

위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출

정보를 획득할 수 있음을 시사한다. 이를 지도에 표시

한 것은 그림 4와 같다.

표 2에서 분석 결과를 활동유형별로 살펴보면, 기

반 사전으로 추출된 총 574개의 고유 좌표 중 ‘기타’

항목을 제외하고 ‘식사’가 전체 32%로 가장 높은 비

중을 차지하며, 다음으로 문화·레저·관광(13%), 개

인용무(11%) 순으로 나타나 연구지역에서 주로 식사

및 여가 목적의 활동 빈도가 가장 많이 발생하는 것으

로 보인다. 실제로 종로구 일대는 식당가((구)피맛골

등)와 커피숍 등 관련 상점들이 주로 분포하고 있어

실험 결과가 지역 특성을 잘 반영하고 있는 것으로 보

인다.

연구지역에서 활동 빈도의 비중은 낮지만 ‘사교육’

(5%)은 종로구의 지하철 노선(1호선)을 따라 발생하

는데, 이는 이 지역에 교육기관(어학원, 입시학원 등)

들이 이 지역에 다수 위치하고 있어 블로그 텍스트에

서 추출한 이들 활동의 공간패턴을 잘 반영하고 있다.

위에서 언급한 활동 이외에 기타 항목은 행정구역,

지하철역사, 빌딩 등 활동 유형을 판별할 수 없는 항

목으로, 주로 최종 목적지에 도달하는데 필요한 중요

한 교통수단(지하철 출구 등) 또는 중간경유지(빌딩

등)로써 랜드마크(landmark)에 해당하는 것으로 보

인다.

2) 활동유형별 위치 좌표의 분포

위치정보 추출을 위해 구축한 기반 사전에 이미 통

행 목적의 분류가 포함되어 있어 사전을 이용해 추출

한 위치 좌표는 활동유형별 공간정보를 내포한다. 그

림 5와 같이 활동유형별 위치 좌표를 추출하여 각 지

도에 표시하였다. 지도상의 점은 각 지점에서 발생한

활동 공간(지점)을 나타내고, Kernel 밀도를 표시하

표 2. 활동유형별 위치명 및 단어추출 결과

항목 위치명 수 추출단어 수 예

식사 185 400 식당, 술집, 패스트푸드점 등

문화·레저·관광 74 425 관광지, 영화관, 박물관, 갤러리 등

개인용무 67 166 행정기관, 은행, 미용실, 종교시설, 병원, 약국, 도서관 등

쇼핑 64 251 시장, 서점, 금은방 등

친목모임 29 93 커피숍

사교육 28 44 학원, 회관 등

기타 127 746 행정명, 지하철역사명, 빌딩명 등

합계 574 2,125

그림 4. 추출된 위치 좌표의 비교(좌: 각 블로그 글에서 추출, 우: 각 블로그에 삽입된 지도에서 추출)

Page 8: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 784 -

문성국·조성진·황철수

그림 5. 통행 목적별 위치 좌표의 분포

Page 9: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 785 -

위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출

여 연구지역 내에서 활동유형별 개략적인 공간분포

를 살펴보았다. 이를 토대로 세부적으로 블로그 상의

텍스트에서 추출한 공간정보가 실제 활동 공간을 잘

반영하는지 판단할 수 있다.

전반적으로 종로대로, 서촌, 북촌, 광장시장, 청계

천을 따라 추출된 위치 좌표가 높은 밀도를 나타냈다.

이러한 결과는 이 지역에서 발생하는 (퇴근 후) 활동

공간의 전역적 분포가 위 지역에 집중됨을 나타낸다.

문화레저관광은 종각, 서촌, 북촌, 종로5가, 동대문

의 밀도가 높으며, 쇼핑은 종로대로를 따라 종로3가

주변, 종로5가 주변, 광장시장의 밀도가 높게 나타난

다. 개인적 교육은 학원가가 밀집된 종로3가 주변이

높은 밀도를 나타낸다. 사회적 만남은 종로3가와 광

교주변이 상대적으로 높은 밀도를 보인다.

3) 활동순서 데이터의 생성

지역에서 발생하는 개별 활동은 각각이 중요한 정

보를 내포하고 있지만, 여러 활동들을 묶어 이를 토대

로 집단 간 비교를 통해서 활동과 연계되어 있는 여러

정보들(활동위치, 교통수단, 인구특성 등)의 상관성을

분석하여 특성 사회적 현상(인구노령화, 재택근무, 환

승역 설치 등)의 변화가 활동 변화에 어떠한 영향을

미치는지를 파악할 수 있도록 한다(조창현, 2007). 본

그림 6. 각 블로그에 매칭 된 통행 순서의 수

표 3. 추출된 활동 순서 데이터의 예

ID 상호/지명 X Y 목적

27 통돼지집 126.9858575 37.5686763 식사

35 방산시장 127.0009995 37.5688182 쇼핑

35 아이러브초코 127.0016 37.5689083 사회적 만남

35 을지로4가 126.9966235 37.566829 기타

35 을지로 127.000087 37.571399 기타

35 종로5가 127.000075 37.5713583 사회적 만남

43 종로3가 126.990223 37.570565 기타

43 종로설렁탕 126.9898983 37.56994 식사

43 종로3가역 126.9920735 37.5704907 기타

43 국일관 126.9899418 37.5698549 문화레져관광

196 시청 126.9783882 37.5666103 개인용무

196 오향족발 126.9760181 37.5632698 식사

196 서소문 126.973062 37.5634883 기타

Page 10: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 786 -

문성국·조성진·황철수

연구는 이러한 활동 간의 연쇄관계를 파악하기 위해

서 각 블로그에 기반 사전의 단어를 매칭 하여 각 블

로그에 언급된 위치를 토대로 순차적 움직임의 데이

터를 획득하였다.

표 3은 추출된 통행 순서 데이터의 예시를 나타낸

것으로, 동일 ID는 하나의 블로그 포스트를 의미하며

ID당 매칭 되는 단어는 하나 이상의 위치 좌표를 나

타낸다. 그림 6은 각 블로그 포스트 당 일치된 좌표

수를 표시한 것으로, 블로그 포스트에 한개 위치가 매

칭된 것은 142개(약 25%)로 가장 많았으며 하나 이

상의 좌표로 순서로 표시할 수 있는 각각 122개, 84

개, 61개, 35개, 22개, 23개로 나타났다. 8개 이상 위

치 좌표가 매칭된 경우에서 10개, 8개의 경우를 제외

하고는 대부분 1~2개의 블로그이며, 이는 행정구역

명, 지역명, 상호를 나열하는 식의 광고 목적의 블로

그에서 주로 나타났다. 따라서 블로그 텍스트에서 공

간정보를 추출 시 광고 목적 또는 최종 목적지를 찾기

위해 언급된 지명 등을 필터링할 수 있는 방법이 요구

된다. 아울러 블로그 텍스트에서 추출한 활동 순서 데

이터의 신뢰도를 검증할 수 있는 자료나 방안에 대한

추후 보완연구가 필요하다.

6. 결론

본 연구는 위치정보의 추출을 위한 개인 블로그 자

료의 활용가능성을 평가하기 위해 종로구 일대의 퇴

근 후 활동을 대상으로 사례연구를 진행하였다. 세부

적으로, 위치태그가 없는 경우에 블로그에 포함된 텍

스트를 분석하여 위치정보(지명, 상호 등)를 추출하

였다. 더불어, 블로그 상에 언급된 위치정보의 리스트

를 구축하여 통행순서 자료를 생산하였다.

실험 결과, 블로그의 단어에서 추출 할 수 있는 위

치 자료가 블로그에 삽입된 위치 자료의 수 보다 약

12배 정도 더 많이 획득 할 수 있음을 보였고, 이를

통해 조작적 통행 목적별 주제도를 생성할 수 있었다.

또한 블로그에 기술된 순차적 통행 순서를 위치 좌표

를 포함하여 자료화 할 수 있었다.

사례연구를 통해서, 위치정보 추정을 위한 데이터

추출 과정에 있어 다음의 고려사항이 있다. 우선 데이

터의 추출, 구축에 있어 항시 고려되어야 할 것은 정

확도, 정밀도 즉, 자료의 신뢰도 문제이다. 본 연구는

많은 양의 자료를 바탕으로 추정하는 사전 기반 방식

으로 정밀도는 어느 정도 확보할 수 있지만, 정확도는

측정하기 어렵다. 반면, 규칙 기반이나 기계학습 방식

은 정확도를 수치로 측정 가능 하다.

또한, 매칭 기반은 분명하게 기반 사전의 완성도에

의존하며 언어의 중의성 문제, 온전한 단어의 파괴와

결부될 수 있다. 즉, 견고한 사전을 완성하기 위해서

는 단어의 중의성을 고려해야 하고 줄임말 등과 같은

변형된 단어를 포괄할 수 있어야 한다. 본 연구에서

는 단어를 추출하기 위해 형태소 분석을 통하여 품사

태깅으로 문법상 위치를 나타낼 수 있는 단어를 추출

했지만 이러한 문제가 충분히 고려되지 못했다. 더불

어 한글 형태소 분석기의 정확도에 영향을 받는다. 분

석에 사용한 한글 형태소 분석기에서 영문 단어를 처

리하지는 않기 때문에 블로그에 포함된 영문 단어가

제외되기도 했다. 이를 위해 영문 단어와 한글 단어의

분리가 선행되어야 할 것으로 판단된다.

좌표를 추출하는데 있어 참조 지도와 분석 대상의

시간해상도가 불일치할 경우 분석 단어의 위치정보

를 충분히 획득할 수 없다. 참조 지도가 시간 변화에

따른 예전 자료를 모두 포함하는 것이 아니기 때문에

시간해상도의 격차가 발생할수록 데이터의 획득률은

낮아질 수 있다.

본 연구는 활동 순서를 블로그에 기술된 순서로 가

정하고 있으므로 글쓴이의 서술 방식에 따라 이러한

가정에 위배될 경우 순서의 의미가 퇴색될 수 있다.

하지만 일반적으로 일기 형식의 순차적 서술방식에

서는 상대적으로 간단한 방식으로 위치 자료를 획득

할 수 있을 것으로 판단된다.

향후 보완연구를 통해서 기존의 통계 집계구 보다

상세한 통행 자료를 생성하고 나아가 마이크로 시뮬

레이션의 기초 자료로 사용될 수 있을 것으로 사료된

다. 또한 여행일지와 같은 순차적 서술 자료에서 통행

이동 자료를 자동화하여 추출 할 것으로 기대한다.

Page 11: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 787 -

위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출

참고문헌

강애띠·강영옥, 2015, “타임라인데이터를 이용한 트위터

사용자의 거주 지역 유추방법,” 한국공간정보학

회지, 23(2), 69-81.

구자용, 2015, “공간정보 빅 데이터의 지도화와 공간적 분

포 특성에 관한 연구: 서울시 지역의 트윗 데이터

를 사례로,” 국토지리학회지, 49(3), 349-360.

구자용, 2016, “위치기반 소셜 네트워크 데이터를 이용한

서울시 상업공간 분포특성 연구,” 국토지리학회

지, 50(4), 491-502.

김재훈, 2004, “정보추출의 기술 현황,” 정보과학회지,

22(4), 35-46.

문성국·황철수, 2014, “관심 관광지를 통해 살펴본 비정

형 자료의 활용성 검토,” 대한지리학회 학술대회

논문집, 282-283.

박재희·강영옥, 2014, “트윗을 이용한 서울시 주거환경 만

족의 공간적 특성 분석: 도시정책지표 보완을 위

한 활용방안 모색,” 한국도시지리학회지, 17(1),

43-56.

박우진·어승원·유기윤, 2015, “격자기반 분석을 통한 위

치기반 소셜미디어 데이터와 부동산가격지수 간

의 공간적 상관성 분석 연구,” 한국지형공간정보

학회지, 23(1), 23-29.

박우진·유기윤, 2015, “위치기반 소셜미디어 데이터의 텍

스트 마이닝 기반 공간적 클러스터링 분석 연구,”

한국지형공간정보학회지, 23(2), 89-96.

서태웅·박만곤·김창수, 2013, “SNS 에 제보되는 재해정

보 추출 매시업 설계 및 구현,” 멀티미디어학회논

문지, 16(11), 1297-1304.

심광섭·양재형, 2004, “인접 조건 검사에 의한 초고속 한

국어 형태소 분석,” 정보과학회논문지: 소프트웨

어 및 응용, 31(1), 89-99.

양은정·황철수, 2014, “비정형 데이터의 공간적 시각화

자동화 방법 탐색: 웹크롤링을 통한 여행지 및 여

행지 관심빈도 추출을 중심으로,” 대한지리학회

학술대회논문집, 277-278.

이범석·김석중·황병연, 2012, “트위터 사용자가 제공한

위치정보의 신뢰성 분석,” 멀티미디어학회논문

지, 15(7), 910-919.

임준엽·하현수·황병연, 2015, “트윗 텍스트의 유사 키워

드 추출을 통한 이벤트 지역 탐지 기법,” 한국공

간정보학회지, 23(5), 1-7.

조성진·황정환·Bellemans, Tom·Kochan, Bruno·

이원도·최기주·조창현, 2014, “활동기반 시뮬

레이터 입력 자료의 전처리 방안에 대한 연구:

FEATHERS SEOUL을 사례로,” 대한교통학회지,

30(5), 531-543.

조창현, 2007, “활동기반 접근법에 의한 활동패턴의 맥

락적 정보분석과 프로파일,” 대한교통학회지,

25(6), 171-183.

홍석현·황철수, 2014, “비정형 데이터의 내용분석을 활용

한 여행자 특성에 따른 여행 이동패턴 분석,” 대

한지리학회 지리학대회 발표 논문 요약집, 279-

280.

홍일영, 2015, “국내 지오트윗의 공간분포,” 한국지도학회

지, 15(2), 93-101.

홍일영, 2016, “국내 위치기반 소셜네트워크(Location

Based Social Network) 데이터의 공간분포,” 한

국지도학회지, 16(2), 95-104.

황태건·조성진·황철수, 2016, “시공간 비정형 빅데이터

를 이용한 외국인 일일 활동의 시공간패턴 분석:

트위터를 사용하는 서울시 거주 외국인을 대상으

로,” 국토지리학회지, 50(4), 439-454.

Chen, Y. C., Shang, R. A. and Li, M. J., 2014, The effects of

perceived relevance of travel blogs’ content on the

behavioral intention to visit a tourist destination,

Computers in Human Behavior, 30, 787-799.

Cheng, Z., Caverlee, J. and Lee, K., 2010, You are where you

tweet: a content-based approach to geo-locating

twitter users, In Proceedings of the 19th ACM inter-

national conference on Information and knowledge

management, 759-768.

Cohen, W. W. and Sarawagi, S., 2004, Exploiting dictionar-

ies in named entity extraction: combining semi-

markov extraction processes and data integration

methods. In Proceedings of the tenth ACM SIGKDD

international conference on Knowledge discovery and

data mining, 89-98.

Cunningham, H., Maynard, D., Bontcheva, K. and Tablan,

V., 2002, A framework and graphical development

environment for robust NLP tools and applications,

In ACL, 168-175.

Flatow, D., Naaman, M., Xie, K. E., Volkovich, Y. and

Page 12: 위치 참조가 없는 블로그 텍스트를 이용한 위치 정보 추출: 종로구 …kgeography.or.kr/homepage/kgeography/www/old/publishing/journal/53/05/11.pdf후 활동위치를

- 788 -

문성국·조성진·황철수

Kanza, Y., 2015, On the accuracy of hyper-local

geotagging of social media content, In Proceedings

of the Eighth ACM International Conference on Web

Search and Data Mining, 127-136.

Freire, N. M. A., 2012, Entity Recognition and Resolution in

Poorly Structured Data, Doctoral dissertation, Uni-

versidade Técnica de Lisboa.

Hasan, S. and Ukkusuri, S. V., 2014, Urban activity pat-

tern classification using topic models from online

geo-location data, Transportation Research Part C:

Emerging Technologies, 44, 363-381.

Jiang, J., 2012, Information extraction from text, in Ag-

garwal, C. C. and Zhai, C. (ed.) Mining text data,

Springer Science & Business Media, 11-42.

Kim, E. K. and MacEachren, A. M., 2014, An Index for

Characterizing Spatial Bursts of Movements: A

Case Study with Geo-Located Twitter Data. In

GIScience 2014 Workshop on Analysis of Movement

Data.

Kitchin, R., 2013, Big data and human geography Oppor-

tunities, challenges and risks, Dialogues in human

geography, 3(3), 262-267.

Larsson, A. O. and Hrastinski, S., 2011, Blogs and blogging:

Current trends and future directions, First Monday,

16(3).

Li, L., Goodchild, M. F. and Xu, B., 2013, Spatial, temporal,

and socioeconomic patterns in the use of Twitter

and Flickr, Cartography and Geographic Information

Science, 40(2), 61-77.

Meng, C., Cui, Y., He, Q., Su, L. and Gao, J., 2017, Travel

purpose inference with GPS trajectories, POIs,

and geo-tagged social media data. In Big Data (Big

Data), 2017 IEEE International Conference on,

1319-1324.

Miner, G., Elder IV, J. and Hill, T., 2012, Practical text min-

ing and statistical analysis for non-structured text data

applications. Academic Press.

Samuel, A. and Sharma, D. K., 2018, Location estimation

of non-geo-tagged tweets, Evolutionary Intelligence,

1-12.

Sarawagi, S., 2008, Information extraction, Foundations and

trends in databases, 1(3), 261-377.

Shin, J., 2014, Theoretical review and quantitative spatial

exploration of tweet data in the context of digital

divide: case of King County, US, The Korean Carto-

graphic Association, 14(2), 89-106.

Wang, S., Sinnott, R. and Nepal, S., 2018, P-GENT:

Privacy-Preserving Geocoding of Non-Geotagged

Tweets. In 2018 17th IEEE International Conference

On Trust, Security And Privacy In Computing And

Communications/12th IEEE International Confer-

ence On Big Data Science And Engineering (Trust-

Com/BigDataSE), 972-983.

교신: 황철수, 02447, 서울시 동대문구 경희대로 26, 경

희대학교 지리학과(이메일: [email protected], 전화: 02-

961-9313)

Correspondence: Chul Sue Hwang, Department of Geog-

raphy, Kyung Hee University, 26, Kyungheedae-ro, Dong-

daemun-gu, Seoul, Korea, 02447 (e-mail: [email protected],

phone: +82-2-961-9313)

최초투고일 2018. 9. 17

수정일 2018. 10. 2

최종접수일 2018. 10. 15