데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한...

147
데이터 기반 정책결정사례 정책이 복잡해지면서 데이터 기반 정책이 중요해지고 있다. 정책의 투명성과 과학성을 뒷받침해주는 데이터의 규모와 활용에 따라 정책결정이 어떻게 달라질 수 있는지 사례를 통해 살펴본다. ┃ 국가공무원인재개발원_연구개발센터 ┃

Upload: others

Post on 04-Feb-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반정책결정사례

정책이 복잡해지면서 데이터 기반 정책이 중요해지고 있다.

정책의 투명성과 과학성을 뒷받침해주는 데이터의 규모와 활용에 따라

정책결정이 어떻게 달라질 수 있는지 사례를 통해 살펴본다.

┃ 국가공무원인재개발원_연구개발센터 ┃

데이

터 기

반 정

책결

정사

례국

가공

무원

인재

개발

원 _ 연

구개

발센

Page 2: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반정책결정사례

Page 3: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

발행인 국가공무원인재개발원장 양향자

발행일 2019년 1월 31일

펴낸이 국가공무원인재개발원 연구개발센터

연구진 고길곤 (서울대 행정대학원 교수)

신수현 (쏘카 매니저)

박세나 (씨엘컨설팅 수석컨설턴트)

김경동 (서울대 행정대학원 석사과정)

정다원 (서울대 행정대학원 석사과정)

기획·디자인 디자인크레파스 02-2267-0663

일러두기

이 책은 (사)한국행정학회가 2018년도에 수행한 ‘데이터 기반 정책기획 역량강화를 위한 교육용 정책사

례 연구’ 용역 결과의 주요 내용을 발췌하여 작성한 것으로 정부의 공식적인 입장이나 견해와 다를 수

있습니다.

Page 4: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반

정책결정사례

Page 5: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

004

목 차

Ⅰ데이터 기반 정책

01 데이터 기반 정책결정의 이해를 위한 교육사례 개발 008 1. 연구배경 008 2. 사례선정 및 연구 추진 절차 012 02 정책의 투명성과 과학성을 위한 데이터 기반 정책 016 1. 데이터 기반 정책의 의미와 논쟁 016 2. 공공데이터와 개방데이터 027 3. 데이터 기반 분석방법론 036

Ⅱ정책사례 연구

01 서울시 젠트리피케이션 사례의 배경 044 1. 젠트리피케이션은 어떤 현상이며 어떻게 이해되어 왔는가? 044 2. 기존 데이터에 기반을 두지 않은 정책결정은 어떤 문제가 있었는가? 052 3. 데이터 기반이 정책결정에 어떤 도움을 줄 수 있는가? 053 02 사례의 개요 056 1. 분석의 배경 056 2. 서울시의 대응 058 3. 성동구의 인식 및 대응 062 4. 정책수립과정의 불투명성: 외부자의 한계 064

Page 6: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

005

목 차

03 데이터를 기반으로 접근한 서울시의 젠트리피케이션 정책 067 1. 데이터 기반 접근의 필요성 067 2. 분석과정 075 04 젠트리피케이션의 시사점 087

Ⅲ정책 교육

01 정책사례교육의 성공을 위한 강의교안 092 1. 강의교안의 구성 092 2. 강사용 보충자료 097 02 강의교안에 맞춘 학생용 교재 134 1. 학생용 교재의 구성 134 2. 학생용 교재 135

참고문헌 143

Page 7: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

006

Ⅰ데이터 기반 정책

Page 8: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

007

데이터 기반 정책

01 데이터 기반 정책결정의 이해를 위한 교육사례 개발 _ 008

02 정책의 투명성과 과학성을 위한 데이터 기반 정책 _ 016

Page 9: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

008

01

데이터 기반 정책결정의 이해를 위한 교육사례 개발

1.연구배경

정책의 복잡성이 증대됨에 따라 데이터 기반 정책의 중요성은 더욱 커지고

있다. 데이터 기반 정책은 증거 기반 정책(evidence-based policy making)이나

빅데이터 기반 정책이라고 부르기도 하며 과학적 정책결정(scientific policy

making)이라 불리기도 한다. 어떤 이름으로 불리든 정책을 만들 때에는 정책

의 투명성과 과학성을 위해 엄밀한 정책분석에 바탕을 두어야 한다는 점에

서는 대부분의 학자와 실무자들이 동의한다.

그러나 최근의 데이터 기반 정책에 대한 논의는 과거의 논의와 구분되는

몇 가지 새로운 측면이 있다. 첫째, 데이터의 의미, 유형, 크기, 속도, 가치

가 달라지고 있다는 점이다. 과거의 데이터는 주로 정부에 의해서 주기적으

로 생산되는 행정통계나 특정 목적을 위해 공공과 민간이 일시적 혹은 주기

적으로 수집한 자료들이 대부분이었다. 이와 달리 기존 기술로 처리하기 어

려운 방대한 양의 데이터가 생산·가공됨에 따라 새로운 형태의 비정형 데

이터들도 데이터의 범위에 포함되기 시작하였다. 이러한 비정형 데이터들은

문서, 이미지, 목소리, 위치정보, 동영상 등을 포괄하고 있다. 이 비정형 데

Page 10: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

009

데이터 기반 정책

이터의 규모의 크기는 전통적인 정형 데이터보다 기하급수적으로 증가하고

있다.

비정형데이터규모의급증

IT 시장조사 기관인 Gartner가 2011년 발간한 보고서 ‘Big Data Analytics’에 따르면 기존의

데이터와 다른 빅데이터의 특징 중 하나는 비정형 데이터의 비중이 높다는 것이다. 이는 데

이터 처리의 복잡성을 증대시키는 요인이기도 하다.

비정형 데이터의 증가 속도는 누구도 예측할 수 없는 정도이다.

IBM(International Business Machines Corporation)에 따르면 전 세계 정보의 80%는 비정형

데이터이며, 증가율은 정형 데이터 증가율의 약 15배 정도를 상회한다.

자료: 김정숙, 2012; 조성우, 2011; 신동희·김용문, 2015

둘째, 정책 복잡성을 포괄할 수 있는 하나의 지표나 데이터는 존재하지

않는다는 점이다. 현대 정책은 다수의 참여자가, 다수의 목적함수를 가지고,

다수의 대안에 대한 선호를 갖고 있으며, 정책의 효과도 연관되어 있는 다른

정책이나 환경 변수에 영향을 받는 복잡성을 가지고 있다. 그 정책결과의 예

측 복잡성(predictive complexity)이 매우 크다는 점을 대부분의 연구자들이 동

의하고 있다. 사악한 문제(wicked problem)라는 용어가 정책학에서 널리 사용

된 것도 이러한 정책의 복잡성에 대한 인식이 자리 잡고 있다. 이러한 상황

에서 노동, 복지, 경제, 환경, 교육 등의 다양한 정책영역의 문제를 하나의

변수나 자료를 이용하여 정책문제를 정의하고 대안을 찾는 것은 불가능하

다. 이런 배경 때문에 최근 고용정책과 관련된 논쟁에서 잘 나타나듯이 실업

률, 고용률과 같은 단순한 지표만을 가지고는 고용시장의 상황을 파악하는

것은 불가능하며 잘못된 정책 결론을 초래할 위험이 크다.

셋째, 데이터에 주도되는 정책(policy driven by data)이라는 접근과 정책을

위한 데이터(data for policy)라는 접근 간의 긴장 관계가 커지고 있다. 데이터

Page 11: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

010

에 의해 주도되는 정책은 인공지능(artificial intelligence)으로 대표되는 새로

운 기술에 기반을 두고 정책문제의 인지, 대안의 탐색, 집행 관리, 평가와 환

류를 데이터와 분석 결과를 바탕으로 진행하는 것이다. 예를 들어 문화체육

관광부의 정책여론수렴 시스템을 이용해보면 [그림1]과 같이 미세먼지와 관

련된 연관어들의 단어구름(word cloud)을 확인할 수 있는데 이러한 데이터 분

석결과에 따라 확인된 이슈들을 중심으로 정책이 만들어지게 되면 데이터에

주도되는 정책이라고 할 수 있다. 이 경우 정책결정자의 주관적인 판단은 가

능한 배제하고 시스템과 데이터 분석 결과에 의해 정책이 결정되는 접근을

선호한다.

[그림1] 빅데이터로 찾아본 정책이슈

자료: 문화체육관광부 정책여론수렴시스템(big.pr.go.kr), 수집기간: 2018. 3. 1.~ 3. 31.

Page 12: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

011

데이터 기반 정책

반면 정책을 위한 데이터 접근은 정책결정에 필요한 다양한 요소 중에서

데이터의 역할을 강조하면서도, 정책결정자가 정책에 필요한 데이터가 무엇

인지를 명확히 알고 목적에 맞게 정책데이터를 활용하는 것이다. 이 접근에

서는 정책결정의 다양한 요소 중의 하나로써 데이터를 고려하는 것이지, 데

이터가 정책결정의 충분조건이라고 보지는 않는다.

일반적으로 정책을 위한 데이터가 당연한 접근이라고 생각할 수 있지만

현실은 오히려 데이터에 의한 결정에 무게 중심이 옮겨질 가능성이 크다. 예

를 들어 인공지능 프로그램이 어떤 정책을 추진해야 된다고 결정했을 때 이

인공지능의 제안을 단순히 참고 자료라고 무시하기는 쉽지 않다. 정부의 신

뢰가 떨어지고 데이터에 대한 신뢰가 지나치게 커지면 데이터가 정책을 결정

하는 현상이 일반화될 가능성은 충분히 높다. 실제로 인공지능을 이용한 환

자 진단 시스템인 왓슨이 암이라고 결정해서 수술을 하라고 제안했는데 의사

가 이 결정이 잘못되었다고 주장하면서 수술을 하지 않아 환자가 사망하게

되면 의사는 자신의 결정에 책임을 져야 한다. 이때 의사의 결정이 타당한지

여부에 대한 입증책임은 인공지능보다는 의사에게 있을 가능성이 크며, 그

경우 의사는 인공지능의 결정에 반하는 선택을 하지 않을 가능성이 크다.

넷째, 기술과 정책결정자의 활용능력 사이에 격차가 심화되고 있다. 데이

터의 용량이 커질수록 분석해야 될 변수의 수가 증가하며, 변수의 형태도 다

양해진다. 따라서 대용량 자료를 처리할 수 있는 능력이 필수적이지만 정책

결정자의 자료처리 역량은 자료의 증가 속도에 비해 현저히 느리다. 또한 복

잡한 자료를 분석할 수 있는 다양한 방법론이 개발되고 있으나 이러한 방법

론을 제대로 이해하고 활용할 역량 역시 부족한 것이 현실이다. 특히 기술이

생성하는 다양한 정보를 실제 정책과 연결시킬 수 있는 역량 역시 부족하다.

그 결과 기술과 정책결정자의 활용능력 사이에는 심각한 격차가 발생하고

Page 13: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

012

있다.

이러한 상황에서 공무원들의 데이터 기반 정책결정 능력을 향상시키기 위

한 교육의 중요성이 매우 커지고 있다. 실제 업무에서 데이터를 활용한 정책

결정의 경험이 없는 공무원들은 데이터 기반 정책결정과 관련된 다양한 문

제를 고민하는 기회를 가질 필요가 있다. 정책현장에서는 빅데이터 분석, 데

이터 어낼릭틱스(data analytics), 데이터 사이언스(data science) 등의 다양한

용어가 사용되고 있지만, 실무자들이 그 구체적인 내용을 제대로 이해하지

못한 채 지나치게 낙관적인 행태를 보이거나, 데이터 분석을 통해 제시된 결

과를 맹목적으로 받아들이는 문제가 흔히 발생하게 된다. 따라서 데이터 기

반 정책결정 능력의 향상은 데이터와 분석 방법에 대한 충분한 이해가 전제

되어야 한다.

본 연구는 데이터 기반 정책결정 능력 향상을 위한 연구가 아니라 데이터

기반 정책결정을 이해하기 위한 교육사례 개발을 위한 연구이다. 즉 현실의

사례를 이용하여 데이터 기반 정책과 관련된 다양한 쟁점들을 이해할 수 있

도록 사례를 개발하여 교육현장에서 활용할 수 있도록 하는 것이다. 따라서

가능한 교수자, 학습자 등의 관점에서 본 사례를 최대한 활용할 수 있도록 사

례를 개발하고, 이에 따른 교수 교안과 학생 교안을 함께 제시하고자 한다.

2.사례선정및연구추진절차

1)사례의선정

빅데이터를 정책결정에 이용한 사례는 매우 다양하다(신동희·김용문, 2015;

성지은·박기량, 2004; 김재생, 2014). 공공데이터 포털(www.data.go.kr)에 공개

Page 14: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

013

데이터 기반 정책

된 공공행정 관련 공동데이터 활용사례도 2018년 말 현재 130건이 넘었으

며, 이 숫자는 계속 증가하는 추세이다. 민간부분에서는 신용카드 정보를 이

용하여 업종의 변화, 소비패턴의 변화, 지역 상권분석 등을 수행하는 것뿐만

아니라 관광객의 이동 분석을 통해 관광산업 및 정책에 많은 시사점을 유도

해 내기도 한다.

다양한 정책 사례 중 서울시 젠트리피케이션 정책을 사례로 선정한 이유

는 다음과 같다.

첫째, 젠트리피케이션 사례는 사회가치 충돌과 관련된 정책도 데이터 분

석을 통해 얻은 정보를 이용하여 합리적 정책판단을 할 수 있음을 보여준다.

임대료 상승에 따라 원주민과 임차인이 내몰리는 현상은 사회가치의 충돌

문제를 야기하게 되고, 이에 대한 정책결정은 정치적으로 이루어진다. 이런

정치적 판단은 흔히 특정 이념이나 지지자 집단의 조직화된 정치과정을 통

해 이루어지게 되는 경향이 많다. 그 결과 합리적 의사결정과 정치적 의사결

정은 서로 공존하기 쉽지 않다는 주장이 제기되어 온 것이 사실이다. 하지만

서울시의 젠트리피케이션 사례는 사회가치가 충돌 되는 상황에서 데이터 분

석을 통해 얻은 정보를 이용하여 정책판단을 합리적으로 할 수 있는 가능성

을 보여주고 있다는 점에서 그 특징을 찾을 수 있다.

둘째, 정책을 위한 데이터 분석의 접근을 취하고 있는 사례라는 점이다.

데이터 분석의 결과를 바탕으로 정책을 만들기보다는 문제를 해결하기 위해

데이터 분석이 진행되었다는 점은 서울시 젠트리피케이션이 갖고 있는 큰

특징이다. 다음은 서울시가 젠트리피케이션에 선제적으로 대응을 하기 위해

체계적인 데이터 분석을 적극 시도했음을 잘 보여준다.

Page 15: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

014

서울시가 젠트리피케이션 현상에 선제적으로 대응하기 위해 지난 10년간 빅데이터를 활용

한 정책지도 개발에 나선다. 이를 위해 서울시는 이달중 연구용역을 발주할 계획이라고 12

일 밝혔다.

‘젠트리피케이션’이란 낙후됐던 지역이 활성화되면서 임대료가 상승해 원주민과 임차인 등

이 내몰리는 현상을 말한다.

시에 따르면 정책지도는 도시재생활성화지역 등 주요지역을 포함한 서울시 전역의 인구이

동, 부동산거래 등 빅데이터 자료 분석을 기반으로 개발된다.

시는 각 지역의 젠트리피케이션 현상을 관찰하고 예측해 선제적·체계적 대응방안을 마련

하고 도시재생정책 수립에 활용한다는 계획이다.

정책 수립과 관련해 시는 건축·법률 등 실무진으로 전문가 그룹을 구성해 논의할 방침이다.

진희선 서울시 도시재생본부장은 “젠트리피케이션 현상을 상생·협력적인 방향으로 유도

하기 위한 다양한 방안을 마련할 계획”이라며 “서울형 도시재생 차원의 차별화된 접근을 통

해 침체된 도시에 활력을 주고 함께 잘 사는 지역문화를 구축해나겠다”고 말했다.

자료: 뉴시스, 2016. 5. 12.

셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용

하는 과정을 보여줄 수 있다는 장점이 있다.

2)연구추진절차

먼저 데이터 기반 정책의 의미 및 논쟁에 대해 검토한 후, 데이터 기반 정책

과정을 서울시 젠트리피케이션 사례에 적용하여 사례를 분석하였다. 사례를

기술할 때에는 단순히 과정을 나열하기보다는 교육사례로써 활용할 수 있도

록 실제 사례를 교육사례 형태로 변형시켰으며, 가상의 상황도 필요한 경우

에는 포함시켰다. 또한 사례를 토론하거나 강의할 때 활용할 강의교안을 개

발함에 있어서는 빅데이터 분석이나 젠트리피케이션과 연관되어 있는 전문

적 지식에 대한 정보가 필요할 수 있기 때문에 이에 대한 간략한 설명과 참

고자료도 함께 제공하여 교육에 활용도를 높이고자 하였다. 마지막으로는

학생들이 수업 시간 또는 전후에 활용할 수 있는 워크북 형태의 학생용 자료

를 개발하였다.

Page 16: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

015

데이터 기반 정책

•의미 및 논쟁

•공공데이터

•분석방법론

데이터 기반 정책

•수업 차시별

• 보충자료 및

연습문제

학생용 교재 개발•수업 차시별

• 강사용

보충자료

강의교안 개발

•�서울시

젠트리피케이션

정책사례

정책사례

[그림2] 연구흐름도

Page 17: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

016

02

정책의 투명성과 과학성을 위한 데이터 기반 정책

1.데이터기반정책의의미와논쟁

생각해볼것

최근 증거 기반 정책의 중요성이 강조되고 있다. 왜 증거기반 정책의 중요성이 부각되고

있는 것일까? 도대체 증거란 무엇인가? 증거가 존재한다면 이것이 정책에 활용될 수 있

을까? 증거의 부가가치는 어떻게 증대시킬 수 있을까?

정책의 복잡성이 증대됨에 따라 데이터 기반 정책의 중요성은 더욱 커지고

있다. 데이터 기반 정책은 증거 기반 정책(evidence-based policy making)으로

불리기도 하고, 빅데이터 기반 정책이라고 부르기도 한다. 어떠한 이름으로

불리든지 정책의 투명성과 과학성을 위해 엄밀한 정책분석을 바탕으로 정

책이 이루어져야 한다는 점에서는 대부분의 학자와 실무자들이 동의를 하고

있다.

그러나 정책 과정의 현실을 고려한다면 증거 기반 정책이 과연 타당한지

에 대해서는 비판적 의견의 제시가 가능하다. 첫 번째, 증거 기반 정책이 최

근 들어서 주목을 받게 된 것은 단순히 정책이 증거에 기반을 둔다는 규범적

정당성 때문이 아니라 실용적이고 탈이념적인 정책결정의 중요성이 강조되

Page 18: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

017

데이터 기반 정책

었기 때문이다. 정책학이 사회과학 분야의 하나로 자리 잡기 시작한 1950년

대 이후 Lasswell(1951)을 비롯한 Dror(1967) 등은 정책과학(policy science)과

합리적 정책결정의 중요성을 강조하면서 체계적인 정책분석의 중요성을 강

조해왔다.

즉 증거에 기반을 둔 정책결정은 전혀 새로운 현상이 아니다. 그럼에도

불구하고 20세기 후반에 증거 기반 정책이 강조되기 시작한 것은 이하의 인

용문에서도 제시되듯이 정책의 탈이념화와 실용성에 대한 강조가 큰 원인이

라고 할 수 있다. 이것은 보수적인 대처 정부 이후 구소련 체제의 붕괴, 세계

화의 급속한 진행, 산업구조의 급격한 변화 등으로 정치적 이념보다는 경제

적 효율성이 더욱 중요한 사회적 가치로 대두되었고, 재정적자와 정부의 비

효율적 운영에 대한 비판이 높아지면서 탈이념화와 실용성은 행정의 중요한

특징으로 대두하였다. 이러한 경향을 일부에서는 신자유주의(neo-liberalism)

라고 부르기도 하지만 궁극적으로는 실용성에 초점을 두고 있다는 점에서

특정 정치적 이념으로 개념화하기는 쉽지 않다.

이러한 맥락에서 증거 기반 정책이 탈이념화와 실용주의를 추구하고 있지

만 정책은 궁극적으로 사회가치를 배분하는 행위이다. 즉 정책은 정치적이

고 이념적인 행위이며 때로는 실용적이기보다 규범적일 수밖에 없다는 속성

이 강조되므로 이것이 비판받을 수 있다. 특히 공정성과 형평성을 강조하는

입장에서는 정책을 효율성이나 실용성의 관점에서 접근해서는 안 된다는 비

판을 제기하면서 정책결정의 민주성과 정치성을 강조한다.

Page 19: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

018

증거기반정책의배경

‘증거 기반(Evidence-Based)’이라는 용어가 처음 쓰이기 시작한 분야는 의학과 보건의료 분

야였다. 증거 기반 보건의료는 체계적이고 과학적인 최신의 연구결과를 환자의 진료에 이용

하고자 하는 합리적인 사고에서 출발하였고, 영국과 미국을 중심으로 1990년대부터 ‘증거

기반 의학(Evidence-Based Medicine)’, ‘증거 기반 치의학(Evidence-Based Dentistry)’, ‘증

거 기반보건의료(Evidence-Based Health Care)’라는 새로운 학문영역을 발전시켰다(김명

수, 2007). 정책분야에서 증거 기반 정책(Evidence Based Policy)이란 용어를 명시적으로 사

용한 것은 영국정부가 1999년에 발간한 Modernising Government 백서에서였다. 정책 증거

의 활용은 20세기 중반 이후 일반적인 현상이었음에도 불구하고, 이 당시 영국정부에서 특

별히 증거 기반 정책이란 용어를 사용한 배경은 크게 두 가지로 설명된다. 먼저 연구지원 정

책이 경제적 사회적 우선순위를 고려하고, 연구결과를 유용하게 이용할 수 있도록 제공하는

실용적인 방향으로 전환된 점을 들 수 있다. 둘째는 노동당 정부가 집권하면서 정책에 있어

서 실용적(pragmatic)이고 탈이념적(anti-ideological) 입장을 취하였고, 이로 인해 증거 기반

접근방법이 강한 추진력을 얻은 까닭이다(Solesbury, 2001).

자료: 윤영근, 2013:106

둘째, 증거 기반 정책에서 제기하는 ‘증거’의 개념이 모호하다는 것이다.

증거를 정책을 뒷받침할 수 있는 근거로 이해하는 입장(윤영근, 2013)에서는

증거의 범위가 매우 광범위해지게 된다. Head(2008)의 견해와 같이 정치적

지식, 과학적 지식, 실용적 지식으로 증거를 구분할 수도 있지만 이러한 구

분은 결국 정책에 필요한 모든 정보를 증거로 이해하게 되어 지나치게 광범

위하고 추상적으로 증거를 이해하게 되는 문제를 초래하게 된다. 이 밖에

<표1>과 같이 다양한 연구자들이 증거의 내용을 제시하고 있으나 이러한 유

형의 증거는 증거 기반 정책에 대한 관심이 증대한 20세기 후반 이전에도 논

의되어 왔던 내용이다.

Page 20: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

019

데이터 기반 정책

<표1> 증거의 다양한 내용

연구자 증거의내용

B.Head(2010) 체계적(과학적) 연구, 프로그램 관리 경험(실행), 정치적 판단

Foundation(2014) 프로그램 평가, 예산 개발, 집행 감독, 결과 모니터링, 타기팅 평가

Office(1999)전문지식, 국내외 연구, 통계, 이익집단의 요구, 정책 평가, 인터넷과

같은 이차자료에서 유래한 정보 중 관련 분야 전문가가 판별한 것

한국법제연구원(2015)전문가 지식, 연구 성과물, 이해관계자 협의, 이전정책 평가, 인터넷,

자문결과, 정책 대안에 대한 비용, 경제적/통계적 모델링 산출물 등

자료: 오세영·윤건·오균, 2017: 13

증거를 구체적으로 정의한다면 전문적 지식, 정책분석 및 평가 결과, 통

계자료 및 분석 결과와 같이 객관적으로 검증 가능한 형태의 정보로 이해

할 수도 있다. 그러나 이러한 유형의 증거는 이전의 정책결정과정에서도 널

리 사용되어 왔던 것이다. 이러한 점에서 미국 증거 기반 정책결정 위원회

(Commission on Evidence-Based Policymaking)의 2017년 보고서가 제시하는

근거에 대한 정의는 중요한 시사점을 제공한다. 이 보고서는 증거를 “정부

의 프로그램이나 정책을 평가하는데 있어서 잠재적으로 유용한 정보로 ‘통계

적 목적(statistical purpose)’을 갖고 ‘통계적 활동(statistical activity)’을 통해 얻

어진 것”으로 정의하고 있다.1) 증거를 모호하게 정의하기보다는 통계적 정

보로 좁혀서 제시하고 있다는 점은 매우 시사적이다. 이것은 증거 기반 정책

이 합리적 정책결정의 일종이지만, 통계자료와 높은 수준의 통계분석을 통

해 얻어지는 정보에 기반을 둔 정책이라는 점을 강조함으로써 빅데이터, 공

공데이터 혹은 개방데이터가 증거 기반 정책의 핵심이 된다는 점을 명확히

하고 있다는 점을 주목할 필요가 있다. 이러한 이유로 증거 기반 정책이라는

1) U.S. Commission on Evidence-Based Policymaking, “The promise of evidence-based

policy making”, p.8. 이 보고서에서는 통계적 목적과 통계적 활동에 대한 구체적인 정의도 함께

제공하고 있다.

Page 21: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

020

용어보다는 데이터 기반 정책이 정책과정에 대한 접근 방식을 명확하게 묘

사한다고 할 수 있다.

셋째, 증거가 실제 정책에 활용될 수 있는지에 대한 문제이다. 증거는 비

용 없이 수집되는 것이 아니다. 물론 최근 데이터 수집과 처리에 관련된 비용

이 급속히 감소하고 있지만 증거 수집에는 상당한 비용이 든다. 그러나 많은

비용을 들여 여러 분야의 폭넓은 정보를 수집하고 있음에도 제대로 활용하지

못하고 방치되고 있는 것이 현실이다(이현정·남영준, 2012; 윤소영, 2013:263에

서 재인용). 따라서 증거는 어떤 정책문제를 해결에 활용할 수 있는지, 즉 활용

가능성을 충분히 검토하지 못하게 되면 막연히 증거가 활용될 것이라는 낙관

론에 머무르게 될 위험이 크다. 실제로 공공데이터 활용에 대한 각종 연구들

은 수집된 자료들이 제대로 의사결정이나 비즈니스에 활용되지 못하고 있다

는 비관론을 제시하고 있는 것이 사실이다(김구, 2017). 그럼에도 불구하고 공

공부문에서는 다양한 형태로 빅데이터를 비롯한 공공데이터가 활용되고 있

다. 예를 들면 <표2>와 같이 중앙정부, 지방정부, 공공기관의 차원에서 다양

하게 활용되고 있으며 이러한 활용은 지속적으로 증가할 것으로 예측된다.

또한 증거들이 직접적으로 정책결정에 활용되지는 않지만 다양한 형태로 활

용되고 있는 것이 현실이다. 오세영 외(2017:98)의 설문조사 결과를 보면 ‘일

반적인 정책(계획, 사업 및 프로그램 포함) 과정에서 국가(승인/비승인) 통계의 활

용도는 얼마나 된다고 생각하십니까?’라는 질문에 대해 중앙정부 공무원은

87%가 약간 혹은 매우 활용된다고 응답하였고 출연연 연구원의 경우에는

52%가 응답을 하고 있다. 이것은 증거가 활용되지 않는다는 비관론보다는

증거 활용의 부가가치를 높여야 한다는 주장이 더 타당함을 의미한다.

Page 22: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

021

데이터 기반 정책

<표2> 한국의 공공부문 빅데이터 활용 현황

구분 참여기관 사업내용

중앙

정부

과학기술정보통신부

차세대 메모리 기반의 빅데이터 분석·관리 소프트웨어 원

천기술 개발

초소형·고신뢰 OS와 고성능 멀티코어 OS를 동시 실행하

는 듀얼 운영체제 원천기술 개발

빌딩 내 기기들을 웹을 통해 연동하여 사용자 맞춤형 최적

제어·모니터링 서비스를 제공하는 소프트웨어 개발

빅데이터 시범사업 컨소시엄 5개 선정

심실부정맥 예측, 입원병상 최적화 등 보건의료 서비스

고용노동부

일자리 현황분석을 통한 고용 수급 예측

실업급여 부정수급 방지

근로감독 사업장 선정 과학화

중소벤처기업부 소상공인 창업성공률 제고를 위한 점포평가 서비스

보건복지부 국민건강정보 DB를 활용한 맞춤형 건강서비스 개발

식품의약품안전처 빅데이터 기반의 의약품 안전성 조기경보 서비스

통계청빅데이터 활용 국민체감 통계생산(경제 및 물가지수 등)

빅데이터를 활용한 통계 조사(인구 총조사에 활용)

교육부 빅데이터 활용 스마트 뉴스 모바일 앱 개발

농립축산검역본부 조류 인플루엔자(AI) 조기 대응

행정안전부데이터 기반의 공공서비스 품질진단모델 수립

지자체 갈등 이슈 파악을 통한 선제적 대응

행정안전부·경기도 국민참여형 어린이 안전 및 교통사고 원인 분석

국토교통부·경기도 공동주택 관리비 투명성 제고

산림청 산불위험 예보 및 확산 서비스

지방

정부

광주광역시 빅데이터를 활용한 광주 시내버스 효율화

서울시유통인구 빅데이터를 활용한 심야버스 노선 수립

우리마을가게 상권분석 서비스

Page 23: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

022

구분 참여기관 사업내용

지방

정부

경기도

경기도 따복버스 노선도 분석

빅데이터 활용 상권영향분석 조례 추진

CCTV 사각지대 분석

대구광역시 방화벽 보안 로그 분석

행정안전부

빅데이터 로그분석으로 보안사고 및 장애예방 강화

빅데이터 기반의 개인정보 보호체계 및 침해예보제 운영기

반 구축

공공

기관

인천광역시 소셜 빅데이터 분석 시스템 용역

광주 광산구 시민 맞춤형 서비스 사례

서울 도봉구 주민 참여형 빅데이터 행정 구현

부산 해운대구 빅데이터 활용 스마트 행정

경상북도 영천시 민원데이터 분석

전라북도·전주시 빅데이터를 활용한 지역관광 활성화

법제처 국가법령정보센터 로그분석

도로교통공단·경찰청 맞춤형 위험도로 예보 시스템 구축

국민건강보험공단 헬스맵 서비스를 위한 환자 의료이용지도 구축

한국생산기술연구원 고객서비스 향상을 위한 정보시스템 고도화사업

한국관광공사 빅데이터 분석 기반 외국인 관광산업 지원

한국남동발전 발전설비 운영효율 극대화

농림수산식품교육문화정보원 스마트 농정 실현을 위한 빅데이터 서비스 구현

한국국토정보공사,

한국건설기술연구원국도 비탈면 붕괴사고 예측

건강보험심사평가원 실시간 국민관심 질병예측 서비스

국민연금공단 남양주시 잠재적 사회취약계층 일자리 창출 및 자립 지원

국립재난안전연구원 스마트 재난안전체계 구축

자료: 성욱준(2016) 재구성

Page 24: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

023

데이터 기반 정책

넷째, 증거의 시스템화를 통한 부가가치 창출과 정책의 질 개선이 필요하

다는 점이다. [그림3]과 같이 데이터는 그 자체로 부가가치를 창출하기보다

는 체계적인 분석과정을 통해 부가가치가 창출이 된다. 자료를 불러오고 가

공하는 단계에서 다양한 분석기법들이 활용될 수 있으며, 이러한 과정들이

결합되어 하나의 분석 시스템에서 이루어지지 않고 개별적으로 이루어지면

공공데이터의 활용은 일회성에 그치게 되고 다른 분석 프로그램과의 결합도

어렵게 될 수밖에 없다.

자료 불러오기 자료의 결합

분포와 모양

회귀 분석

공간 분석

자료의 정제

통계 그래프

다변량분석

웹 기반의 MAP 활용

추세 분석

시계열분석

기술통계 모듈

통계분석 모듈

GIS 모듈

새로운 부가가치모듈

공공데이터 DB

[그림3] 공공데이터 부가가치 증대를 위한 체계적인 분석 체계

Page 25: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

024

증거기반정책을둘러싼쟁점들

증거 기반 행정은 명확한 증거를 활용함으로써 이데올로기나 의견에 의한 결정을 할 때보

다 결정과정이 투명해지고 갈등을 줄일 수 있을 것이라는 신념에 밑바탕을 두고 있으나, 현

실에서 나타나는 행정과 정책결정과정에는 여전히 다양한 의견대립과 심각한 갈등이 나타

나고 있다(최영준 외, 2016).

결국 증거 기반 정책결정의 장점이 분명 존재함에도 불구하고, 그것이 정책결정의 전부가

될 수는 없으며 한계 또한 존재함을 의미한다.

장점

(1)정책의합리성제고

• 증거기반행정은 이용가능한 최선의 증거를 투입하여 충분한 정보를 가지고 정책적 의사

결정을 내리는 것이며, 정책과 관련한 장기적 시각과 효과적인 정책집행의 기회를 제공함

(Davies, 2004; Sanderson, 2002; 최영준 외, 2016에서 재인용)

(2)정부신뢰확보

• 합리성이 요구되는 정책과정에서 잘못된 정책을 수립하거나 부적절한 대안 선택 및 집행

이 이루어진다면 결과적으로 정부에 대한 국민의 신뢰를 잃게 됨(윤영근, 2012)

• 반면 증거 기반 정책결정이 이루어진다면 정부신뢰를 확보하는데 도움이 될 것이라고 생

각할 수 있음

(3)정책증거의계몽적기능

•Weiss(1977)는 정책증거의 활용가능성으로 계몽적 기능을 제시하였음(김대중, 2014)

• 이를 토대로 볼 때, 증거 기반의 정책결정을 하는 것이 정책결정자들에게 문제를 바라보

는 새로운 관점을 제공하는 등 교육적 기능도 할 수 있음을 시사한다고 할 수 있음

한계점

(1)합리성에대한지나친강조로정책의복잡성/맥락성/민주성을간과

• 불확실한 상황 속에서 몇 가지 합리적 가정에 의해 도출된 결과가 정책결정가에 의해 ‘확

실성’으로 대중에게 전달되곤 하는데, 맥락적 요인도 고려해야 함(최영준 외, 2016)

• EBPM은 정책과정의 근대화/전문화를 목표로 한 시각으로, 정책학이 정책과정의 민주성

을 증진하는데 기여하여야 한다고 본 Lasswell 및 정책과정에 있어 민주성을 중요하게 보

았던 Sch n의 시각과 대조적인 흐름임(Parsons, W, 2002: 53)

Page 26: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

025

데이터 기반 정책

(2)증거의객관성및중립성에대한의문

• 특히 구성주의적 관점에서 증거는 하나의 지식에 불과하며 지식은 정치적 행위자들의 위

치를 강화하거나 약화시키기 위한 권력적 수단으로 악용될 수 있음(Bekkers et al, 2004;

최영준 외, 2016에서 재인용)

• 증거는 정보나 데이터와 동의어가 아니며, 이용 가능한 정보의 집합에서 하나가 편향적으

로 선택된 것임(Majone, 1989; 최영준 외, 2016에서 재인용)

• Pawson(2006)에서는 ‘선택적 증거선택(cherry-picking of evidence)’이라고 칭하기도 하

였음(최영준 외, 2016)

• 의도 여부와 상관없이 특정한 인식을 기반으로 정치적 권위나 권력의 비대칭에 의해 증

거의 특정부분이 간과되거나 무시되는 상황이 발생할 수 있음(최영준 외, 2016)

• 그러므로 증거의 공정성 또는 객관성은 완전히 담보될 수 없으며, 증거 기반 행정은 정치

적 이해나 권위가 갈등하는 과정에 따른 요인들을 무시할 위험이 있음(최영준 외, 2016)

(3)정책증거의시차의문제

•대부분의 증거는 과거에 축적된 증거로 미래를 예측하는데 항상 유용한 것은 아님

•정책효과를 사전에 판단하기 위한 증거를 수집하는 것은 쉽지 않음

• 오늘날의 정책과정은 단기간에 마무리되는 정책보다 장기적인 시간계획을 갖고 추진되는

경우가 많아 초기의 정책증거가 시간이 흐른 후에도 증거로서의 타당성이 계속 유지될

수 있는지 의문이 존재함(윤영근, 2013)

• 정책증거의 시차를 반영하지 못한 대표적인 사례로 산아제한 정책을 들 수 있는데, 초기

정보에 따른 편견 등의 존재로 상황이 변화한 이후에도 이전의 출산억제정책이 지속되었

음(윤영근, 2013)

(4)정책증거간충돌이발생하기도함(윤영근,2013)

(5)통계및데이터생산및관리의제도화수준미비

① 전담조직 유무 & 전담조직의 역할 조사 결과(오세영·윤건·오균, 2017, p.71-73)

• 정책 부서에 근무하는 중앙부처 5급 이상 공무원과 정부출연 연구기관 박사급 연구원 대

상으로 현재 소속기관에 통계나 데이터 생산 및 관리하는 전담조직이 존재하는지 조사한

결과, 중앙정부 공무원의 63%(75명)와 정부출연 연구기관 소속 연구원의 58%(46명)가

통계 전담조직이 있다고 응답하였다. 하지만 이중 동일 기관 소속 구성원이 정부 전담조

직이 있다고 응답한 경우는 정부부처 3곳과 연구기관 8곳으로 나타났고, 통계 전담조직

이 없다고 응답한 것은 정부부처 12곳과 연구원 16곳으로 나타났다. 이를 통해 기관 내

통계전담 조직의 존재나 역할에 대해 명확하게 인식하지 못하는 것을 알 수 있음

Page 27: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

026

• 통계 전담조직의 역할 조사 결과, 중앙정부 공무원은 관리(62.7%) > 데이터 생산(46.0%) > 분

석(44.0%) 순으로 응답하였으며, 정부출연 연구기관의 연구자의 경우 데이터 관리(69.5%) >

데이터 분석(67.4%), 데이터 생산(36.0%) 순으로 응답하였음

→ 데이터 생산 및 관리의 제도화 수준이 완비되지 못한 상태이며, 정책부서 구성원들이 소

속기관의 통계관리정책을 제대로 인지하고 있지 못하는 상태라는 걸 알 수 있음(오세

영·윤건·오균, 2017, p.81)

② 컨트롤 타워 필요성 조사 결과

• 데이터의 생산, 관리에 대한 컨트롤타워의 필요성에 대하여 필요하다는 응답이 필요 없다

는 응답에 비해 높게 나타남(오세영·윤건·오균, 2017, p.p.79)

(6)정부출연연구기관의경우기관별데이터관리양성상이

•각종 업무 및 연구 수행 시 통계 관리 방식이 기관마다 상이한 형태를 보이고 있음

• 형사정책연구원과 청소년정책연구원의 경우 조직 내부에서 데이터 관리를 총괄하고 있는

부서가 존재함(오세영·윤건·오균, 2017, p.82)

• 반면에 직업능력개발원의 데이터 관리는 담당자 중심으로 이뤄지며, 통계청 과제는 동향

분석센터에서 관리하는 것으로 나타남(오세영·윤건·오균, 2017, p.82)

• 한국조세재정연구원의 취합 자료 및 원자료는 기획재정부에서 주로 관리하며, 공식적 자

료 집계 공간이 별도로 존재함(오세영·윤건·오균, 2017, p.82)

• 또한 육아정책연구소는 데이터 관리를 위한 아동패널운영위원회와 데이터관리위원회를

운영하고 있음(오세영·윤건·오균, 2017, p.82)

종합하면 증거 기반 정책은 탈이념성과 실용성을 강조하면서 등장한 개념

으로, 증거는 다양한 의미로 해석할 수 있지만 그 핵심에는 통계자료의 수집

과 분석 활동으로 이해할 수 있다. 이러한 증거는 단순히 수집하는 것이 중

요한 것이 아니라 활용을 하는 것이 중요하며, 부가가치 창출을 위한 증거

기반 정책은 체계적인 정보의 수집과 가공을 전제로 이루어질 필요가 있다.

Page 28: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

027

데이터 기반 정책

2.공공데이터와개방데이터

생각해볼질문

흔히 공공데이터라는 용어를 사용하지만 우리는 공공데이터와 개방데이터의 차이가 무

엇인지 이해하지 못하는 경우가 있다. 또한 개방데이터에는 어떤 것들이 있는지를 구체

적으로 생각해본 적이 많지 않다. 따라서 교수와 학생이 함께 다음과 같은 질문을 생각

해 볼 필요가 있다.

공공데이터는 무엇인가? 개방데이터는 무엇인가? 개방데이터에는 어떤 것들이 있는가?

개방데이터를 확장해 나가는 데는 어떤 문제가 있는가?

흔히 공공데이터라는 용어를 사용하지만 우리는 공공데이터와 개방데이터

의 차이가 무엇인지 이해하지 못하는 경우가 있다. 또한 개방데이터에는 어

떤 것들이 있는지를 구체적으로 생각해본 적이 많지 않다. 따라서 교수와 학

생이 함께 공공데이터와 개방데이터는 무엇인지, 개방데이터에는 어떤 것들

이 있고 확장해나갈 때 발생하는 문제는 무엇인지에 대해 생각해 볼 필요가

있다.

1)개방데이터의중요성

아무리 훌륭한 분석기술이 있어도 데이터가 없다면 데이터 기반 정책결정은

불가능하다. 이런 배경 하에 세계 각국은 공공데이터를 체계적으로 관리하고

공개하는 절차들을 만들기 시작하였다. 그 결과 2013년 International Open

Data Charter가 G8 국가들에 의해 서명되었다.2) 이때 주목해야 될 것은 개

방데이터(open data)의 개념이다. 개방데이터는 다양하게 정의될 수 있지만

International Open Data Charter에서는 다음과 같이 정의되고 있다.

2) https://opendatacharter.net/history

Page 29: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

028

“개방데이터는 누구에게나, 시간과 장소에 관계없이 무료로 사용되고, 재사용되고, 재분

배 될 수 있는 기술적, 법적 특징을 갖추어 활용 가능한 디지털 데이터를 말한다.”

“Open data, digital data that is made available with the technical and legal

characteristics necessary for it to be freely used, reused, and redistributed by anyone,

anytime, anywhere.”

이 정의에 따르면 개방데이터는 개방성을 강조하고 있지만 데이터의 생성

혹은 소비 주체를 따로 구분하지 않고 있다. 반면 2013년 재정된 《공공데이

터 제공 및 이용활성화에 관한 법》에서는 공공데이터를 “데이터베이스, 전자

화된 파일 등 공공기관이 법령 등에서 정하는 목적을 위하여 생성 또는 취득

하여 관리하고 있는 광(光) 또는 전자적 방식으로 처리된 자료 또는 정보”(동

법 2조 2항)로 정의되고 있다. 이 정의에 따르면 공공데이터는 공공기관이 생

성 혹은 취득한 자료 또는 정보로 한정되고 있음을 알 수 있다. 이와 유사하

게 우리나라의 공공데이터를 수집하여 제공하는 공공데이터 포털에서도 공

공데이터는 “공공기관이 만들어내는 모든 자료나 정보, 국민 모두의 소통과

협력을 이끌어내는 공적인 정보”를 지칭한다고 정의하고 있다.

이처럼 개방데이터는 자료의 생성과 취득의 주체를 한정하지 않지만 우

리나라의 공공데이터는 이를 공공기관으로 한정을 하고 있다. 물론 UN의

International Open Data Charter에서는 주로 초점을 Open Government

Data를 중심으로 원칙을 제시하고 있음을 밝히고 있지만, 시민사회나 민간

영역에서도 개방데이터 원칙을 적용할 수 있음을 명시하고 있다.

물론 정부의 입장에서는 공공데이터의 범위를 정부의 영역으로 한정하여

논의를 할 수 있겠지만 데이터는 민간과 공공을 구분하지 않는다. 만일 민간

과 공공부분의 자료를 단순하게 구분을 하게 되면 부동산 시장의 정보를 제

공하는 민간 기업의 자료를 이용하여 공공기관이 새로운 자료를 생성하면

Page 30: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

029

데이터 기반 정책

이것을 공공데이터로 볼 수 있을지의 복잡한 문제가 발생하게 된다. 따라서

공공데이터보다는 개방데이터가 훨씬 포괄적인 개념이라고 할 수 있다.

개방데이터가 갖추어야 할 기본적인 원칙으로는 ①개방성, ②적실성과

포괄성, ③접근가능성과 사용가능성, ④비교가능성과 교차활용가능성,

⑤거버넌스와 시민참여, ⑥포용적 발전과 형식 등이 제기되고 있다. <표3>

은 국내의 주요 데이터의 현황을 정리한 표이다. 이 표의 자료 중 일부는 개

방데이터 형식으로 제공될 수 있지만 의료나 기업의 경영활동 정보 같은 경

우는 개방이 쉽지 않을 수 있다. 또한 적지 않은 정보가 민간 기업의 활동을

통해 생성되는 경우가 많기 때문에 민간기업이 어느 정도 수준까지 자신의

정보를 공유할 것인지도 문제가 된다. 마지막으로, 매우 다양한 유형의 자료

가 다양한 주체에 의해 형성되고 있는 상황에서 여러 자료를 연결하고 통합

하여 새로운 자료를 형성하는 것이 쉽지 않음을 알 수 있다.

<표3> 국내 주요 데이터 현황

분야 기관명 주요데이터 활용사례

보건의료

심사평가원/

건강보험공단

수진자 인적 사항, 병명, 급여비용,

투약 정보 등 환자별 맞춤형 진단·치료

서비스 제공 및 정밀의료

솔루션 개발 등민간의료기관

환자 진료기록부, 의료영상정보, 처

방원무 정보 등

교통

교통연구원/

교통안전공단

도로현황, 도로시설물 관리, 교통량,

사고지점, 피해상황 등 교통 혼잡 완화를 위한 분

석 서비스 및 교통사고 원

인 분석 서비스 제공한국스마트카드

시간별 지역별 이동수단 승하차 인

원 등

금융

한국은행/

신용정보원

경제·금융 통계, 개인·법인 대출,

세금체납, 채무불이행, 부도 등 맞춤형 금융 서비스 개발

및 보험사기 분석, 연체자

예측 모델 개발 등은행/보험/신용카드

계좌정보, 대출, 상품거래, 인터넷

뱅킹 이용 내역, 민원, 가맹점 등

Page 31: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

030

분야 기관명 주요데이터 활용사례

통신/

미디어

통신사/IPTV 업체가입자/위치 정보, 유동인구, 서비스

별 트래픽/구매 내역 등 감염병 진단 서비스, 상권

분석, 콘텐츠 추천 서비스,

광고 전략 개발 등언론진흥재단/

방송광고진흥공사

종사자, 광고시장 현황, 구독/시청패

턴, 디지털 콘텐츠, 매출 등

도시/

공간

지자체(광역/기초)도로/가로등 위치, 전력/가스 공급

체계 CCTV, 주차/횡단보도 정보 등 지능형 도시 서비스, CCTV

기반 보안 서비스, 입지분

석 부동산 가격 예측 등국토연구원/

한국토지주택공사

지형, 산업입지, 택지, 부동산거래,

3차원 공간정보 등

에너지/

환경

한전/지역가스/

한국에너지공단

전력 판매, 전력 시설물, 전력 계량,

태양광 정보, 소비 패턴 등 에너지 공급 제어·관리 서

비스, 전력소비 패턴분석,

자연재해 예측 등기상청/수자원공사

기상정보, 도로날씨, 기후변화, 자연

재해, 가뭄/지하수 정보 등

연구

과학기술정보연구원바이오, 소재 등 기초과학 데이터 및

대형연구장비, 연구노트 등신약 후보 물질 발굴, 신소

재 연구 등에 활용

참조표준데이터센터 건강지수, 수질, 인체지수 등

문화/

관광

문화정보원예술작품, 문화재, 역사자료, 문화산

업, 도서, 체육 정보 등문화재 위험관리 분석, AI 기반 관광안내 서비스 등

한국관광공사관광지, 다국어 관광정보, 숙박, 음

식점, 축제 정보 등

제조삼성전자, 엘지전자,

현대/기아자동차 등

자재관리·구매/생산/설비관리/품

질관리 정보 등

제조공정 자동화, 재고관

리, 신상품개발, 자원관리

유통

백화점, 할인마트,

홈쇼핑,

외식업체 등

고객현황, 구매이력, 배송이력, 식자

재 내역 등

상품추천 등 고객마케팅,

반품률 예측 등

공공데이터의 경우를 살펴보더라도 [그림4]와 같이 다양한 정책영역에 관

련된 자료를 제공하고 있다.

Page 32: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

031

데이터 기반 정책

[그림4] 공공데이터 포털에서 제공하는 자료의 범위

2)연결데이터의중요성

정책 문제는 복잡하다. 이 복잡한 정책문제를 하나의 데이터를 이용하여 이

해하고 해결할 것으로 기대하는 사람은 많지 않다. 그럼에도 불구하고 데이

터 기반 정책에 대한 논의를 하다보면 데이터가 중요하다는 사실을 강조하

는데 머무르는 경향이 있다. 데이터는 단일한 형태를 갖는 것도 아니고 다양

한 측면을 측정하기 위해 많은 변수들로 구성이 된다. 정책 판단에 필요한

모든 데이터가 잘 정리되어서 하나의 데이터셋으로 제공되는 경우는 매우

드물며, 대부분은 다양한 원천으로부터 자료를 수집하고 결합해야 한다. 이

러한 자료 결합 과정을 통해 각각의 정책문제에 적합한 새로운 형태의 자료

가 탄생하게 된다.

Page 33: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

032

데이터가 중요하다는 기존의 관점에서 벗어나 다른 데이터와 ‘연결 가능

성’이 개방성 못지않게 중요하다는 점은 최근 들어 급격히 부각되기 시작하

고 있다. 도시재개발 정책의 경우 부동산 관련 데이터베이스, 금융시장과 관

련된 데이터베이스, 교통시설과 관련된 데이터베이스, 여론을 확인할 수 있

는 언론정보 데이터베이스 등을 통해 자료를 수집할 수 있다. 이렇게 수집된

자료는 분석을 위해 지도나 교통망 정보를 제공하는 데이터베이스와 결합하

여 다양한 형태로 시각화할 수 있다.

인구의 지역 간 이동을 고민한다고 생각을 해보자. 통계청의 SGIS의 경

우에는 [그림5]와 같이 지도 위에 통근/통학 인구의 규모를 시각화하여 지역

간의 차이를 보여줄 뿐만 아니라 특정 지역의 통근/통학 인구 변화의 시계열

자료도 함께 제공을 해주고 있다.

[그림5] SGIS에서 제공하는 인구변화

만일 인구자료와 어린이 집 개수 자료가 함께 존재하고 이를 동시에 분석

하고자 한다면 이 두 자료를 융합하여 함께 [그림6]과 같이 시각화를 할 수

도 있다.

Page 34: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

033

데이터 기반 정책

[그림6] 인구자료와 어린이 집 개수 자료의 동시 분석

자료: 4차 산업혁명위원회, 데이터 산업 활성화 전략

연결 데이터는 단순히 자료의 양과 종류를 많게 한다는 점에 머무르지 않

는다. 연결 데이터를 통해 더 많은 변수를 모형에 반영할 수 있다면 모형의

학습능력은 빠르게 증가할 수 있다. 실제로 음성 번역이나 텍스트 인식, 건

강검진, 교통 수요 예측 등에 활용되는 인공지능 기법들은 데이터의 양과 변

수가 많아짐에 따라 빠른 속도로 학습이 이루어지고 분석의 정확성도 높아

지고 있다. 따라서 개방데이터에서는 자료의 축적 못지않게 자료 간의 연결

방법을 고민해야 한다.

자료의 연계와 관련해서 다양한 쟁점이 있지만 크게 두 가지 쟁점을 고려

할 수 있다.

첫째, 정부 부처 간의 협업의 중요성이다. [그림7]은 2018년 국가차원의

경제활성화를 위해 부처 간의 역할을 4차산업혁명위원회가 제시한 것이다.

이 그림에서 확인할 수 있듯이 행정안전부가 공공데이터를 총괄하면서 정부

Page 35: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

034

부문의 개방데이터의 핵심 역할을 하고 있지만, 과학기술정보통신부는 민간

이 주도하는 데이터 산업을 총괄하면서 데이터 생태계와 인프라 지원의 역

할을 담당하고 있다. 만일 행정안전부와 과학기술정보통신부가 서로 협업을

하여 연계 데이터를 만들 수 있는 상황을 만들지 못한다면 공공데이터와 민

간데이터는 서로 연계되지 못한 채 운영이 될 가능성이 크다.

4차 산업혁명시대 국가차원 데이터 경제 활성화

정보통신전략위원회

부처·공공/민간기관 일반국민, 민간전문가 등

산업계·민간 의견수렵

사회적 합의 유도

법제도 개선

공공데이터전략위원회

부처, 지자체, 공공기관

민간 +

공공 부문

데이터

공공데이터

4차 산업혁명 위원회

데이터 산업 총괄

데이터 생태계 조성 인프라 지원

빅테이터 활용 선도사업 지원

데이터 R&D (선도기술, 보호기술)

공공데이터 총괄

공공데이터 발굴·개방

공공빅데이터센터 및 국가데이터맵 구축

개인정보보호법

과기정통부 행안부

세무과제 도출/실행

정책공유/협의

과제제안/피드백

과제제안/피드백

의견수렴공공데이터 생산·관리

[그림7] 국가차원의 경제활성화를 위한 부처 간 역할

자료: 4차산업혁명위원회, 데이터 산업 활성화 전략

둘째, 연결 데이터는 연결과정에서 발생하는 문제를 최소화하기 위해 연

결과정에 대한 정보를 제공해야 된다. 데이터 병합과정에서 자료의 왜곡이

생기는 경우 이를 찾아내기 어렵기 때문에 데이터 병합과 관련된 프로그램

코드를 공개하는 것이 필요하다.

Page 36: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

035

데이터 기반 정책

셋째, 데이터를 활용할 때 데이터와 함께 이용한 데이터 목록을 메타데이

터 형식으로 제공을 하게 되면 데이터 간의 연결구조를 파악할 수 있다. 최

근 사용되고 있는 Linked Open Data(LOD)의 개념은 [그림8]과 같이 데이터

간의 연계구조를 쉽게 파악할 수 있는데 도움이 될 수 있다.

[그림8] LOD 예시

Page 37: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

036

3.데이터기반분석방법론

1)4차산업혁명시대의첨단기술들

4차 산업혁명의 시대를 맞아 기술은 발 빠르게 발전하고 있다. 새로운 첨단

기술의 등장은 단지 기술의 발전에서 그치는 것이 아니라, 정책수립 및 집행

과정의 혁신, 행정서비스 제공방식의 혁신을 가져올 수 있으며 특히 데이터

기반 정책에 그 활용가능성이 높다. 이에 한국행정연구원 등의 국책연구기

관에서도 첨단기술을 활용하여 행정서비스를 혁신하기 위한 방안을 연구하

고 있으며, 주요 첨단기술의 내용은 <표4>와 같다.

<표4> 주요 첨단기술의 내용

기술 내용

인공지능

(AI)

• 인공지능(Artificial Intelligence)은 기본적으로 인간과 컴퓨터가 서로 소통할

수 있도록 돕는 프로그램의 한 종류로, 인간의 언어를 컴퓨터가 이해할 수 있

는 언어로 변환하는 것임

• 기존 컴퓨터 프로그램과 달리 AI는 학습을 통해 스스로 자료를 수집하고 분

석하며, 이를 통해 진화하는 특징을 보유하고 있음

빅데이터

(Big Data)

• 빅데이터는 데이터베이스를 구축하고 쿼리 등을 통해 필요한 정보를 추출한

다는 측면에서 기존의 데이터 마이닝(Data Mining)과 근본적으로 유사한 개

념임

• 그러나 데이터의 규모가 기존의 통상적인 데이터베이스와는 비교할 수 없을

정도로 크고, AI, IoT, Block Chain 등 첨단정보기술과 결합할 경우 무한한

가능성을 제공함

사물인터넷

(IoT)

• 사물인터넷은 모든 사물들이 인터넷을 통하여 서로 통신하는 등 하나로 연결

됨을 의미

• 사물인터넷 기술은 기본적으로 각종 장치들에 센서와 통신기능을 부여하고,

이를 통해 필요한 정보를 수집·교환하며, 중앙 서버에 전송·저장하는 기술

임(예: 홈IoT, 자율주행자동차)

Page 38: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

037

데이터 기반 정책

클라우드

(Cloud)

• 클라우드는 업무자료를 PC가 아닌 클라우드 스토리지에 통합 저장하고, 체계

적인 사용자 권한 부여 및 관리 그리고 공유와 협업을 가능하게 하는 기술

• 클라우드 스토리지는 공용으로 자료를 저장하는 곳으로, 실제 데이터가 저장

되는 분산파일시스템과 이를 관리하는 클라우드 스토리지 서버 등으로 구성

블록체인

(Block Chain)

• 블록체인은 거래정보를 기록, 네트워크 참가자들에게 분산·공유하는 분산원

장(Distributed Ledger) 기술을 기본으로 함

• 블록체인에서는 데이터가 블록의 단위로 기록되고 보관되며, 복수의 데이터

를 넣어서 단일한 블록을 만들고, 해시값을 통해 이 블록들을 연결하여 ‘블록

체인’을 생성하는 구조임

• 중앙집중화된 서버나 관리기능에 의존하지 않고, 발생한 모든 정보를 모든

참여자에게 분산된 형태로 저장, 권한을 배분하여 탈집중화된 환경을 제공,

이를 통해 높은 안전성과 신뢰성 제공

자료: 윤광석, 2018

2)정책에의적용

앞서 살펴본 바와 같은 첨단기술들이 행정혁신의 가능성을 제공하더라도,

실제 행정이 새로운 분석방법론을 받아들이고 변화하지 않는다면 기술의 발

전과 행정은 괴리되며 데이터 기반의 행정혁신은 이루어질 수 없게 된다. 윤

광석(2018)에 따르면 전문가들을 대상으로 4차 산업혁명 기술을 활용하여 행

정서비스 혁신을 할 필요성이 높은 정책분야가 무엇인지에 대한 델파이 조

사를 실시한 결과는 <표5>와 같이 나타났다.

Page 39: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

038

<표5> 기술 적용을 통한 행정혁신 필요성에 대한 전문가 의견

순위 행정서비스목록 순위 행정서비스목록

1 재난안전 위험관리 서비스

2 IoT 활용 시설물 안전체계 구축 서비스 28 취업교육서비스

3 공공데이터 통합/공유/융합/활용 서비스 29 교통약자 교통복지 서비스

4 전염병 감시 및 예방 서비스 30 공공 및 민간데이터 융합 서비스

5 환경오염 수집/공개, 추적/예측 서비스 31 스마트 그리드 서비스

6 복지대상자 모니터링 서비스 32 스마트 팩토리 서비스

7 스마트 시티 서비스 33 어린이 실시간 위험지역 예고 서비스

8 식품안전서비스 34 택시 안심 서비스

9 공공부문 클라우드 서비스 35 부동산 거래 보안 서비스

10 개인 맞춤형 선제적 정보제공 서비스 36 취약계층 대상 가정교사 서비스

11 스마트 에너지 서비스 37 진단/처방 등 진료 서비스(의사보조)

12 본인인증서비스 38 복지대상자 발굴관리 서비스

13 전자투표 등 선거 선진화 서비스 39 운송사업 종합관리 서비스

14 실시간 교통관제 서비스 40 정보보안 서비스

15 스마트 모빌리티 서비스 41각 급 학교 현장학습차량 실시간

모니터링 서비스

16 맞춤형 보건서비스 42 주차장 정보공유 및 관리 서비스

17 원격/간편 진료서비스(의사대체) 43 스마트 해양인프라 구축 서비스

18 정책수립 및 결정 등 정책지원 서비스 44 전자부패 방지 서비스

19 공공데이터 개방 및 접근성 개선 서비스 45 공공데이터 품질관리 서비스

20 챗봇/음성인식 상담서비스 46 인허가 등 심사과정 혁신 서비스

21 스마트팜(Smart Farm) 지원 서비스 47 특허 등 지식재산 출원방식 혁신 서비스

22 지능형 치안활동 서비스 48 IoT 활용 가정보안 서비스

23 복지 지원금 서비스 49 가상 운전면허교육 서비스

24 자율주행자동차 지원 교통인프라 서비스 50 의료상담 서비스

25 차량공유 서비스 51 대중교통취약지역 교통복지 서비스

26 위험물 운송차량 안전운송 모니터링 서비스 52 스마트 국세 서비스

27 화재안전 위험관리 서비스 53 중고차 표준시세 알림 서비스

자료: 윤광석, 2018

Page 40: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

039

데이터 기반 정책

결국 <표6>과 같은 정책분야들에 있어 첨단기술과 빅데이터를 활용하여

행정혁신을 이루는 것이 특히 시급하며, 실제 공공 빅데이터 활용사례를 살

펴보면 <표6>과 같다.

<표6> 공공 빅데이터 활용사례

분야 주제 기관 주요분석기법

재난안전골든타임 확보를 위한

구급차 배치/운영 최적화 모델전라북도 GIS

시민안전CCTV 설치지역 분석 및

모델 고도화경기도 GIS

국가치안인공지능을 활용한 과학적

민생치안강화

경찰청, 국가정보자원

관리원

텍스트분석, 머신러닝,

Doc2Vec

보건의료 국민건강알림 서비스 건강보험공단 데이터마이닝

국토교통빅데이터 분석을 통한

시내버스 효율적 운영광주광역시 데이터마이닝, GIS

도시환경전기차 충전 인프라 설치

입지 선정대구광역시 설문조사, GIS

보건복지잠재적 사회취약계층

일자리 창출 및 자립 지원

남양주시,

국민연금공단데이터마이닝, GIS

문화관광전주 한옥마을 관광분석을

통한 경제활성화전주시

데이터마이닝,

민간데이터소싱, GIS

문화관광빅데이터 활용 문화/관광

축제 분석한국관광공사

데이터마이닝,

민간데이터소싱, GIS,

기상환경농업기상데이터와 농산물

생산성 예측기상청, 농촌진흥청

데이터마이닝, 텍스트분석,

소셜데이터 분석

고용노동 근로감독 사업장 선정 과학화 고용노동부 데이터마이닝

국토주택공동주택관리비 빅데이터

분석경기도, 국토교통부

데이터마이닝, 텍스트분석,

소셜데이터 분석

도시안전

인공지능 기반의

도로포장파손 실시간

탐지시스템 개발 및 적용

한국도로공사

ICT센터머신러닝, 딥러닝

공공행정민원분석을 통한 갈등문제

해결포항시

텍스트분석,

소셜데이터 분석

자료: 행정안전부 공공데이터정책과, 2018. 2.

Page 41: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

040

주요빅데이터분석기법

▒텍스트마이닝

“텍스트 마이닝은 자연어 처리 기술에 기반하여 텍스트 데이터로부터 유용한 정보를 추출

하여 가공하는 것을 목적으로 한다.”(김정숙, 2012:37)

“텍스트 마이닝을 통해 방대한 텍스트 뭉치에서 의미 있는 정보를 추출해 내고, 다른 정보와

의 연계성을 파악하며, 텍스트가 가진 카테고리를 찾아내는 등 단순한 정보 검색 그 이상의

결과를 얻어낼 수 있다.”(김정숙, 2012:37)

▒소셜네트워크분석(SocialNetworkAnalysis)

“소셜네트워크 분석은 참여자들의 ‘상호작용’을 통한 ‘관계 맺음’의 구조를 계량적으로 설명

하는데 관심이 있다. 일반적으로 네트워크 내 노드(Node: 참여자)들 간의 링크(Link: 참여

자들 간의 상호교류)를 행렬(Matrix)로 표현하는 그래프 이론이 주로 사용되는데, 노드와 링

크가 보여주는 다양한 그래프적인 특성을 지표화하여 사회 네트워크의 구조를 설명하게 된

다.”(김병석·배순한·백승익, 2012:62)

▒군집분석(ClusterAnalysis)

“군집분석은 각 객체(대상)의 유사성을 측정하여 높은 대상 집단을 분류하고, 군집에 속한

객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 통계 분석 방법이

다.”(김정숙, 2012:38)

Page 42: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

새로운 첨단기술의 등장은

단지 기술의 발전에서 그치는 것이 아니라,

데이터 기반 정책에

그 활용가능성이 높다.

Page 43: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

042

정책사례 연구Ⅱ

Page 44: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

043

정책사례 연구

01 서울시 젠트리피케이션 사례의 배경 _ 044

02 사례의 개요 _ 056

03 데이터를 기반으로 접근한 서울시의 젠트리피케이션 정책 _ 067

04 젠트리피케이션의 시사점 _ 087

Page 45: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

044

01

서울시 젠트리피케이션 사례의 배경

1.젠트리피케이션은어떤현상이며어떻게이해되어왔는가?

젠트리피케이션(gentrification)은 어떤 사회현상을 나타내는 것이며, 이 문제

는 어떻게 이해되어 왔으며, 정부는 이를 어떻게 대처해왔을까? 흔히 임대

료 상승으로 인해 원주민이 쫓겨나는 문제로 이해되어 온 젠트리피케이션의

문제는 오랜 동안 상이하게 이해되어 왔고, 정책의제와 대안 형성의 과정 역

시 복잡하게 진행되어 왔다.

젠트리피케이션은 2010년대에 본격적으로 정책의제로 등장하게 된다. 하

지만 이 개념이 정책의제로 등장하게 된 맥락에 대해서는 그렇게 잘 알려져

있지 않은 편이다. 그 용어의 친숙함에도 불구하고, 젠트리피케이션의 개념

이 무엇인가는 고민해볼 필요가 있다.

젠트리피케이션은 원래 상류계층(gentry)이라는 용어에서 파생되어 도시

가 고급화(gentrify)되는 단계를 지칭하는 의미를 갖고 있다. 학술적으로는

박태원(2016)이 지적하듯이 초기에는 Ruth Glass(1964)처럼 저소득층의 주

거지(도시)가 고임금 전문직 계층에 의해 대체되어 기존 거주민들의 비자발

적 이주가 일어남에 따라 지역의 활성화가 진행되는 의미로도 사용되었으

Page 46: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

045

정책사례 연구

나, 단순히 재활성화 의미를 넘어서 기존 지역사회의 고유한 성향의 변화 현

상까지를 포함시키는 의미로 사용되었다. 그러나 이러한 용어는 한국에서는

불공정한 도시개발을 지칭하는 용어로 사용되기 시작하였고 그 의미 역시

다양하게 이해되어져 왔다.

학문적 차원에서는, 특히 동아시아를 비롯한 비서구 도시들에서 일어나

는 젠트리피케이션을 설명하는 논의가 심화되어 왔다(Shin, 2016; Shin et al.,

2016; Slator, 2006; Waley, 2016). 젠트리피케이션은 지역 맥락에서 다양한 형

태로 체화되지만 ‘상대적 저소득층의 축출(displacement)’과 ‘투기 자본의 유

입’은 현상과 원인의 핵심을 이룬다.

축출이 일어나는 핵심적인 물질적 조건으로 일시적으로는 저평가된 지

대와 향후 지대 차이를 이용한 개발이 초래할 것으로 기대되는 이익(Smith,

1979)이 있다. 축출이 지니는 구체적인 공간성은 주어진 도시 조건에 따라

다르게 나타난다. 지대 격차(rent gap)를 중심으로 한 전통적인 젠트리피케이

션 이론은 주로 서구 구도심에서 발생한 주거, 상업 젠트리피케이션에 대한

관찰을 토대로 이론화되었다.

한편 한국 투기적 도시화의 역사에서는 신축(new-build) 젠트리피케이션

현상이 먼저 나타났다. 대단지 개발, 신도시 건설에서는 원주민의 축출, 투

기를 전제로 시행하는 민간 자본 주도의 주거지 재개발(Shin & Kim, 2016)이

주거비 상승으로 이어져, 이를 부담하기 어려운 저소득층의 이주를 발생시

킨 것이 지난 반세기 동안 서울에서 일어난 젠트리피케이션의 전형으로 지

목된다.

이렇듯 젠트리피케이션에 대한 학문적 관심 고조에 힘입어, 한국에서는

1989~2016년 사이에 38건의 젠트리피케이션 논문이 출간되었다(이재민·

김진희, 2016). 그중에서 최근 주거지 상업화에 관한 경험 연구들은 상업 젠트

Page 47: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

046

리피케이션으로 인한 장소성 변화(김희진·최막중, 2016), 이를 추동한 금융의

역할, 정량 지표를 이용한 지역별 상업화 속도 측정(윤윤채·박진아, 2016) 등

에 초점을 맞추고 있다.

이를테면 허자연 외(2015)는 상업 젠트리피케이션을 공급자 측면에서 설

명하며 개발 이익을 노린 금융기관의 역할을 언급했다. 상업적 젠트리피케

이션과 이로 인한 장소성에 대한 인식 변화를 분석한 연구(김희진·최막중,

2016)에서는 상업적 젠트리피케이션이 진행됨에 따라 근린생활시설이 독립

상점, 나아가 표준화상점으로 변하는 과정을 분석하였다.

이 같은 접근들은 젠트리피케이션의 정량적 분석을 시도하고 있다는 점

에서 의미 있는 연구이나, 주거지 상업화에서 금융이 어떤 역할을 수행하는

지 또는 상업시설의 초기 진입 정황은 어떠한지, 지역이 실제로 어떤 방식으

로 변화하는지에 대한 기록 등은 구체적으로 포착되지 않고 있는 것으로 보

인다.

젠트리피케이션이 언론을 통해 어떻게 이해되어왔는지를 분석하기 위

해 인터넷이나 언론 등의 문서들을 체계적으로 분석하는 텍스트 분석(text

analysis)을 사용할 수 있다. 텍스트 분석 결과 1999년 이후 2009년까지 언

론을 통해 ‘젠트리피케이션’이라는 단어가 적시되었던 경우는 한 건도 없었

으나, 2010년부터 2013년까지는 총 15건, 2014년 31건에 이어 2015년에

319건, 2016년 1,039건으로 기사의 양적 규모가 매우 빠르게 증가하였다.

이는 젠트리피케이션 현상에 대한 언론의 주목이 최근 몇 년간 급격히 증가

했음을 시사한다.

Page 48: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

047

정책사례 연구

2000-01 2002-01 2004-01 2006-01 2008-01 2010-01 2012-01 2014-01 2016-01 2018-01

200

150

100

50

0

기사

건수

년-월

[그림9] 젠트리피케이션 언급 기사의 추세

자료: 빅카인즈 분석 결과(키워드: 젠트리피케이션)

젠트리피케이션이 사회의제로 등장함에 따라 지방자치단체들은 이를 정

책의제로 적극 다루기 시작하였고, 그 대응 방식 중의 하나가 지자체의 조례

지정이었다. ‘젠트리피케이션 방지조례’라는 키워드를 가장 먼저 사용한 서

울특별시 성동구의 경우, 2015년 9월 ‘성동구 지역공동체 상호협력 및 지속

가능발전 구역 지정에 관한 조례’를 제정하게 되는데, 조례명 및 조례 본문

에는 젠트리피케이션이라는 단어 및 개념이 포함되지 않는다. 2018년 11월

현재, 자치법규시스템(www.elis.go.kr) 조례 상 ‘지역상권 상생협력’ 혹은 ‘젠

트리피케이션’이 조례명에 언급된 지자체는 총 23개, 그중 젠트리피케이션

이라는 단어가 포함되는 지방자치단체는 서울 서대문구(2017), 부산 해운대

구, 인천 미추홀구, 경기도 성남시(2018)의 4개이다.

<표7> 2018년 11월 기준 시행중인 ‘젠트리피케이션’ 관련 기초지자체 조례

광역 시군구 조례명 담당 제정

서울 성동구성동구 지역공동체 상호협력 및 지속가

능발전 구역 지정에 관한 조례지속발전과 2015-09-24

서울 중구 중구 지역상권 상생협력에 관한 조례 시장경제과 2016-05-11

Page 49: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

048

광역 시군구 조례명 담당 제정

서울 도봉구 도봉구 지역상권 상생협력에 관한 조례 일자리경제과 2016-11-10

전북 전주시 지역상생협력에 관한 기본 조례 공동체육성과 2016-12-30

서울 서초구 서초구 지역상권 상생협력에 관한 조례 지역경제과 2017-04-06

서울 마포구 마포구 지역상권 상생협력에 관한 조례 일자리경제과 2017-04-20

서울 강북구 강북구 지역상권 상생협력에 관한 조례 도시재생과 2017-05-04

경기도 부천시 지역상권 상생협력에 관한 조례 생활경제과 2017-05-22

경기도 본청경기도 지역상권 상생협력 촉진 및 지

원 조례소상공인과 2017-07-17

서울 서대문구서대문구 젠트리피케이션방지 및 상권

의 지속성장지원 조례일자리경제과 2017-08-02

경기도 수원시수원시 지역상권 상생협력을 위한 지원

조례전통시장경영팀 2017-09-27

서울 금천구금천구 지역상권 상생협력 및 지속성장

지원 조례지역경제과 2017-10-13

전북 익산시 지역상권 상생협력에 관한 조례 민생경제과 2017-11-30

경상남도 창원시 창원시 지역상권 상생협력에 관한 조례 경제기업사랑과 2017-12-26

서울 종로구지역상권 젠트리피케이션방지 및 상생

협력에 관한 조례서울 종로구 2017-12-29

부산광역시 본청부산광역시 지역상권 상생협력 촉진 및

지원 조례부산시 2018-03-28

부산광역시 해운대구지역상권 젠트리피케이션방지 및 상생

협력에 관한 조례경제진흥과 2018-03-30

대구광역시 중구 중구 지역상권 상생협력에 관한 조례 일자리경제과 2018-03-30

전라남도 고흥군 지역상권 상생협력에 관한 조례 건설과 2018-04-03

부산광역시 금정구 금정구 지역상권 상생협력에 관한 조례 일자리경제과 2018-05-08

인천광역시 미추홀구지역상권 상생협력과 젠트리피케이션

방지에 관한 조례경제지원과 2018-05-21

경기도 성남시지역상권 젠트리피케이션방지 및 상생

협력에 관한 조례시장현대화과 2018-10-29

경기도 평택시평택시 지역상권 상생협력 촉진에 관한

조례일자리경제과 2018-11-09

Page 50: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

049

정책사례 연구

<표7>의 조례들의 본문을 살펴보면, 조례명에 젠트리피케이션이라는 단

어가 포함된 조례들은 내용상 가장 이른 시기에 제정, 공포된 서울특별시 성

동구의 ‘상생협력’ 조례(2015. 09)와 크게 차별화되지 않는다. 따라서 위에서

언급된 조례들을 하나의 범주로 취급하여도 무리가 없을 것으로 판단된다.

이는 아래에서 조금 더 자세히 확인할 수 있는데 ‘성동구’, ‘젠트리피케이션’,

‘상생협력’ 조례의 제정 목적을 살펴보면 <표8>과 같다.

<표8> 지자체의 조례와 목적

분류 광역 시군구 조례의목적

성동구 서울 성동구

지역공동체 상호협력을 증진하고 지속가능발전을 도모하기

위해 지역공동체생태계및지역상권보호에 필요한 사항을

규정함을 목적으로 한다.

젠트리

피케이션

서울 서대문구

지역상권의임대인과임차인간의상생협력을 통해 공정하

고 지속가능한 상가건물임대차 관계를 형성함으로써 임차인

의 안정적인 영업보장과 지역상권의지속적인성장을 목적

으로 한다.

부산 해운대구

지역상권의상생협력을 통해 젠트리피케이션을 방지하고 지

역경제 활성화와 지역상권보호에 필요한 사항을 규정함을

목적으로 한다.

경기도 성남시

임대인과임차인간상생협력을 통한 공정하고 지속가능한

상가건물임대차 관계를 형성하고, 지역상권보호에 필요한

사항을 규정함을 목적으로 한다.

상생협력

서울 마포구

지역상권의임대인과임차인간상생협력을 통한 공정하고

지속가능한 상가건물 임대차관계 형성 및 지역상권보호에

필요한 사항을 규정함을 목적으로 한다.

부산 금정구

지역상권의 공정하고안정적인임대차관계를 형성하고 상생

협력을 도모함으로써 지역경제활성화와지역상권보호에

필요한 사항을 규정함을 목적으로 한다.

경기도 평택시

지역상권을활성화하고 급격한 임대료 상승으로부터 임차인

을 보호하기 위하여 상가건물의 임대인과임차인등이상생

협약을 체결하는 데 필요한 사항을 정함으로써 지속가능한

지역공동체를 구현함을 목적으로 한다.

Page 51: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

050

성동구의 원안으로부터 각 지자체별로 세부적으로는 약간의 차이를 가지

는데, 2017년까지 제정된 성동구를 제외한 11개 지자체의 조례는 지속가능

발전구역에 대한 조항을 포함하고 있지 않으며, 다음의 3가지 내용을 규정

하고 있다.

① 구청장은 상생협약 체결을 권장하고 지원할 수 있다는 조항

② 상생협력상가를 조성하고 지원할 수 있다는 조항

③ 임대인과 임차인으로 구성되는 상생협력상가협의체를 구성할 수 있도록 규정

이러한 흐름은 그 이후에도 이어져, 2018년 이후 제정된 나머지 지자체들

의 조례에서도 대동소이한 내용으로 재생산되는 것으로 보여 진다. 이렇듯

젠트리피케이션이라는 개념에 학문적 논의는 오래 전부터 지속되어 왔고,

언론의 반응이 최근 몇 년 사이 급격히 증가하였으며, 그에 따라 대중적 인

지 및 관심이 높아졌고, 이에 이어져 정부의 대응 역시 이루어진 것으로 보

인다. 그러나 이러한 일련의 흐름은 종합적인 사회문제로써의 젠트리피케이

션이 아니라, 상가임대차 계약갱신 청구권 행사의 문제로 의미가 전유되어

특정 단면만을 집중해 조명하는 상황을 낳았다. 대표적인 일례로, 2017년

대선 당시 문재인 후보는 젠트리피케이션 방지를 위한 정책을 수립할 것임

을 공약으로 제시, 그 방법으로 임대차보호법 개정을 통해 임대료 상한 한도

를 연 9%에서 5%로 낮추고, 상가임대차 계약갱신청구권 행사 기간을 5년에

서 최장 10년으로 늘리겠다고 공약한 바 있다. 다시 말해 공공영역의 대응방

식이 장기적인 도시·사회현상에 관련된 이해당사자(stakeholder)의 다변화

에 따른 ‘복잡한 문제’에 대해 정량적인 정책목표를 달성하기 위한 적극적 개

입이 아니라, 상가임대차 및 상권활성화 문제로 단순화하고 동일시하여 사

회갈등을 조정하는 형태의 소극적 개입 형태가 되었다고 볼 수 있겠다.

Page 52: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

051

정책사례 연구

젠트리피케이션을 보다 종합적인 관점에서 보아야 한다는 상황에 대한 인

식은 적어도 최초로 조례를 제정한 성동구에서는 충분히 인지했던 것으로

보인다. 성동구는 2017년 4월부터 7월까지, 지속가능발전구역 내 611개 업

체 중 2017년 상반기 계약을 갱신한 92개 업체를 대상으로 임차인 탐문 방

식으로 임대료 변화를 조사하고 그 결과를 발표했다. 성동구청의 실태조사

결과는 다음과 같았다.

이번 조사결과에서 2017년 상반기 상가임대료(보증금 제외) 평균 인상률은 3.7%로

2016년 17.6% 대비 13.9% 하락한 것으로 나타났고, 임대료(이하 3.3㎡당)는 평균 8만

9천 원, 보증금은 평균 2,162만 원이었다. 구역별 평균 인상률을 전년 대비 살펴보면, 서울

숲길 19.3% → 6.0%, 방송대길 13.5% → 4.6%, 상원길 18.2% →1.4% 순으로 나타났다.

자료: 2017. 8. 성동구 보도자료

이를 근거로 성동구는 지속가능발전구역 지정 등의 시책이 실효성이 있었

으며, 지자체 등 공공부문의 대처를 통해 젠트리피케이션을 충분히 예방할

수 있다는 것을 보여준다고 주장하고 있다.

이러한 조사결과 해석과 상반된 견해도 있을 수 있다. 위의 보도자료에서

성동구청은 비거주자 소유건물 비율이 2015년 52.5%에서 2016년 60.6%로

증가했다고 밝혔다. 단순히 상가임대차의 공정성 문제가 아니라, 해당 지역

의 소유주(건물주)와 관련된 문제 역시 존재함을 인지하고 있었음을 알 수 있

다. 성동구에 거주하지 않는 건물주의 경우, 대부분 상가를 투자 목적으로

매입한 것으로 보이며, 매입 이후 상가임대료 수입 극대화가 주요 투자 이

유이다. 이러한 추세는 지역 공동체를 기반으로 상생협력에 대한 인식을 제

고하고 협약 체결로 상가 임대료의 과도한 인상을 방지하려는 구청의 정책

이 가지는 한계점을 명확히 보여준다. 또한 성동구는 상생협약의 구속력을

Page 53: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

052

확보하기 곤란하고, 현행 상가임대차보호법 하에서는 임차인 보호에 한계가

있으며, 성동구 조례와 정책에 대한 법적 근거가 미약하다는 점을 한계로 지

적하고 있다.

이러한 한계에도 불구하고, 위에서 볼 수 있듯, 최초로 젠트리피케이션

관련 조례를 제정한 성동구의 정책 모델은 타 지자체들이 수립하는 관련 정

책의 준거틀로써 기능하고 있다. 2015년 성동구의 조례가 제정된 이후 지역

상권 상생협력, 젠트리피케이션을 언급하는 거의 모든 조례에서 성동구의

제정목적과 유사한 조례를 도입하는 상황이다.

2.기존데이터에기반을두지않은정책결정은어떤문제가있었는가?

앞에서 언급한 ‘임대-임차인 간 상생협약을 유도하는 방식’의 조례의 경우,

애초 ‘젠트리피케이션에 의한 피해’를 상정한 후, 그 피해를 최소화하겠다는

맥락을 가지고 있다. 그러나 여전히 행정, 정책적으로 젠트피리케이션이 ‘사

회적 문제’라고 객관적으로 인지/검증될만한 ‘정량적 근거’는 마련되지 않은

상태이다. 즉 어떤 조례에서도 정량적 수치 및 목표를 이야기하지 않았으며,

이를 통해 어떠한 목적을 달성할 것인지에 대한 언급이 없는 상황이다. 이를

테면 임대인이 한 곳에서 오래 장사할 수 없는 것이 공공영역에서 개입해야

할 문제라면, 지역의 평균 임차기간을 측정하여 타 지역 대비 몇 퍼센트 수

준으로 만들어야 한다는 정량적인 목표설정이 있어야 할 것이다. 그러나 ‘상

호협력을 통한 공정하고 지속가능한 상가임대차 관계’는 정책적 개입이 어디

에서 어디까지 이루어져야 할 것인지에 대한 정량적 기준을 제시해주지 못

Page 54: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

053

정책사례 연구

한다. 수단은 있으나, 목적지가 없는 표지판과 다를 바 없는 것이다. 물론 조

례에서 정량적인 목표를 제시하는 것이 항상 가능한 것은 아니지만, 조례를

제정하는 과정에서나 지자체 내부에서도 정책적 개입의 범위와 목표를 구체

적으로 제시하지 못하는 상황에서 젠트리피케이션을 단지 상가 임대차 문제

로 프레임이 되는 현상이 강화되어 왔던 것이다. 따라서 젠트리피케이션을

단순히 상가 임대차 문제로 바라보기보다는 새로운 정책적 접근이 필요하며

이를 위해서는 데이터 기반의 접근이 유용할 수 있다.

3.데이터기반이정책결정에어떤도움을줄수있는가?

정책의 투명성과 과학성을 위한 엄밀한 정책분석이 필요하다는 것에는 대부

분의 학자와 실무자들이 동의하고 있다. 그러나 공공영역에서 다루어야 할

사회문제가 더욱 전문화, 고도화됨에 따라 실무자의 경험과 직관만으로는

도달할 수 없는 영역이 존재하는 것은 자명한 사실이다. 이러한 한계를 보

완하기 위해 전문가 자문, 연구기관에 용역을 요청하는 경우가 일반적이나,

‘복잡한 문제’의 경우 해당 연구의 방향성을 설정하는 단계에서부터 어려움

을 겪게 된다. 연구자들이나 전문가들 역시 해당 문제에 대해 충분한 연구나

실무적 경험이 존재하지 않는 것이다. 또한 단기간의 정책요구에 대한 대응

이 급하게 요구되는 경우가 빈번하다. 이러한 상황에서 데이터 분석 결과가

정책결정에 도움이 될 수 있을까?

이상적인 구조라면, 문제를 충분히 인식하고 대응방식을 충분히 검토, 정

책목표를 명확히 규정하고 그에 따라 시행하는 구조가 될 것이나, 실무단위

Page 55: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

054

에서는 문제의 인식과 분석, 대응이 동시다발적으로 발생하는 경우가 많다.

특히 반복적으로 집행되는 정책이 아닌 가치 갈등이 포함된 새로운 정책문

제에 대응해야 하는 상황에서는 데이터 기반 정책결정이 유용하지 않을 수

있다는 비판도 가능하다.

갈등이존재하는정책문제에대한여러접근방법

▒전통적방식

(1)독자적관리방식(Self-managementStrategy)

•일방적 권력행사, 회피(avoidance), 비순응(noncompliance) 등이 있음

(2)사법적판결(재판)

•사법기관에 의한 강제적인 갈등해결방식

•장점: 구속력이 강함

•단점: 많은 시간과 비용이 들며 종국의 결과가 일방의 승리 혹은 패배로 나눠짐

▒대체적분쟁해결방식(ADR,AlternativeDisputeResolution)

•목표: 당사자들 간의 자체적 해결을 통해 쌍방 모두가 승리하는 결과 도출

•종류: 협상(Necotiation), 조정(Meditation), 중재(Arbitration)

•장점: 소송에 비해 소요되는 시간과 비용이 적고, 당사자들의 상호 만족이 가능함

• 단점: 당사자들 간의 힘이 불균형하게 분포되어 있을 경우, 많은 자원과 권력을 가진 쪽

에 더 유리한 결론이 도출될 수 있으며, 모든 유형의 갈등에서 ADR 방식을 사용하는 것

이 적절하지는 않을 수 있음

자료: 하혜영, 2011; 이용훈, 2013 참고하여 재구성

본 사례에서 제시하는 데이터 기반 정책결정은 몇 가지 특징이 있다.

첫째, 데이터 수집 조건을 최대한 단순화하였다는 점이다. 공공영역에서

이미 통계분석 및 행정용도로 수집하고 있었던 데이터를 서로 연계하여 분

석하였으며, 무엇보다 문제의 인식단계가 중요한 상황이었기 때문에, 분석

단계를 최대한 간략화하여 현상의 기술적 분석에 무게를 두었다.

Page 56: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

055

정책사례 연구

둘째, 정책결정이나 집행 혹은 평가 단계에서의 데이터 기반 접근보다는

실무자의 관점에서 정책목표를 명확히 하고자 할 때 시행할 수 있는 초기분

석의 실제 사례를 제시하였다. 일반적으로 데이터 기반 정책은 정책의 효과

를 측정하는 평가 단계를 중심으로 논의되고 있지만, 정책결정의 초기 단계

에서도 이를 유용하게 활용할 수 있음을 보여주고자 한다.

셋째, 젠트리피케이션과 같이 사회갈등의 문제를 내포하고 있는 정책문

제도 데이터 분석을 통해 다양한 관점에서 정책문제를 프레임하고 정책 목

표를 설정할 때 유용하게 사용될 수 있음을 보여주고자 한다.

Page 57: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

056

02

사례의 개요

1.분석의배경

젠트리피케이션 분석사례는 서울시 정보소통광장(http://opengov.seoul.go.kr)

의 결재문서 공개를 통해 확인해 볼 수 있다. 본 사례의 분석이 수행된 시기

는 2016년 상반기, 결재문서의 형태로 공개된 것은 2016년 8월로, 우선 본

분석이 시행되기까지 그동안 서울시가 젠트리피케이션에 대해 어떤 방식으

로 대응해왔는지에 대해 살펴볼 필요가 있다.

공공기관의 모든 업무가 공문의 형태로 기록된다는 것은 기본적인 사실이

다. 따라서 공문의 흐름을 살펴보는 것이 공공영역의 대응을 서술, 추적하는

데에 있어 가장 우선하는 작업이 될 것이다. 서울시 및 산하기관의 경우 업

무협의 및 추진 과정에서 시스템을 통해 공개되지 않는 전자문서 형식의 ‘메

모보고’를 이용하는 경우가 있으나, 해당 데이터는 취합/공개되지 않으므로

본 서술에서는 제외하기로 한다. 본 분석사례가 공개된 2016년 8월 시점을

기준으로 결재문서를 집계하면, 결재문서 제목에서 최초로 젠트리피케이션

이라는 단어가 언급된 2015년 6월부터 제목이 공개된 결재문서는 총 239개,

그중 비용지급 등의 일반 행정문서를 제외하면 총 190개로, 문서가 생산된

Page 58: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

057

정책사례 연구

자치구 및 산하기관별 현황은 <표9>와 같다.

<표9> 기관별 문서 개수

2015 2016총합계

6 7 8 9 10 11 12 1 2 3 4 5 6 7 8

총합계 3 3 5 10 10 14 11 14 23 14 24 17 14 14 14 190

서울시 3 3 3 9 8 9 8 10 15 11 20 9 9 10 7 134

성동구 2 1 1 4 3 1 4 1 2 2 4 3 5 33

보도자료

(서울시)1 2 3

성북구 1 1 1 3

중구 1 1 1 3

마포구 1 1 2

서울신용보

증재단1 1 2

서울연구원 2 2

강남구 1 1

강북구 1 1

구로구 1 1

노원구 1 1

도봉구 1 1

서초구 1 1

송파구 1 1

예산설명서

(서울시)1 1

기관별 문서의 개수에서 명확하게 드러나듯, 서울시의 젠트리피케이션

관련 논의는 서울시 본청 및 성동구 양쪽에서 주도해 온 것으로 판단할 수

있다. 서울시의 문서 규모가 성동구의 4배 수준이나, 오히려 기관의 규모를

Page 59: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

058

감안한다면 성동구가 젠트리피케이션이라는 주제에 대한 논의 및 행정적 접

근을 자치구 차원에서 상당히 중요하게 진행했음을 짐작할 수 있다. 따라서

본 문서에서는, 결재문서를 통해 서울시 및 성동구의 전반적인 접근방식을

요약하고, 결과적으로 서울시 산하의 자치구들이 어떤 방식으로 젠트리피케

이션이라는 정책적 과제를 정의, 대응하였는지를 살펴보고자 한다.

2.서울시의대응

서울시및서울시소속자치구의정책적대응이행정측면에서중요한이유

정책이전(policy transfer)은 한 지역의 정책이 다른 정책에 도입되는 현상을 나타내는 것으로

정책확산(policy diffusion)이라고 부르기도 한다. 서울시는 한국 유일의 특별시로서의 위상

을 가지고 있고 풍부한 재원과 상대적으로 정책역량이 높은 지자체이다. 그 결과 다양한 분

야에서 정책의 선도사례를 생산하는 지자체가 되고 있다. 서울시에서 정책을 수립할 때에는

해외 혹은 타국의 사례를 주로 인용하지만, 다른 광역이나 지자체는 서울시의 케이스를 준

용하는 경우가 가장 일반적이다. 최근에는 중앙기관 역시 서울시 정책사례를 참고하는 경우

가 발생하고 있는데 청년수당의 전국화 현상은 그 예 중의 하나라고 할 수 있다. 젠트리피케

이션의 문제도 서울의 사례는 다른 지방의 참고 사례가 되고 있다.

젠트리피케이션에 대한 서울시 최초의 대응은 ‘도시재생 젠트리피케이션 관

련 자문회의(2015.06.19., 재생정책과)’이다. 서울시는 젠트리피케이션을 새롭

게 발생한 문제라 판단, 정부차원 대응과 서울시의 이전 대응 이력이 없었음

을 확인하고 바로 의제설정의 단계로 진입하였다고 간주할 수 있겠다. 일반

적으로 정책 의제설정 단계에서는 문제정의, 원인분석, 정책수요 조사, 전

문가 의견조사, 국내외 사례분석, 통계분석, 정책화 검토 등의 작업들이 있

는데, 이중 자문회의는 전문가 의견조사의 관점에서 진행된 것이라 볼 수 있

Page 60: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

059

정책사례 연구

다. 2015년 9월 박원순 당시 서울시장의 젠트리피케이션 관련 최초 발언이

있기까지 자문회의가 1회 더 개최되며, ‘도시재생 젠트리피케이션 유도방안

학술연구용역 추진계획’이 재생정책과에서 같은 해 7월 보고된다. 학술연구

용역의 제목에서 ‘도시재생’과 ‘유도방안’을 언급한다는 점에서 연구용역 등

정책방향수립 이전의 단계에서 이미 어느 정도의 방향성을 가지고 사안을

바라보고 있음을 유추할 수 있다. 해당 방향성은 다음의 발언에서 확인할

수 있다.

박 시장은 “지역개발에 따라 영세 임차인이 쫓겨나는 젠트리피케이션(gentrification) 현상과

관련한 대책을 연내에 내놓을 것”이라고 밝혔다.

자료: 매일경제, 2015.9.11

이후 서울시는 크게 3가지의 방향으로 의제에 대해 접근한다. 그러나 의

제설정-정책방향 정립-정책수립의 직선적인 방향을 따라가는 것이 아니라,

의제설정과 방향정립, 실제 정책수립이 뒤섞인 형태를 취하게 된다. 또한 해

당 과제를 부서 하나에서 일관되게 진행하는 것이 아니라, 같은 주제로 다양

한 조직이 서로 다른 단계의 대응을 시도하는 모양새를 보인다. 특히 서울시

주거재생과에서 추진한 학술용역의 경우, 추진계획 수립을 통해 연구용역이

진행되었으나, 해당 연구용역은 2016년 11월 최종적으로 계약이 해지, 연구

용역의 결과를 확인할 수 없는 상황에 처하게 되었다. 결재문서를 통해 확인

할 수 있는 서울시의 의제설정, 정책방향 정립, 정책수립의 타임라인을 정리

하면 다음과 같다.

Page 61: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

060

지속적인자문회의개최(재생정책과)-의제설정

① 2015.06.~2016.04., 총 8회 자문회의 진행 및 결과보고

학술용역진행(주거재생과)-정책방향정립

① 2015.07. 연구용역 추진계획 수립

② 2016.07. 연구용역 시행

③ 2016.11. 연구용역 계약해지

젠트리피케이션종합대책발표(기획담당관)-정책수립

① 2015.11. 종합대책 발표

서울시 내의 문서 생성 현황을 살펴보면 젠트리피케이션을 어느 부서가

관심을 갖고 있는지 살펴볼 수 있다. <표10>에서 볼 수 있듯, 2016년 8월 시

점까지 가장 많은 문서를 생산한 부서는 도시재생본부 산하의 재생정책과

(47건)로서, 가장 이른 시점(2015년 6월)부터 관여하여 지속적으로 문서를 생

산해왔음을 확인할 수 있다. 이는 서울시의 초기대응이 ‘도시재생’의 기반에

서 형성될 것임을 유추할 수 있다. 그 다음으로 많은 문서를 생산한 부서는 경

제진흥본부 산하의 소상공인지원과(28건)로, 소상공인 정책 및 공정거래, 일

자리의 관점에서 바라보게 될 것임을 유추할 수 있다. 이렇듯 두 부서가 서

울시 본청의 젠트리피케이션 관련 전체 문서의 58%를 생산, 서울시 안에서

도 재생정책과와 소상공인지원과가 관련 논의를 주도해왔음을 알 수 있다.

<표10> 서울시 내부에서 문서 생성 현황

2015 2016총합계

6 7 8 9 10 11 12 1 2 3 4 5 6 7 8

서울시 3 3 3 9 8 9 8 10 15 11 20 9 9 10 7 134

재생정책과 2 1 1 2 1   2 2 5 4 8 7 2 5 5 47

Page 62: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

061

정책사례 연구

2015 2016총합계

6 7 8 9 10 11 12 1 2 3 4 5 6 7 8

소상공인

지원과1 7 3 2 9 4 2 28

문화정책과 2 1 2 1 2 9

사회혁신

담당관1 5 1 1 8

주거재생과 1 2 4 1 8

토지관리과 3 3 1 1 8

도시관리과 1 1 2 1 5

법률지원

담당관1 2 1 4

언론담당관 1 1 1 3

역사도심

재생과1 1 1 3

계약심사과 1 1 2

기획담당관 2 2

평가담당관 1 1 2

마을공동체

담당관1

법무담당관 1 1

지역공동체

담당관1 1

통계데이터

담당관1 1

행정1부

시장실1 1

Page 63: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

062

앞서 언급된 지자체들의 젠트리피케이션/상생협약 조례 제정 담당부서를

확인하면 성동구를 제외하고 전체의 절반 이상(17/22개소)이 경제 관련 부서

(일자리/민생/지역/생활경제과, 소상공인, 시장현대화, 전통시장경영)이며, 그 외에는

공동체 육성, 도시재생, 건설 등의 부서에서 담당하고 있었다. 이렇듯 두 가

지 이상의 속성을 가진 사회현상에 대해 어떤 부서가 업무를 주도할 것인지

에 대한 문제는 정책의 방향을 결정할 때 중요한 역할을 하게 된다.

3.성동구의인식및대응

결재문서로 드러나지는 않으나, 성동구는 이미 2015년 5월 시점부터 젠트

리피케이션 대응 전략보고를 시작하고 있었다. 이후 성동구 조례 제정계획

을 수립(2015.06.)하며, 그 직후 관련기관 자문 및 협의를 추진한다. [그림10]

은 2015년 9월에 공개된 ‘젠트리피케이션 방지대책 기본계획’으로 TF팀을

중심으로 조례제정, 시행규칙, 지속가능발전 계획수립 등의 향후 계획안이

포함되어 있다.

Page 64: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

063

정책사례 연구

[그림10] 젠트리피케이션 방지대책 기본계획

Page 65: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

064

성동구 역시 종합대책을 발표한 이후 연구용역을 진행, 2015년 12월 연

구용역을 시작하여 2016년 8월 연구용역 최종보고를 완료하였으나, 실제로

정책에 어떻게 반영되었는지는 보고서가 공개되지 않은 상태여서 해당 분석

이 어떤 영향을 주었는지는 확인할 수단이 없다. 다만 연구용역 발표회에서

정원오 당시 성동구청장은 다음과 같은 평가를 남긴다.

정원오 성동구청장은 “이번 연구용역으로 성수동이 젠트리피케이션의 초기단계로 접어들고 있음을

실증적으로 확인한 만큼, 성수동 지역의 상권 활성화와 지역공동체 상생발전을 위한 정책을 적극

펼쳐나갈 것”이라고 밝혔다.

자료: 전국매일신문, 2016.10.12.

여기서 우리가 확인할 수 있는 중요한 개념 중 하나는 ‘실증적 확인’으로,

데이터 분석을 통해 정책의 지속가능성과 설득력을 담보할 수 있음을 언급

하고 있다.

4.정책수립과정의불투명성:외부자의한계

정책 수립과정의 문서들은 결재선에 해당하는 실무자를 제외하고는 원칙적

으로는 (동일하게 시청에서 재직하는 직원이더라도) 열람이 불가하다. 물론

별도의 청구형식을 취하면 결재문서의 조회 및 열람이 가능하나, 기본적으

로 정부조직의 고질적인 분절적 행정(사일로 이펙트)의 문제가 상존하고 있다.

공공기관의 정보공개에 관한 법률 제9조(비공개 대상정보) 제1항 공공기관

이 보유·관리하는 모든 정보는 원칙적으로 공개대상이 되나, 별도의 조항

Page 66: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

065

정책사례 연구

을 두어 비공개 대상을 지정할 수 있게 한다. 서울시의 경우 앞서 언급하였

듯, 모든 결재문서의 제목이 자동으로 공개되며, 비공개에 따른 네거티브 인

센티브를 주는 형식으로 공문서의 공개를 유도하는 방향의 정책을 취하고

있다. 인사, 개인정보 등 별도의 사유를 제외하고, 정책 수립 시 일반적으로

맞닥뜨리게 되는 정보의 비공개 사유는 다음과 같다.

공공기관의정보공개에관한법률제9조1항

비공개대상정보5호中의사결정과정또는내부검토과정

•사업확장전사업검토서(사업확정후공개) | 사업확정 이전 공개 시 내용의 변동으로 인하여 해

당 업무의 공정한 수행에 지장을 초래할 수 있음

•연구용역중간보고(용역완료후공개) | 용역 완료 전 공개 시 연구의 자유를 저해하거나 지적 소

유권 등을 해할 수 있음

•심사위원후보자명단(확정된심사위원명단은심사수행후공개) | 공개 시 후보자들이 이해관

계인 등으로부터 압력을 받을 위험성이 있고 그로 인해 공정한 정책결정에 현저한 지장을 초래할

수 있음

•위원회등회의녹음파일 | 의사결정 과정에 준하는 사항으로 공개 시 자유로운 의견 개진에 지

장을 초래할 수 있음

•비공식·미확정유관기관협의내용 | 공개 시 자유롭고 솔직한 토론, 의견교환 등을 방해할 우려

가 있고 향후 동종사업의 적정한 수행에 지장을 미칠 수 있음

젠트리피케이션 관련 논의의 경우, 의사결정 과정 또는 내부검토 과정에

포함되는 문서들이 대다수로써, 현재는 대부분의 문서들이 비공개 처리되어

있는 상태이다. 또한 젠트리피케이션이 적용되는 대상이 부동산정책과 밀접

한 연관이 있기 때문에 다음과 같은 제한사항에도 직면한다.

Page 67: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

066

공공기관의정보공개에관한법률제9조1항

▒비공개대상정보8호

• 공개될 경우 부동산 투기, 매점매석 등으로 특정인에게 이익 또는 불이익을 줄 우려가 있

다고 인정되는 정보

▒건축및주택건설

• 공표 전 주택건설 사업계획 및 도면, 공표 전 주택건설 사업계획 검토결과 | 사업공표 전

공개 시 특정인에게 부당한 이익 또는 불이익을 줄 수 있음

▒도시개발

• 공표 전 도시재정비 사업계획 및 도면, 공표 전 재건축 사업계획 및 도면, 공표 전 개발제

한구역 사업계획 및 도면, 공표 전 유통단지 조성 사업계획 및 도면 | 사업공표 전 공개

시 특정인에게 부당한 이익 또는 불이익을 줄 수 있음

▒지역개발계획

• 공표 전 지역개발계획 및 도면, 공표 전 시설조성계획 및 도면, 공표 전 혐오시설 유치계

획 및 도면, 공표 전 역세권 개발계획 및 도면 | 사업공표 전 공개 시 특정인에게 부당한

이익 또는 불이익을 줄 수 있음

이처럼 젠트리피케이션 문제가 사회의제에서 정부의제로 전환되어 감에

도 불구하고 정부 내부에서 어떤 논의가 되고 있는지를 시민들이 접근하기

는 쉽지 않다. 특히 전문적 지식에 접근할 수 없는 시민들은 언론을 통해 제

공되는 정보를 수동적으로 받아들일 수밖에 없는 상황이 된다. 그 결과 복잡

한 젠트리피케이션의 문제가 상가 임대차의 문제로 단순화되는 상황을 시민

들은 방관할 수밖에 없는 상황이 된다.

Page 68: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

067

정책사례 연구

03

데이터를 기반으로 접근한 서울시의 젠트리피케이션 정책

공공영역에서 젠트리피케이션을 다루는 데에 있어 임대인-임차인의 관계를

제외한 다른 측면은 다루어지지 않고 있는 상황이며, 대다수의 조례에서 문

제의 핵심으로 지목하는 임대인-임차인의 관계를 추동하는 근본적인 원인

에 대한 분석의 필요성은 증가하고 있었다. 이러한 상황에서 서울시의 데이

터 기반 접근의 정책결정이 시도되었다.

1.데이터기반접근의필요성

데이터 기반 접근의 필요성은 정책실무자, 정책분석가, 시민의 관점에서 다

양하게 인지되었다. 그중 우선, 서울시의 공무원들이 직면했던 문제를 간단

히 서술하면 다음과 같다. 위에서도 언급하였듯 도시재생과, 재생정책과, 소

상공인지원과 등 다양한 부서에서 젠트리피케이션과 관련된 업무가 진행되

어온 상황이었다. 그러나 사일로 이펙트에 의해 각 부서에서 생산하는 정보

의 수준과 양이 달랐으며, 그 정보들이 한데 취합되는 상황 역시 기대하기

Page 69: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

068

어려웠다. 서울시 산하의 각 실국에서 생산되는 법정통계의 경우, 통계 담당

부서(서울시의 경우 정보기획관 산하 통계데이터담당관, 당시 분석가 재직)로 이관되

는 업무흐름을 가지고 있다. 하지만 법정통계의 영역이 아닌, 사회의 변화

와 부서의 요구에 의해 새롭게 부정기적으로 수집되는 데이터의 경우 특정

부서에서 어떤 정보가 새로 생산되고, 어떤 정보를 분석하여 정책결정에 사

용할 수 있는지 알 수 없다. 부정기적으로 수집되는 데이터는 통계 담당부서

로 수집되지 않으므로 부서 간 적극적인 논의 혹은 개인적 네트워크가 존재

하지 않는 한 데이터의 존재여부를 확인할 수 없기 때문이다. 일례로 소상공

인지원과에서 시민 자원봉사자들을 통해 수집한 몇몇 상권의 임대료 및 권

리금 추이가 있다. 이렇듯 정보 자체의 존재여부를 알 수 없는 조건에서, 분

석프레임을 설정하는 데에는 분명한 한계를 가질 수밖에 없다. 분석을 발표

한 이후에 분석가가 들었던 가장 많은 질문은 특정 데이터를 어떤 부서에서

취득하였으며, 또 그 취득을 위해 어떤 과정을 거쳤는지에 대한 질문이었다.

이는 실무단위에서의 의사결정에서 주무부서들이 겪은 어려움과 이어진다.

재생정책과의 경우 2015년 7월부터 ‘상생·협력적 도시재생 젠트리피케이

션 유도방안 학술연구용역 추진계획(안)’을 통해 연구용역에 대한 준비를 진

행하고 있었다. 그 이후 연구용역 관련 협조요청 등을 통해 2016년 5월 13일

발표된 보도자료(서울시, 빅데이터로 ‘젠트리피케이션’ 예측해 선제 대응)를 기점으

로 같은 달 용역을 발주했으나, 2016년 11월 해당 용역의 해지결재를 보고

함으로써 서울시 차원에서 발주한 젠트리피케이션 연구용역은 2017년 9월

까지 존재하지 않게 된다.

Page 70: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

069

정책사례 연구

[그림11] 2016년 5월 13일에 발표된 보도자료

Page 71: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

070

[그림12] 해지 결재되어 비공개로 전환된 젠트리피케이션 연구용역

분석가가 결재문서를 확인할 수 없었던 타 부서의 일이기에 자세한 내막

을 확인할 방법은 요원하였다. 이에 따라 재생정책과에서 통계데이터담당관

측에 분석자료를 요청(2016년 8월 17일)하여 받은 답변의 형태로 본 교안을 작

성하였으며 요청문서의 본문은 [그림13]과 같다. 참고로 해당 내용이 결재문

서의 형태로 공표된 것은 2016년 8월 24일이다.

Page 72: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

071

정책사례 연구

[그림13] 젠트리피케이션 관련 분석자료 제공 요청 공문

시기적으로 비교하였을 때, 재생정책과에서 진행중이던 용역이 이미 발

주 이후 수행되고 있었던 상황이었음을 알 수 있다. 다시 말해 오랜 시간을

걸쳐 준비하여 발주한 용역이어도 충분한 효과를 얻을 수 없는 상황을 맞닥

뜨릴 수도 있다는 것이다. 특히 이러한 상황은, 우리가 앞으로 이야기할 빅

데이터 기반의 분석을 정책수행자 입장에서 어떻게 받아들여야 하는지에 대

한 시사점을 보여준다고 할 수 있다.

1)정책실무자가기대하고있었던데이터기반분석의필요성

젠트리피케이션 현상이 실존하고 그 현상이 사회적 문제이며 지자체 혹은

중앙정부에서 시급하게 해결해야만 하는 정책적 과제라면, 정량적이고 실천

Page 73: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

072

적인 대안을 구상하기 위해서 해당 현상의 구체성을 파악할 필요가 있다. 그

러나 현상이 구체적으로 어떤 원인에 의해 추동되고, 어떤 과정을 거쳐 어떠

한 변화를 수반하는지에 대해 실증적으로 살펴본 접근이 부족한 상황이다.

기존의 언론지형 및 정치-정책적 대응에서 ‘젠트리피케이션 현상으로 인해

상가가 한 장소에서 오래 장사하지 못하게 만드는 상가임대차 구조가 문제

다’라고 한다면, 정책적 수단을 동원하기 위해서는 적어도 해당 현상이 발생

하는 지역의 평균 영업기간이 얼마이며, 그 기간은 어떻게 변해왔으며, 이

상적인 영업기간은 몇 년이 되어야 하는지에 대한 기준점이 존재해야만 한

다. 상권은 빠른 시간에 급변하며, 다양한 변수를 내포하며 사회적/경제적

변화에 의해 지역적인 차이도 매우 크게 나타난다. 이를테면 2012년 홍대

지역 음식점의 평균 폐업기간은 2.3년에 불과하나, 지하철역으로 두 정거장

떨어진 이대 앞 음식점의 평균 폐업기간은 4년 이상이었다. 이대 앞의 상권

이 침체하여 상가임대차 문제가 단 한 건도 발생하지 않았기 때문이다. 근접

한 지역 내에서도 이렇게 상반되는 현상이 발생하는데, 이것을 자치구 단위

의 조례로 묶어도 되는 것인지에 대한 고민이 필요했다. 일례로 2006년부터

2018년까지 홍대지역의 음식점 밀집지역 확장을 살펴보면 단순히 고정된

상권이 교체되는 것이 아니라, 동 단위를 빠르게 넘어 음식점이 확장하는 것

을 볼 수 있다. 소위 젠트리피케이션이 발생한다는 여타 지역에서도 속도나

양상은 다르나, 확장이라는 측면에서는 단순히 지자체 단위로 묶을 수 없을

만큼 다양한 패턴이 나타난다.

한편 젠트리피케이션은 도시재생이라는 중요한 정책문제와 밀접하게 연

결되어 있다. 도시가 형성되고 팽창됨에 따라 도심지역의 공동화 현상이 발

생하게 되고 이를 극복하기 위해서 도심지역의 재개발 문제가 대두하기 시

작하였다. 도심지역의 재개발을 추구하기 시작하면 토지와 건물 소유주의

Page 74: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

073

정책사례 연구

이익과 거주 주민 및 소상공인의 이익이 불일치하기 때문이다. 이 불일치는

결국 지가의 상승, 상권의 변화, 인구 이동을 초래하게 되고 지역 공동체에

긍정적인 효과와 부정적인 효과를 동시에 초래하기 때문이다. 따라서 젠트

리피케이션 문제에 대한 이해는 도시재생 정책을 기획하고 집행할 때 유용

한 시사점을 제공할 수 있다.

2)정책분석가의관점

정책이 존재해야 한다면 그 정책의 수립과정 및 수단에 대해 평가를 할 수

있어야 한다고 판단했다. 현황조사-의제설정-방향정립-정책수립-점검 및

보완으로 이루어지는 정책결정 구조에서 단순히 가용한 예산을 조례에 따라

지원하는 것이 아니라, 임대차 분쟁이 가장 큰 문제라면 분쟁의 정의, 해당

사회적 갈등으로 인해 발생하는 비용의 추산, 소송 및 합의건수 등 모니터링

해야 하는 지표들을 정의하고 정책의 성공/실패여부를 판별할 수 있어야 한

다. 그런데 그러한 상황을 만들지 못했으며, 앞서 언급한 학술영역에서의 선

행연구에서 이야기하듯 현상에는 상가임대차뿐만 아니라 지역의 변화에 선

후하는 혹은 동시에 나타나는 다양한 사회문제가 병존하는 상황에서 이를

정량적으로 인지할 수 있어야 했다. 이를테면 해당지역 내 건물 소유주의 급

격한 변화, 지역 거주민 감소현상 등이 수반되는데, 정책적 접근에서는 이들

간의 관계에 대한 인과가 모호하게 명시되거나 혹은 생략되는 상황이다. 따

라서 현상의 전후, 원인과 결과로 이어지는 전체를 포괄하는 관점의 접근이

필요하다고 판단했다. 근거에 기반을 둔 정책설계 및 대안을 도출하기 위해

서는 지자체 및 정부에서 현상을 명확히 인지할 수 있는, 범용가능하며 현상

의 전체 영역을 포괄하는 지표체계를 설계할 필요가 있었다.

Page 75: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

074

3)데이터분석가의관점

본 현상에서 (빅)데이터 분석이라는 개념이 등장한 것은 위와 같은 문제인식

이후의 단계이다. 다종의 정량 및 준-정성적 데이터의 교차분석을 통해 분

석 대상지역 내부의 변화를 미시적으로 관찰, 현상에 대한 ‘분석적 예시’를

형성하고자 하는 것이 분석의 목적이라 규정하였고, 공공영역의 분석이라는

측면에서 지속가능성 및 범용성(확장성)이 필요했다. 가용한 자원을 통해 종

단 및 횡단 모니터링이 실시간 혹은 적어도 매월 단위로 기능하려면 정부 및

지방자치단체에서 기존에 생산하던 공공데이터를 위주로 지표를 구성할 필

요가 있다. 상세한 데이터의 출처 및 핸들링 방법은 뒤의 분석방법에서 이어

설명할 것이다.

4)시민의관점

젠트리피케이션은 ‘해당 지역의 거주-소유주’, ‘해당 지역의 거주-세입자’,

‘해당 지역 미거주 소유주’, ‘해당 지역을 주로 이용하던 외지인’ 등 시민 내에

서도 다양한 이해당사자들을 수반한다. 단순히 임대-임차인의 관계로만 현

상을 이야기하기에는 이해당사자의 그룹이 매우 많은 상황이다. 근본적으

로 젠트리피케이션은 도시문제이며 지역의 변화를 수반하는 현상이기에 변

화의 속도가 너무 빠르다 혹은 그렇지 않다는 개인이 결정할 수 없는 부분이

다. 특정 지역이 다른 지역에 비해 변화가 빠르다는 사실을 직관적으로는 이

해할 수 있으나, 객관적으로 설득하기는 어려운 상황이다. 시민은 이러한 도

시의 변화에 대해 어떻게 대응하여야 하는지에 대한 분석적 예시가 존재하

지 않는 상황으로, 다수가 공유할 수 있는 ‘현상에 대한 사회적 합의’가 필요

한 상황이었다.

Page 76: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

075

정책사례 연구

2.분석과정

1)서울시의조직구조와분석의전반적인진행과정

데이터 기반 정책분석을 위해서는 분석 인력의 확보가 필수적이다. 서울시

정보기획관 통계데이터담당관실의 경우, 2016년 당시 다양한 영역의 분석

케이스를 축적하고 있는 상황이었으며, 빅데이터 분석 전문 보직이 2015년

11월 신설되어, 해당 인력이 별도의 분석을 진행할 수 있는 상황이었다. 분

석가 A는 도시데이터를 주로 다루어 왔으며, 젠트리피케이션과 관련한 일차

분석을 개인적으로 진행한 경험이 있었다. 또한 부서에서 진행해오던 골목

상권 분석시스템(golmok.seoul.go.kr)이 완성되는 시점에서 도시를 다른 관점

으로 볼 수 있는 새로운 도시데이터가 대량으로 적재되는 시기와 맞물려, 이

를 사용한 새로운 분석과제를 추진하려 하고 있던 시점이었다.

2015년 12월 종합대책이 발표된 이후, 재생정책과에서는 지속적으로 자

문을 하고 있었으며, 시장 직속의 혁신기획관에서는 해당 자문에 참여, 도

시재생과 관련하여 별도의 논의가 지속 진행되고 있었다. 주거재생과에서는

성동구의 사례를 바탕으로 연구용역을 시도하였다. 빅데이터 분석이라는 개

념이 행정에서 조금씩 대두되고 있는 상황에서, 부서 간의 요청을 통해 분석

방법 및 과제에 대한 자문요청을 해왔고, 이에 대응하는 형태로 데이터 분석

을 진행하게 되었다. 이때 ‘데이터의 축적(상권분석시스템)’과 ‘새로운 분석수요

의 대두’가 분석을 시작하는데 중요한 요인이었다고 할 수 있다.

2)데이터의수집방법

젠트리피케이션과 같은 새로운 정책 문제는 지속적으로 모니터링을 하여 바

로 분석을 수행할 수 있는 자료가 갖추어지지 않는 경우가 많다. 따라서 적

절한 데이터의 선택과 수집은 매우 중요하다.

Page 77: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

076

<표11> 분석에 사용된 자료

관리주체 관리기관 항목 기준연도 규모

중앙 대법원(지역 등기소) 등기부등본 전수이력, 2015년 말 -

중앙/광역 통계청/서울시 사업체총조사 2006-2015, 매 3년 주기 연 80만 건

중앙/광역 행정자치부 주민등록 인구통계 2006-2015, 매 3년 주기 -

중앙/광역 통계청/서울시 센서스 (인구, 가구, 주택) 2010 -

중앙/광역 국토부(세움터) 건축물대장 2001-2015 연 80만 건

중앙 국토부(한국감정원) 표준지공시지가 2001-2015

광역/기초 서울시/구청식품위생업소

인허가데이터2001-2015

누적

50만 건

서울시

서울시

통계데이터담당관실

(상권분석시스템)

카드매출데이터 2013-2015

상가임대차문제를 분석하기 이전에 구할 수 있는 공공영역의 데이터를 최

대한 많이 수집하는 과정을 거쳤다. 이 과정은 지역의 변화에 대해 정량지표

화 가능성을 확인하기 위한 것으로, 분석가 A가 재직중이던 부서에서 광역

단위의 통계데이터를 법정업무로 상시 수집하고 있었으나, 단순히 수집하는

데이터만으로는 원하는 수준의 분석을 진행할 수 없었기 때문이다. 통계형

태의 정보는 행정동 혹은 자치구 단위로 rawdata를 취합하여 공개하는데,

원하는 수준의 미시적 분석을 위해서는 rawdata의 이용이 필수적이나 부서

외부에서는 법률규정상 rawdata를 이용할 수 있는 방법이 없었으므로 모든

데이터를 내부에서 자체적으로 분석해야 하는 조건이었다. 이는 공공데이터

이용의 한계를 보여주는 일례라 할 수 있다.

서울시 통계데이터담당관실의 경우 이전의 분석을 통해 자체적으로 축적된

데이터가 있었으므로, 데이터를 수집하는데 상대적으로 용이한 조건에 있었다.

Page 78: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

077

정책사례 연구

3)데이터수집과정에서의문제점과수집된데이터의한계

첫 번째, 서로 다른 기관에서의 데이터 수집에 대한 어려움이다. 공문을 통

한 업무요청은 너무 오랜 시간이 필요하기 때문에, 직접 민원형태로 필요한

지역의 데이터를 제공받아 진행하였다. 일례로 등기부등본 데이터의 경우

인터넷등기소 홈페이지에서는 지번 하나씩만 조회할 수 있었기 때문에 지번

을 하나씩 조회하여 건별 수수료를 결제하는 형태로만 수집이 가능했다. 물

론 데이터의 관리주체가 다른 경우 데이터를 주고받기 위한 프로토콜이 존

재할 것이나, 이러한 상황에서 데이터의 교환이 불가능하다는 것은 분명 데

이터 기반 정책수립의 커다란 걸림돌이다. 감정원의 경우 공시지가 데이터

를 홈페이지에 공개하고 있으나 이 역시 번지별로 조회만 가능하고 데이터

전체의 형상을 볼 수 없게 되어 있다. 예를 들어 지역의 지가 변화를 시계열

로 확인하기 위해서는 지번별의 지가 데이터를 GIS를 통해 지도 위에 올려

놓고 krigging 등의 보간기법을 통해 등고지도를 그려 비교하는 방식이 있

다. 이를 위해서는 해당 지역의 지가 데이터만이 아닌 지역 전체의 데이터를

놓고 전체와의 추이 비교를 진행하는 것이 필요하였다. 따라서 각 지역의 자

료를 하나씩 받아 해결할 수밖에 없는 상황이었다.

두 번째, 정보의 품질에 대한 문제이다. 같은 대상, 이를테면 동일한 음식

점을 두고 새올 행정정보시스템과 사업체총조사에 기록된 시스템의 정보가

서로 상이한 경우가 대부분이었다. 물론 최근의 고도화 사업을 통해 지속적

으로 시스템의 데이터 정합성이 향상되고는 있으나, 서로 다른 두 시스템에

서 나오는 동일한 대상의 정보가 상이하다면 이는 도시 전체를 보는 입장에

서 어느 쪽을 기준으로 삼아야 할지 선택하기 어려운 상황에 맞닥뜨리게 된

다. 예를 들어 사업체총조사를 통해 기록된 개업시점과 새올 행정정보시스

템에 기록된 개업시점이 서로 다르다면 어떤 수치를 사용해야 할 것인지는

Page 79: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

078

해당 부서끼리의 논의를 통하지 않고서는 해결할 수 없는 상황이었다. 개별

부서의 범위를 넘지 않는 정책의 수립과정이라면 자체적으로 관리하는 시스

템의 정보만을 사용하면 되는 문제이나, 두 개 이상의 부서에서 관리하는 정

보를 연계하여 분석하고자 한다면 당장에 맞닥뜨리게 되는 문제이다.

4)정보의생산과한계

젠트리피케이션 발생 지역을 대상으로 현상을 분석한 [그림14]의 데이터를

GIS 클라이언트를 이용해 공간상에 매핑하는 작업을 진행하였다. 분석대상

지역을 특정한 후, 대상지역의 변화를 살펴보기 위해 우선 사업체총조사를

통해 수집된 각 연도별 데이터를 취합, 지역의 (표준산업분류에 따른) 업종구성

및 종사자 수의 변화를 추적하였다. 2006년부터 2015년까지 음식점 및 주

점업의 사업체 수 및 종사자 수는 매우 빠르게 증가하였으나, 그 외 업종의

경우 별다른 변화가 존재하지 않는다는 사실을 확인할 수 있었다. 분석대상

이 된 10년의 기간 동안 전체 사업체 종사자의 증가분 중 음식점 및 주점업

종사자가 차지하는 비율은 경리단길 83%, 상수동 77%, 연남동 40%, 이태

원 92%로 절대다수를 차지하였다.

[그림14] 업종별 종사자 수 변화

Page 80: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

079

정책사례 연구

다시 말해 지역의 변화를 추동한 것은 음식점 및 주점업이었으며, 산업구

조의 변화 없이 증가한 일자리 중 자영업/임시일용(1년 미만) 형태의 종사비율

은 상수 51%, 연남동 77%로 양질의 일자리 창출에는 미흡하다는 상황을 확

인할 수 있었다. 이는 젠트리피케이션이 단순히 도시계획 혹은 상가임대차의

문제가 아닌 일자리의 질에도 영향을 준다는 사실을 방증하는 정보이다.

음식점 증가, 건축행위(신·증·개축/대수선) 활성화: 거주공간 물리적 감소

※음식점 현황을 노란색으로 매핑

급격한 음식점 성장: 모든 지역 음식점 개업신고 수 최근 3년간 80% 이상 증가

구분 2006년 2009년 2012년 2015년

서울(비교) 64,350(-1%) 70,423(9%) 85,736(22%) 126,034(47%)

경리단길 43(16%) 53(23%) 82(55%) 190(132%)

상수 51(46%) 88(73%) 170(93%) 344(102%)

연남 22(10%) 32(45%) 58(81%) 171(195%)

이태원 101(6%) 110(9%) 165(50%) 307(86%)

※지역별/시점별 음식점 개업신고 수(이전 3년간 성장률), 연말기준

[그림15] 지역별 음식점의 변화

Page 81: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

080

부동산: 소유현황

부동산: 근저당 금액 총량, 근저당금액 건물당 평균(억 원)

[그림16] 부동산 소유권의 변화

또한 상수동과 연남동 지역에서 음식점이 운영중인 건물 대상으로 소유주

의 변화를 살펴보면 [그림16]과 같다. 수집된 등기부등본을 바탕으로 데이터

를 취합하여, 해당 부동산의 취득시점 당시 소유주의 주소지가 상수동/연남

동이라면 내부 소유주, 그 외 지역이라면 외부 소유주라 분류하였다. 2015년

말 기준으로 상수동의 경우 66%, 연남동의 경우 60%가 외지인 소유의 부동

산이었으며, 해당 건물을 담보로 한 근저당금액 역시 꾸준히 상승하여, 상수

지역의 경우 건물당 평균 7.2억 원, 연남지역의 경우 건물당 평균 4.25억 원

의 근저당금액을 보유하게 되었다. 이는 젠트리피케이션 현상이 결국 지역

Page 82: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

081

정책사례 연구

의 경제적 부하(負荷)로 작동하며, 이 역시 도시정책의 범위를 넘어서서 금융

정책과 관련된 시사점을 가지게 됨을 방증한다. 또한 그래프의 기울기를 보

면 2013년을 기점으로 급격하게 증가하였고, 분석시점으로부터 최근 3년간

지역의 변화속도가 더욱 빨라졌음을 확인할 수 있다.

또한 건축행위 역시 음식점 진입 및 부동산 거래와 동시에 발생, 건축행

위가 증가하여 기존의 주거용 건물이 근린생활시설로 용도변경 되었음을 확

인할 수 있다([그림17]). 특히 상수지역의 경우 최근 10년간 전체 건축물 중

68%가 건축행위의 대상이 되었음을 확인할 수 있는데, 이는 지역이 전면 재

개발과 같은 수준의 변화를 겪었음을 의미한다.

구분 건축행위/총건물 건축행위(비율) 근린시설/건축행위 근린생활(비율)

경리단 198/939 21% 116/160 73%

상수 150/219 68% 108/119 91%

연남 238/1032 23% 148/223 66%

이태원 102/781 12% 78/85 92%

※ 2006~2015, 합필 등으로 인한 동일지번/동일시점, 특정건물 등의 건축행위는 1개로 둠

2006~2015 건축행위 신고건수 추이

[그림17] 건축행위의 증가

Page 83: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

082

부동산 거래에 이은 음식점의 진입, 건축행위의 동반 발생으로 공간의 성

격이 물리적으로 변화하였으며, 이는 본래 학술적 논의의 젠트리피케이션에

서 언급하였던 ‘거주민의 내몰림 현상’을 유발하는 것을 실증적으로 확인할

수 있다. [그림18]의 그래프에서 볼 수 있듯, 해당지역의 기존 주민 연령대는

20대 중반~30대 중반 중심이었는데, 변화의 결과로 20~30대가 가장 빠르

게 감소하였다. 이와 같은 내몰림 현상은 연남동을 제외한 서울 전체의 변화

추이보다 더 빠르게 나타남을 확인할 수 있었다.

인구, 가구: 센서스(2010)

자료: 통계청 센서스(2010)

[그림18] 거주민 내몰림 현상

Page 84: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

083

정책사례 연구

또한 음식점이 가장 빠르게 늘어난 만큼, 상가임대차 및 폐업 문제에서

음식점의 생멸을 확인할 필요가 있었다. 위에서 언급한 인허가데이터를 통

해 음식점의 평균 운영기간 및 폐업기간을 확인하여, 상권의 생애주기에 대

해 [그림19]과 같은 분석결과를 얻을 수 있었다.

[그림19] 상권의 생애주기에 대한 분석

Page 85: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

084

또한 이를 통해 ‘상가 젠트리피케이션’의 진행단계 개념도를 구상, 젠트리

피케이션 발생 지역들의 진행단계를 규정할 수 있었다. 이는 진행단계에 따

라 서로 다른 정책적 수단이 시도되어야 함을 의미한다.

[그림20] 상가 젠트리피케이션 진행단계 개념도

Page 86: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

085

정책사례 연구

[그림21] 정태지표 및 동태지표의 규정

분석결과를 바탕으로 위와 같이 정태지표 및 동태지표를 규정할 수 있었

다. 다만 분석이 완료된 시점에서 ‘과연 무엇이 문제이며, 어떠한 정책적 수

단을 이용해야 하는가’라는 질문에 대해 명확한 답을 내놓지 못했다는 한계

Page 87: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

086

점이 있었다. 따라서 한계점을 보완하기 위해 추가적으로 규정할 수 있는 지

표들을 제안하는 것으로 분석을 마무리하였다.

5)결과의활용방법

재생정책과, 도시재생과, 혁신기획관, 소상공인지원과 등의 유관부서를 대

상으로 분석결과를 공유하는 회의를 진행하여 향후 업무 시 부서 차원에서

의 자문형태로 참여하게 되었다. 정책결정자와 데이터 분석가 개인 간의 기

술 활용능력 격차가 존재하듯이, 데이터에 익숙한 조직과 그렇지 않은 조직

간에 분석결과를 이해하고 정책에 반영하는 수준 역시 격차가 존재함을 확

인할 수 있었다. 소상공인지원과의 경우 자문 이후 본 분석의 프레임을 활

용, 추가적인 데이터(권리금, 월세)를 수집하여 자체적으로 분석을 진행하여

이후의 정책결정에 반영한 케이스가 존재하나, 그 외의 부서에서는 특기할

만한 변화를 확인할 수는 없었다.

대중에게는 기자와의 협업을 통해 신문기사의 형태로 분석내용이 공개되

었으며(한겨례, 2016.07.27.), 본 문서가 논문형태를 갖추지는 않았으므로 인

용개수를 추적할 수는 없으나, 국토연구원의 연구문서 등에서 서울시 분석

사례를 참조한 사례를 다수 발견할 수 있다.

2018년 11월 현재, ‘젠트리피케이션’이라는 키워드가 들어간 서울시 결재

문서가 436건 존재하는데, 그중 종합대책의 조회 수가 1위, 본 사례의 분석

결과가 조회 수 2위이다. 또한 서울시 전체 결재문서 1,500만 건 중 조회 수

기준으로 200위 이내에 들어가므로 공공에서 생산한 정보의 공유생태계 형

성에 어느 정도 기여하였다고 할 수 있다.

Page 88: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

087

정책사례 연구

04

젠트리피케이션의 시사점

우리가 당연하다고 생각했던 사회문제도 역사적으로 상이하게 이해될 수 있

다. 사회문제를 규정할 때 긍정적인 단어를 썼을 때와 부정적인 단어를 썼을

때의 결과는 확실히 달라진다. 서울시의 대응은 젠트리피케이션이라는 현상

에 대해서 부정적으로 규정하고 현상을 방지하기 위한 대책을 찾는 방향으

로 진행되어 왔으며, 이는 언론에서 규정한 방식과 별다른 차이가 없었다.

이러한 배경에서 젠트리피케이션 현상이 어떤 문제를 갖고 있는지 구체적으

로 규정한 분석이 없었기 때문에 정책도구를 선택하는 데 있어서 일반적이

고 추상적인 수단이 선택되었으며, 정량적인 정보 없이 의사결정이 급박하

게 이뤄지게 되었다.

데이터 분석을 통해 현상을 더욱 구체적으로 파악할 수 있었으며, 이를

이용해 향후 정책을 기획할 때 충분히 도움이 될 수 있었다. 또한 객관성을

통해 시민들로부터 정책에 대한 지지를 얻을 수 있는 가능성 역시 확보할 수

있었다. 그리고 정책설계 단계에서 데이터 분석을 통해 성과지표를 명확하

게 설정하면, 정책의 구체성을 높여 불필요한 갈등을 예방할 수 있으며 향후

정책의 진행방향을 모니터링할 수 있는 평가틀로도 작동할 수 있다. 더불어

서울시나 성동구뿐만 아니라 다른 지역에서도 젠트리피케이션의 사전적 모

Page 89: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

088

니터링을 수행할 수 있게 하는 역할을 하였다.

양질의 정책분석에 대한 수요는 분명 존재한다. 본 사례에서 다루어진 분

석은 처음부터 개방성과 지속가능성을 염두에 두고, 공공에서 확보할 수 있

는 데이터로만 진행되었다는 특징이 있다. 공공영역의 데이터 분석은 오픈

소스 알고리즘을 만드는 것과 같은 개념으로, 공개된 데이터를 바탕으로 하

기 때문에 향후 공공에서 진행되는 연구용역은 공개를 전제로 작업되어야

한다. 물론 본문에서도 언급했듯이 정보를 수집하는 과정에서 서로 다른 기

관과의 협업, 정보의 정합성과 관련된 문제는 지속적으로 국가차원에서 개

선해 나가야 할 과제일 것이다.

지자체 및 광역, 중앙정부에서 진행되었으나 공개되지 않는 연구용역이

많다. 공공에서 발주하여 진행된 연구용역은 공공정책연구사이트인 프리즘

(PRISM, www.prism.go.kr)에 공개하도록 되어있으나, 실제로는 찾아볼 수 없

게 되어있다. 실제로 서울시, 성북구, 성동구 등에서 젠트리피케이션 관련

정책연구 혹은 빅데이터 분석을 진행했으나 해당 문서들은 전부 비공개인

상태였다. 중복된 자원투입을 막고 더 나은 정책을 공유한다는 차원에서 보

다 적극적으로 공개되어야 할 것이다.

새롭고 복잡한(Wicked) 문제들은 기존과는 다른 방식의 접근이 필요할 때

가 있으며, 그 필요성은 점점 증가할 것이다. 서울시 재생정책과의 경우 1년

의 준비기간을 거쳐 발주한 용역을 철회하므로, 소기의 성과를 달성하지 못

한 바 있다. 분석과제가 점점 복잡해지면서 해당 과제를 발주하는 측에서도

분석역량을 갖추었을 때, 시간과 예산을 절감할 수 있는 가능성을 가지게 될

것이다. 또한 복사-붙여넣기식의 정책수립을 지양하여야 하며, 지역의 특성

을 고려하지 않은 정책수립 역시 지양해야 옳다.

한편 오늘날 복잡한 정책문제들에 대해 단일한 관점에서 접근하는 것은

Page 90: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

089

정책사례 연구

현상의 단면만을 보는 것이며 다른 중요한 차원들을 간과할 위험이 존재한

다. 젠트리피케이션 사례와 관련해서도 앞선 분석의 결과로 알 수 있는 부동

산, 금융 등의 측면에서 나타나는 문제뿐만 아니라 치안, 문화·예술 등의

측면에서 보여 지는 문제 등 다양한 관점에서의 접근 가능성 및 필요성이 존

재한다. 정책문제에 대한 데이터 기반의 접근을 함에 있어서도 이를 고려할

필요가 있으며, 다양한 정책분야의 데이터 수집 및 분석, 활용이 필요하다.

Page 91: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

090

정책교육Ⅲ

Page 92: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

091

정책교육

01 정책사례교육의 성공을 위한 강의교안 _ 092

02 강의교안에 맞춘 학생용 교재 _ 134

Page 93: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

092

01

정책사례교육의 성공을 위한 강의교안

1.강의교안의구성

1)강의교안개발의일반론

교수자의 역량과 노력은 교육콘텐츠 또는 강의의 질에 영향을 미친다(김선명,

2003). 특히 공무원을 대상으로 한 정책사례교육의 성공요인 중 하나가 효과

적인 강의교안이라고 지적된 바 있고(김종래, 2011), 교수자의 일방적 정보전

달 위주의 강의에서 최근 참여를 유도하는 교육으로 교육방식이 변화함에

따라 교육방식의 중요성은 더욱 증대되고 있다.

공무원 정책사례교육의 방식에는 ①교육사례의 내용 전체를 교육 이전에

배포하여 사전에 교육생들이 숙지해 오도록 한 후 진행하는 방식, ②수업차

시에 따라 단계별로 제한된 정보를 제공하여 진행하는 방식이 있다(임재호,

2017). 그러나 어떠한 방식을 채택하든지 실제 강의는 여러 차시에 걸쳐 단

계적으로 진행되므로 차시별 강의교안을 제시하고자 한다.

2)강의교안의제시

강의교안은 ①데이터 기반 정책에 대한 이해, ②서울시 젠트리피케이션 사

례에 대한 이해, ③비정형 데이터 분석을 통한 젠트리피케이션 문제에 대한

Page 94: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

093

정책교육

이해: 기초, ④비정형 데이터 분석을 통한 젠트리피케이션 문제에 대한 이

해: 심화로 구분하였으며, 수업단계(도입-전개-정리)별 수업내용 및 방식을

함께 제시하였다.

(1) 데이터 기반 정책에 대한 이해

주제 데이터 기반 정책에 대한 이해 차시 1

교육목표

•데이터 기반 정책이 무엇이며 왜 중요한지를 이해함

•데이터 기반 정책의 한계를 이해함

•데이터 기반 정책의 해외사례를 학습함

•공공데이터의 개방 현황을 이해함

수업설계

단계 수업내용 수업방식

도입

□데이터 기반 정책의 필요성

•합리적 정책결정의 중요성

•정책의 탈이념화와 실용성에 대한 강조

□공공데이터 개방의 현황

•공공데이터 포털 등 공공데이터 제공 웹사이트 소개

강의

전개

□데이터 기반 정책의 한계 및 관련 쟁점

•정책의 복잡성/맥락성/민주성에 대한 간과가능성

•증거의 객관성 및 중립성에 대한 의문 등

•데이터 윤리문제에 대한 쟁점

(강사용 보충자료 1 참고)

□공공데이터의 부가가치 증대를 위한 분석체계 소개

•데이터를 활용한 추세분석 등의 가능성 제시

□데이터 기반 정책의 해외사례 예시

(강사용 보충자료 2 참고)

•빅데이터를 활용한 젠트리피케이션 예측 모형 소개

강의 및 토론

정리□공공데이터를 활용한 데이터 기반 정책문제 이해

•데이터 기반의 정책문제 이해의 조별 또는 개별 실습 및 발표실습 및 발표

<과제및토론주제예시>

•데이터 기반 정책은 왜 필요하며, 그 한계점은 무엇인가?

• 하나의 정책문제를 정하여 해당 문제에 대한 데이터 기반 접근을 하기 위해 필요한 데이터의

리스트를 제시하고, 데이터를 어디서 어떻게 확보할 수 있는지 제시하라.

•데이터 기반 정책이 행정에 응용되고 있는 사례는?

Page 95: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

094

(2) 서울시 젠트리피케이션 사례에 대한 이해

주제 서울시 젠트리피케이션 사례에 대한 이해 차시 2

교육목표

•젠트리피케이션 정책사례의 선정 이유에 대한 이해

•젠트리피케이션 사례의 다양한 정책분야와의 연계성 이해

•젠트리피케이션 현상에 대한 이해

•젠트리피케이션 현상에 대한 정책적 대응의 이해

수업설계

단계 수업내용 수업방식

도입

□젠트리피케이션 사례 선정의 이유

•가치충돌의 존재

•데이터 분석을 통한 접근

□젠트리피케이션 문제와 연계된 다양한 분야에서의 접근

(강사용 보충자료 3 참고)

•젠트리피케이션 문제에 대한 여러 개별 부처 관점의 이해

•부처 간 협조 또는 정책조정의 필요성에 대한 이해

강의

토론 및 발표

전개

□젠트리피케이션 정책문제를 이해하는 다양한 방법

•학술연구를 통한 이해

•언론기사를 통한 이해

□젠트리피케이션에 대한 정책적 대응

•데이터에 기반하지 않은 정책결정의 한계

•서울시의 데이터 기반 접근

강의

정리

□주요 쟁점에 대한 토론 및 발표 실시

• 젠트리피케이션과 같은 가치갈등의 문제에 있어, 데이터 분

석을 통한 접근을 어떻게 취할 것인가?

• 젠트리피케이션이 아닌 다른 정책문제 중 데이터 기반 접근

이 적절하며 필요한 정책문제에는 어떤 것이 있을 것인가?

그 이유는 무엇인가?

토론 및 발표

<과제및토론주제예시>

•젠트리피케이션은 어떠한 현상을 의미하고 어떻게 정의할 수 있는가?

• 젠트리피케이션 현상으로 인한 치안문제를 우려하는 관점에서 데이터 기반의 현황파악 및 정

책대안 도출을 수행하라.

• 서울시의 데이터 기반 접근방법을 참고하여, 젠트리피케이션 사례에 대한 데이터 기반 접근을

직접 수행하라.

• 어떠한 정책문제에 있어 데이터 기반 접근이 유용할 것인가? 데이터 기반 접근이 적절하지 않

은 정책문제도 존재하는가?

Page 96: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

095

정책교육

(3) 비정형 데이터 분석을 통한 젠트리피케이션 문제에 대한 이해: 기초

주제비정형 데이터 분석을 통한 젠트리피케이션 문제에 대한 이해:

기초차시 3

교육목표•비정형 데이터 분석을 통해 정책문제를 이해하는 기초적인 방법 학습

•뉴스 빅데이터 활용의 체계적인 방법 소개

수업설계

단계 수업내용 수업방식

도입

□학생들의 비정형 데이터 분석 결과의 공유

• 젠트리피케이션에 관하여 학생들이 인터넷 검색을 통해 찾아

본 내용의 상호 공유

발표

전개

□보다 체계적인 뉴스 자료 분석방법 제시

(강사용 보충자료 4 참고)

•빅카인즈에 대한 소개

(https://www.youtube.com/watch?v=kQXS9W4Z2EU)

•단어 네트워크, 단어 구름, 연관어 분석 결과의 소개

강의

정리

□빅카인즈를 활용한 정책문제 이해의 연습

• 개별 또는 조별로 하나의 정책문제를 정하여 빅카인즈를 활

용해 직접 분석 수행 및 발표

실습 및 발표

<과제및토론주제예시>

•하나의 정책문제를 정하여 빅카인즈를 활용하여 정책의제가 어떻게 프레임되는지를 분석하라.

•데이터를 확보함에 있어 뉴스 등의 언론자료 이외에 또 어떠한 데이터들이 존재하는가?

Page 97: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

096

(4) 비정형 데이터 분석을 통한 젠트리피케이션 문제에 대한 이해: 심화

주제비정형 데이터 분석을 통한 젠트리피케이션 문제에 대한 이해:

심화(Topic Modeling) 차시 4

교육목표

•텍스트분석에 대한 기본적인 이해

•토픽 모델링에 대한 기본적인 이해

•토픽 모델링을 통한 젠트리피케이션 언론보도 내용의 이해

수업설계

단계 수업내용 수업방식

도입

□심화적인 비정형 데이터 분석기법에 대한 소개

(강사용 보충자료 5 참고)

•텍스트분석 및 토픽 모델링

강의

전개

□젠트리피케이션 사례 분석에의 적용

(강사용 보충자료 5 참고)

•텍스트분석 및 토픽 모델링을 통한 분석결과의 소개

•분석결과의 활용방안에 대한 소개

강의

정리

□분석결과의 활용

• 제시된 분석결과를 토대로 한 정책문제 정의 내용의 발표 및

토론

발표 및 토론

<과제및토론주제예시>

• 텍스트분석 또는 토픽 모델링이 이 실제 정책결정에 활용된 다른 사례로는 어떤 것들이 있는

가?

• 텍스트분석 또는 토픽 모델링 이외에 정책과정과 연계되어 활용될 수 있는 빅데이터 분석방법

론은 어떠한 것들이 있는가?

• 비정형 데이터 분석을 학습하기 이전과 이후의 젠트리피케이션에 대한 문제정의에 있어 차이

가 존재하는가? 어떤 차이가 존재하는가?

Page 98: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

097

정책교육

2.강사용보충자료

1)데이터윤리문제의중요성

토론주제:개인의 프라이버시 침해 등 데이터 윤리 문제들을 어떻게 다루고 해소하면 좋을지

토론해보자.

(1) 교육목표

데이터 활용과 관련하여 존재하는 윤리문제들을 학생들이 충분히 인지하고

그에 대한 대처방안을 생각해 볼 수 있도록 한다. 이는 투명성 등의 공직가

치의 문제와도 관련이 있는 중요한 문제라고 할 수 있다.

(2) 활용방안

데이터 윤리 문제와 관련한 기본적인 쟁점들을 소개하고, 학생들이 국내 및

해외사례의 조사 등을 통해 문제해소방안을 모색해 볼 수 있도록 한다.

(3) 강의방식

강의를 통해 데이터 윤리 문제의 중요성을 강조하되, 구체적인 현실 적용사

례 등은 학생들의 조사와 발표, 토론을 통해 공유한다. 또한 토론을 통해 데

이터 윤리 문제들을 다루고 해소하는 바람직한 방안에 대해 논의한다.

(4) 강의내용

데이터 활용의 유용성에도 불구하고, 개인의 사생활 침해 등과 같은 윤리 문

제가 쟁점이 될 수 있으며, 따라서 윤리적 논쟁의 가능성을 검토할 필요가

있다(송선영·김항인, 2016).

Page 99: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

098

발생가능한데이터윤리문제

▒논점1:개인의사생활(privacy)침해

“스마트폰 위치정보 제공에 동의하면, 내비게이션과 같이 지도를 활용한 서비스를 편리하게

활용할 수 있다. …(중략)… 빅데이터가 산출하는 일반화된 추론이 여전히 프라이버시와 충

돌할 수 있다. 첫째, 정보를 제공한 개인이 빅데이터가 산출한 추론의 범위에까지 자신의 정

보 제공을 동의하지 않을 수 있다. …(중략)… 결과적으로 산출된 빅데이터는 유용하더라도,

프라이버시 침해는 피할 수 없다.”(송선영·김항인, 2016:240)

▒논점2:빅데이터분석과정의불투명성

“빅데이터에 의한 혁신 과정은 결코 투명하지 않다. 빅데이터는 모든 형태의 공개된 개인

정보들을 광범위하게 수집한 결과이지만, 역설적으로 빅데이터를 산출해 내는 일련의 과정

은 기술적으로 어떻게 진행되고 제도적으로 어떻게 통제되는지 우리에게 전혀 드러나지 않

고 은폐돼 있다. …(중략)… 투명성이 현실화되려면, 데이터 수집과 사용이 데이터 공급 사

슬 매 단계마다 눈에 보이고 설명되어져야 …(중략)… 빅데이터 분석은 향후 개인의 결정에

점점 더 많이 적용될 텐데, 그럴 경우 어떤 근거로 그러한 결정이 이루어졌는지에 대해 빅데

이터를 향해 알권리를 발동할 수 있다. 문제는 그렇게 요구한다 하더라도 그 과정을 우리는

결코 알 수 없다는 것이다.”(이중원, 2017:188)

2)데이터기반정책의해외사례

숙제:데이터 기반 정책기획을 하고 있는 다른 해외사례를 소개하고, 해당 사례를 참고하여 한국

의 유사한 정책문제를 다룸에 있어 필요한 데이터의 수집 및 분석방법을 제시하라.

(1) 교육목표

정책문제에 대한 데이터 기반 접근이 해외에서는 어떻게 이루어지고 있는지

소개함으로써 향후 한국의 정책문제를 다룸에 있어 시사점을 얻을 수 있도록

한다. 특히 이하에서는 미국의 젠트리피케이션 예측 모형 사례를 소개하여

젠트리피케이션 현상에 대한 한국의 데이터 기반 접근과 비교해 볼 수 있다.

Page 100: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

099

정책교육

(2) 활용방안

수업시간에 해외사례를 소개하고, 데이터 기반의 정책기획을 하고 있는 다

른 해외사례에 대한 조사 또는 한국에서 유사한 분석을 수행하려면 필요한

데이터를 어디서 얻을 수 있는지 등을 숙제로 조사해오도록 할 수 있다.

(3) 강의방식

해외사례의 소개를 강의식으로 진행하고, 이후 과제의 결과물을 발표하도록

하여 그에 대해 학생들이 의견을 교류할 수 있도록 한다.

(4) 강의내용

해외에서빅데이터를이용한젠트리피케이션예측모형

어떤 지역에 변화가 일어나고 있는 것을 미리 예측하는 것은 쉽지 않다. 젠트리피케이션 현

상도 실제로는 2015년 이전에 이미 발생하고 있었지만 정책의제로는 2015년에 들어서 서

울지역에서 등장을 한 것이다. 해외의 경우에도 젠트리피케이션을 예측모형에 대한 연구의

관심이 늘어나고 있다. 이 예측모형의 특징은 다양한 공공 및 민간 데이터셋을 이용하여 젠

트리피케이션과 커뮤니티의 변화를 예측한다는데 있다. 최근 Glaeser et al.(2018)의 연구는

Yelp라는 비즈니스 활동 데이터베이스, 미국 커뮤니티 서베이(American Community Survey)

와 같은 자료를 이용하여 스타벅스가 늘어나기 시작하면 집값이 상승하고 젠트리피케이션

이 발생한다는 연구결과를 제시하고 있다. 또한 지역에 식료품 가게, 세탁소, 바, 카페 등이

증가하면 대학 학력을 가진 사람들도 증가한다는 것을 보여주기도 하였다.

한편 이러한 젠트리피케이션을 분석하는 자료와 프로그램은 Github와 같은 공유프로그램

플랫폼을 통해 제공되기도 한다(https://github.com/psuong/big-data-gentrification-trends).

이것은 정책과정에 활용될 수 있는 빅데이터 분석 결과는 다양한 데이터베이스의 결합을

통해 강력해 질 수 있으며, 분석 자료와 방법을 공유하면서 더 많은 연구자와 정책결정자에

게 활용될 수 있음을 시사한다.

자료: Glaeser et al., 2018.

Page 101: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

100

3)젠트리피케이션과연관된정책문제

숙제:3~4개의 부처를 정하여 해당 부처에서 젠트리피케이션 문제를 어떻게 접근할 수 있을지,

쟁점이 되는 것은 무엇인지 논하라.

(1) 교육목표

복잡한 정책문제에 대해서는 다양한 정책분야의 관점에서 접근할 수 있다.

젠트리피케이션 문제에 대해서도 단일한 차원이 아닌 다양한 차원에서 접근

할 수 있으며, 각 정책분야에서 젠트리피케이션 문제를 어떻게 접근할 수 있

는지, 주된 쟁점이 되는 것이 무엇인지를 학생들이 이해할 필요가 있다.

(2) 활용방안

학생들이 여러 부처의 관점에서 젠트리피케이션 문제를 접근해 볼 수 있도

록 위와 같은 숙제를 제시하고, 그 결과를 수업시간에 상호 공유하는 과정에

서 부처 간 조정이나 협의가 필요한 부분은 없는지 토론한다.

(3) 강의방식

이하에서 제시하는 젠트리피케이션과 관련된 여러 정책분야의 관점 또는 쟁

점을 학생들에게 소개하고 학생들의 조사결과와 비교 또는 종합·정리한다.

(4) 강의내용

정책문제의 복잡성이 증가하면서 정책 요소 간 또는 정책 영역 간 융합 등

종합적인 고려의 필요성이 증대되고 있다(성지은·송위진, 2008). 젠트리피케

이션 문제 역시 단순히 임대료 상승 등과 같은 부동산 문제와만 관련된 정책

문제는 아니며, 여러 정책분야와 연관되어 있다. 실제로 학술지논문 및 학위

Page 102: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

101

정책교육

논문을 분석한 결과, 젠트리피케이션이 지리학, 도시공학, 문화학, 경제학,

행정학, 예술학, 지역학, 환경학 등 다양한 정책분야에서 연구되어 왔음(이재

민·김진희, 2016)은 젠트리피케이션 사례의 복잡성 및 다양한 정책분야의 연

계성을 시사한다. 이하에서는 젠트리피케이션과 연관된 다양한 정책문제들

을 제시한다.

젠트리피케이션의다양한측면

박태원·김연진·이선영·김준형(2016)은 젠트리피케이션을 크게 주거 젠트리피케이션,

문화·예술 젠트리피케이션, 상업 젠트리피케이션으로 구분하고 각각의 사례를 제시하고

있다.

• 주거 젠트리피케이션 사례: 기존 불량주거 밀집지역에 민간건설사의 사업성 확보를 위해

높은 용적률을 제공하는 등의 공공 지원이 이루어진 합동재개발사업(박태원·김연진·이

선영·김준형, 2016)

• 문화·예술 젠트리피케이션 사례: 인사동과 대학로에서의 개발압력 가중 및 임대료 상승

과 이에 따른 문화예술업종과 예술가의 이탈(박태원·김연진·이선영·김준형, 2016)

• 상업 젠트리피케이션 사례: 상대적으로 저렴한 임대료로 인해 젊은 계층들에 의한 상권

이 형성되면서 이국적인 분위기와 다양성을 갖는 명소로 자리 잡게 되었으나, 상가 임대

료의 급격한 상승으로 대기업 프랜차이즈의 입지가 증가하고 고유의 개성 있는 상점이

위축되는 현상이 심화(박태원·김연진·이선영·김준형, 2016)

자료: 박태원·김연진·이선영·김준형, 2016; 한국의 젠트리피케이션, 도시정보:413, 3-14

젠트리피케이션에따른문화갈등과주민의범죄두려움

젠트리피케이션은 단순히 임대료 상승의 문제만을 초래하는 것은 아니다. 관광객이나 상

업지역의 손님이 증가함에 따라 유동인구가 증가하면 지역경제가 발전할 수 있다. 그러

나 이 과정에서 범죄 두려움이 다음과 같은 과정을 통해 증가할 수 있다(한종희·임용진

2018:110).

“첫째, 유동 인구 증가 과정에 있어 외부 자원의 침입으로 인한 지역 갈등은 기존 지역주민

들 간의 논쟁과 지역 통제를 약화시킨다. 이는 지역구성원들 간의 논쟁과 더불어 공동체 지

역의 산만한 분위기를 연출시킨다. 둘째, 외부 유동 인구는 이들이 기존 지역거주민의 주거

지역으로 이동을 초래하여 문제를 야기할 수 있다. 셋째, 가게 건물의 2~3층을 주거 공간

으로 활용하는 건물들이 많은 점을 고려할 때, 지역구성원들의 경제, 체감 안전 문제를 초래

한다.”(저자 일부 내용 수정)

Page 103: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

102

아래는 젠트리피케이션이 일어나는 지역 주민의 인터뷰 결과이다.

“우리 가게만 생각하면 힘들어도 경제적으로는 좋지. 그런데 사람들이 몰렸다가 빠지고 나

면 쓰레기며, 가게 물건이며 아무튼 뭔가 정신없어. 젠트리피케이션? 그거는 양면이 다 있

는 것 같아. 개인적으로는 사람들이 질서나 공중의식을 지켜줬으면 좋겠다 라는 게 커.”<주

민8>(한종희·임용진 2018:116)

자료: 한종희·임용진, 2018

젠트리피케이션과예술가들의투쟁

젠트리피케이션 현상과 관련해서는 주로 임대인과 임차인의 관계를 중심으로 누가 특정 공

간을 점유하고, 누가 떠나게 되는지를 논의해왔다(김소연, 2017:122). 그러나 젠트리피케이

션은 예술가의 문화자본이 개발업자의 경제자본으로 전환되는 것이라는 측면도 존재하며,

그럼에도 예술가들의 저항과 갈등, 인식에 대한 관심과 분석은 부족한 상황이다.

“홍대 두리반 투쟁은 재개발로 인한 젠트리피케이션 과정에서의 갈등을 사회적 이슈로 부

각시키는데 결정적인 사례가 되었으며, 흔히 홍대라고 언급되는 서울홍익대학교 일대 지역

에서 문화 활동과 예술 네트워크를 지속적으로 축적해온 예술가들이 상인들과 연대하여 장

기간의 투쟁을 주도했다는 특이성을 갖는다. 다양한 장르의 예술가들 중에서도 특히 인디

음악가들은 두리반 투쟁의 초기 시점부터, 재개발 수행자인 건설사와 임차인 간의 협의가

완료되기까지의 전 과정에 투쟁을 조직적으로 주도한 핵심 집단이었다. …(중략)… 인디 음

악가들은 조직으로 집단화되어, 인디 음악가 자신들의 권리를 보호하기 위한 자립음악생산

조합이라는 별도의 조직을 만들기에 이르렀다.”(김소연, 2017:129-130)

“홍대 공간은 많은 예술가들에 의해 문화적 가치를 축적하고 공간적 가치를 획득해왔음에

도 불구하고, 급속한 젠트리피케이션이 결과적으로 예술가들에게는 불안감을 유발한 것이

다.”(김소연, 2017:137)

인디 음악가들은 젠트리피케이션 현상에 대해 초기에는 예술 활동 또는 예술 노동 기회의

상실로 인식하였고, 이후 예술 활동의 새로운 기회를 제공해준다고 인식하기도 하였으나 예

술 노동의 불안정성은 여전히 해소되지 않고 있다(김소연, 2017). 주거 및 상업 공간 자본을

중심으로 한 기존의 젠트리피케이션 공론장에 도시 공간의 창조성과 다양성을 형성하는 대

표적인 창조계급의 핵심인 예술가의 인적 자본의 관점에서의 논의 확충이 필요하다(김소연,

2017).

자료: 김소연, 2017

Page 104: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

103

정책교육

젠트리피케이션과법적문제

젠트리피케이션으로 인한 폐해를 방지하기 위해 통제장치로써 법적·제도적 장치를 마련할

필요가 있다(하창효, 2017).

• 관련 법률: 도시재생 활성화 및 지원에 관한 특별법, 국토의 계획 및 이용에 관한 법률 등

• 법적 측면에서의 개선 제언: 도시재생지역의 원거주자들이 도시재생사업에 관한 이해관

계자로서 적극적으로 참여할 수 있도록 이들에 대한 통지의무 및 의견진술의 기회를 보

장하는 방향으로 「도시재생 활성화 및 지원에 관한 특별법」을 개정할 필요

자료: 하창효, 2017

이상의 논의들은 젠트리피케이션이 단순히 경제적 문제뿐만 아니라 지

역 공동체의 약화, 문화적 갈등, 범죄 두려움, 문화·예술측면에의 영향, 법

적 문제 등 다양한 문제와 연계되어 있음을 시사한다. 젠트리피케이션을 모

니터링하는 공공데이터 분석도 이러한 점을 반영하여 적절한 정책결정에 필

요한 분석을 추가로 수행할 필요가 있다. 또한 정책문제의 연관성을 고려한

다면 젠트리피케이션 문제를 여러 부서가 함께 고민하면서 정책을 수립하는

것이 매우 중요하다.

4)비정형데이터분석을통한젠트리피케이션문제에대한이해:기초

숙제:한국에서 젠트리피케이션 문제가 어떻게 역사적으로 다르게 이해되어 왔는지를 인터넷 검

색을 정리하고 이를 발표하도록 준비하라.

(1) 교육목표

복잡한 정책문제는 때로는 상징적인 단어로 축약되어 이해되기도 한다. 젠

트리피케이션이라는 단어도 항상 동일한 의미로 사용된 것이 아니라 시대에

따라 변화해왔다. 젠트리피케이션 문제가 어떻게 역사적으로 다르게 이해되

Page 105: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

104

어 왔는지를 살펴봄으로써 동일한 현상에 대한 관점이 어떻게 변화했는지를

학생들이 이해할 필요가 있다.

(2) 활용방안

숙제는 학생들이 강의 이전에 학생들에게 숙제로 제시할 수도 있고, 수업 시

작 직후 도입 단계에서 5분 정도의 시간을 주고, 핸드폰이나 인터넷을 이용

하여 학생들이 직접 찾아볼 수 있도록 한다.

(3) 강의방식

인터넷을 통해 젠트리피케이션을 찾은 학생들은 일부 뉴스나 보고서들을 검

색한 후 자신들의 의견을 정리할 것으로 기대된다. 하지만 뉴스들을 체계적

으로 분석하는 방법을 알지 못하는 학생들은 일부 내용들을 단순히 요약 정

리하는데 머무를 가능성이 크다. 따라서 제시된 질문에 대한 학생들의 의견

을 청취한 후에 이하에서 제시하는 것과 같은 보다 체계적인 분석 수행 방법

을 소개한다.

(4) 강의내용: 빅카인즈를 활용한 뉴스 빅데이터 분석

한국에서 젠트리피케이션 문제가 어떻게 역사적으로 다르게 이해되어 왔는지를 빅카인즈

(https://www.kinds.or.kr)의 뉴스 빅데이터 분석을 통해 살펴보아라.

빅카인즈 웹사이트에 접속하고 회원으로 가입하면 뉴스심층분석을 할 수 있

다. 검색어 입력창에 젠트리피케이션을 입력하면 검색결과를 얻을 수 있으

며 [그림22]와 같이 관계도분석, 시각화분석, 정보추출 등의 메뉴를 얻을 수

있다.

Page 106: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

105

정책교육

[그림22] 빅카인즈 화면 구성

관계도분석 메뉴를 선택하면 [그림23]과 같이 젠트리피케이션과 관련된

키워드, 인문, 기관, 장소와 관련된 단어 네트워크 결과를 얻을 수 있다. 여

기서 위에 있는 키워드, 인물, 기관, 장소 등의 아이콘을 클릭하면 해당 단어

들을 선택하거나 선택을 해제할 수 있다. 이를 활용해보면 젠트리피케이션

과 관련된 주요 단어들을 쉽게 확인할 수 있다.

Page 107: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

106

[그림23] 젠트리피케이션과 관련된 뉴스, 인물, 장소, 기관, 키워드 네트워크

한편 텍스트 네트워크 형태로 분석을 하지 않고 중요 단어의 상대적 중요

도를 간결하게 나타내는 방법으로 단어 구름(word cloud)을 살펴볼 수도 있

다. 해당 웹페이지의 왼쪽에 키워드, 인문, 기관, 장소를 각 선택하면 주요

단어들은 [그림24]와 같이 나타남을 알 수 있다.

주요 키워드를 살펴보면 상가건물임대차보호법, 지방자치, 구청장, 공인

중개사 등의 단어가 나타났으며, 인물로는 유동균 마포구청장, 이낙연 국무

총리, 정송호 국회의원 등이 나타났다. 이 인물을 클릭하면 이들에 대한 간

단한 프로필 정보도 얻을 수 있다. 기관을 보면 서울시, 국토교통부, 전주시

청 등이 나타나고 장소를 보면 서울, 경기도, 마포구, 상수동, 연남동, 성동

구 등의 지역이 나타남을 알 수 있다.

Page 108: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

107

정책교육

[그림24] 젠트리피케이션과 관련된 주요 키워드, 인물, 기관, 장소

이처럼 간단한 관계도 분석을 마친 후 시각화분석을 수행하기 위해 시각

화분석의 연관어 분석을 수행해보면 좀 더 명확하게 연관어들을 [그림25]와

같이 얻을 수 있다. 이 연관어 분석 결과를 살펴보면 젠트리피케이션의 핵심

문제인 임대료, 임차인, 원주민, 도시재생, 상생협력 등의 단어가 명확하게

나타나고 있음을 알 수 있다.

Page 109: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

108

[그림25] 젠트리피케이션 연관어 분석 결과

5)비정형데이터분석통한젠트리피케이션문제에대한이해:심화(TopicModeling)

숙제1:앞서살펴본빅카인즈를이용한분석방법이외의보다심화적인분석방법에는어떠한것

이있을까.

숙제2:토픽모델링을통한분석결과와정책과정을어떻게연계시킬수있을것인가.

(1) 교육목표

복잡한 정책문제에 대한 이해는 다차원적인 방법을 통해 이루어질 필요가

있다. 젠트리피케이션 문제를 이해함에 있어서도 앞서 살펴본 언론기사 분

석 등의 기초적인 이해에서 한 걸음 더 나아가, 토픽 모델링 등 빅데이터 분

석방법론을 통해 분석할 수 있음을 학생들이 학습할 필요가 있다.

(2) 활용방안

토픽 모델링이 보다 심화된 분석방법론임을 고려할 때, 대부분의 학생들이

어려움을 겪을 것으로 예상된다. 그러므로 해당 방법론을 사용하는 방법을

교육하는 것이 아닌, 해당 방법론이 존재하며 분석결과와 정책과정을 어떻

Page 110: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

109

정책교육

게 연계시킬 수 있을지를 중심으로 교육한다.

(3) 강의방식

본 단계의 강의에서는 학생의 주도적인 참여보다는 강사의 정보 및 지식전

달 위주의 강의가 적합할 것으로 생각된다. 먼저 정보 및 지식을 충분히 전

달한 후에, 학생들이 이를 정책과정과 연계해보고 그 결과를 발표하도록 하

는 방식이 적합할 수 있다.

(4) 강의내용

(가) 비정형 데이터 분석의 배경

언론기사, 연구논문 및 보고서와 같은 텍스트 자료는 비정형 데이터

(Unstructured Data)를 대상으로 정량적 연구를 수행하려는 노력은 오래전부

터 지속되었다. 텍스트 데이터를 대상으로 한 정량적 분석 방법의 대표적인

예는 내용분석(Contextual Analysis)이다. 이는 특정 영역에 전문성을 지닌 1인

또는 다수의 코더(Coder)들이 일정한 기준에 따라 텍스트를 읽고 유형별로 분

류 작업을 수행하는 방법이다. 이러한 내용분석의 결과로, 다량의 텍스트 자

료에서 ①어떠한 주제가 나타나는지, ②각 주제별 빈도는 어떠한지, ③특정

시점별로 어떠한 주제가 주로 부각되는지를 정량적으로 파악할 수 있다.

그러나 이러한 전통적인 방법은 다음과 같은 문제점을 지닌다. 첫째, 텍

스트의 유형 분류가 코더의 상이한 배경 지식과 주관적 관점에 크게 좌우되

어 높은 수준의 신뢰성을 지닌다. 텍스트를 읽고 분류를 진행하는 코더들이

지닌 상이한 지식의 수준과 관점에 따라 동일 텍스트에 대한 해석이 달라질

수 있다. 따라서 동일한 텍스트가 코더에 따라 유형 분류가 달라질 수 있고,

이는 내용분석에 기반을 둔 텍스트의 분류가 높은 신뢰성을 가지기 어려울

Page 111: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

110

수도 있음을 시사한다. 둘째, 사전적으로 설정한 텍스트의 유형 분류가 부적

절한 경우가 빈번히 발생한다는 점이다. 대부분의 경우 내용분석에 들어가

기 전에 사전적으로 분류할 문서의 유형을 몇 가지로 정의하고 시작한다. 그

러나 분석 대상 텍스트의 양이 증가할수록 사전에 예측하지 못한 텍스트의

유형이 나타나는 등 기존의 분류 유형이 적절하지 않은 경우가 빈번하게 발

생한다. 대개 이러한 경우에는 사전적으로 정의한 분류 유형의 수정이 이루

어지는데, 이 경우 앞서 분류한 문서의 유형을 다시 재검토할 필요성이 생기

는 경우가 빈번하다. 셋째, 다수의 코더가 동일한 문서를 읽고 분류에 대한

의견이 다를 경우 이를 합의할 명시적이고 체계적인 방법이 존재하지 않는

다. 토론과 협의에 따른 다수 의견을 따르는 것이 일반적이나 특정 텍스트에

대한 지식이 코더들 모두가 부족할 경우, 이러한 방법이 부적절한 경우도 빈

번하게 존재한다.

(나) 정보기술의 발전과 텍스트 분석

이러한 기존의 텍스트 데이터를 대상으로 한 정량적 연구 방법의 한계를 개

선하기 위해 다양한 시도들이 지속되었다. 이러한 시도에 있어 가장 중요한

쟁점은 ‘다량의 텍스트 문서를 어떻게 컴퓨터와 같은 전산기기가 이해하기

쉬운 형태로 나타낼 것인가’였다. 그 대표적인 대안이 다량의 텍스트를 행

과 열로 표현하는 방법으로 제시된 것이 Term-Document Matrix(TDM)와

Document-Term Matrix(DTM)이다.

Tdm은 다량의 텍스트를 행렬로 표시하는 규칙이다. N개의 문서

(Document)가 존재하고, 이들에서 총 M가지의 단어(Term)가 존재한다고 가

정하자. 이때 행렬의 각 행에 등장하는 M가지의 단어를 제시하고 각 열에는

등장하는 N개의 문서를 대응시키며, 행렬의 각 원소는 특정 문서에서 나타

Page 112: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

111

정책교육

나는 특정 단어의 빈도를 표시하는 규칙을 생각할 수 있다. 이러한 규칙으로

다량의 문서를 컴퓨터가 이해할 수 있도록 행렬로 구성한 결과가 TDM 또는

DTM(TDM의 전치행렬)이라고 할 수 있다.

한국어에서TDM의예시

다음과 같은 내용을 담은 두 개의 문서가 있다고 가정하자.

문서1) 나는 집에 간다.

문서2) 집에 냉장고가 있다.

한국어와 같은 교착어(Agglutinative Language)는 조사 등의 접두사/접미사가 빈번하게 사용

되나 이들은 독립적인 형태소로서의 의미를 잘 가지지 않는다. 따라서 일반적으로 조사 등

은 한국어 TDM의 구성에서 잘 사용되지 않는다. 따라서 한국어로 TDM을 만들 때에는 이와

같은 조사를 제외한 체언/용언 등의 형태소만 남긴 후 TDM을 만드는 것이 일반적이다.

문서1) 나는 집에 간다, 나의 집은 멀다 → (형태소 분석 결과 재구성) → 나, 집, 가다, 나, 집,

멀다

문서2) 집에 냉장고가 있다 → (행태소 분석 결과 재구성) → 집, 냉장고, 있다

이러한 형태소 분석 결과에 따라 TDM을 만든 결과는 다음과 같다.

문서1 문서2

가다 1 0

나 2 0

냉장고 0 1

멀다 1 0

있다 0 1

집 2 1

TDM 또는 DTM의 원소는 특정 단어가 특정 문서에서 사용되었는지 여부와 사용 빈도를 제

시한다. 일반적으로 하나의 문서에서 자주 사용된 단어는 그렇지 않은 단어보다 더 중요하

다고 인식되며, 하나의 문서에서 두 개의 단어가 동시에 나타나는 빈도가 높다면, 두 단어는

연관성이 높다고 인식된다. 이처럼 특정 문서에서 나타나는 단어의 빈도는 해당 단어의 중

요성을 나타내는 기본적인 척도이나 이 방법이 항상 최선이라고 볼 수는 없다. 특정 문서의

길이가 다른 문서의 길이보다 매우 길다면, 이때의 빈도는 중요성보다는 단순히 특정 문서

의 길이가 다른 문서보다 길다는 것을 의미할 수도 있다. 그렇기 때문에 경우에 따라서는 ①

이를 표준화하거나, ②빈도에 제곱근을 취하거나, ③사용 여부를 0 또는 1로 한정하여 나타

내기도 한다.

Page 113: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

112

TDM 또는 DTM은 행렬의 형태로 다량의 문서를 나타내고 이해하는 방

법이다. TDM 또는 DTM으로 다량의 문서를 나타낼 때, 다음과 같은 사항을

알아둘 필요가 있다. 첫째, TDM은 다량의 문서를 단어와 단어, 단어와 문

서, 문서와 문서 간의 공기(Co-Occurrence)와 빈도(Frequency)로 이해하는 방

법이다. 여기서 ‘공기’는 두 개 이상의 단어가 하나의 문서에 동시에 나타나

거나, 하나의 단어가 여러 개의 문서에 동시에 나타남을 의미한다. 또한 ‘빈

도’는 특정 문서 또는 문서 전체에 특정 단어가 얼마나 자주 나타남을 의미한

다. 다시 말해 TDM 또는 DTM은 공기와 빈도를 사용하여 ①특정 문서에서

특정 단어가 얼마나 많이 쓰이거나 덜 쓰였는지, ②동일 문서에서 특정 단어

가 어떠한 단어와 같이 쓰이는지, ③특정 단어가 얼마나 많은 문서에서 나타

는지를 통해 다량의 텍스트 자료를 컴퓨터가 이해하는 방법이라 할 수 있다.

둘째, 이렇듯 단어와 단어, 단어와 문서, 문서와 문서 간의 공기와 빈도로 나

타냄은 필연적으로 문서에 나타나는 단어 또는 문장의 어순을 무시함을 전

제하고 있다. 이는 문법적 어순을 무시하고 출현하는 단어의 종류와 빈도만

으로도 일정 수준 이상의 의미 전달이 가능함을 의미한다. 이러한 가정을 단

어 자루 모형(Bag Of Word Assumption Model)이라고 한다.

다량의 텍스트 자료를 이렇듯 행렬로 나타내면 이제 선형대수에 근거한

다양한 통계분석 기법을 적용할 수 있다. 다만 TDM 또는 DTM 행렬 형태의

특성상 문서 수(Number Of Documents)에 비해 단어 수(Number Of Different

Terms)가 매우 많을 뿐만 아니라 0이 매우 자주 나타나게 된다. 이러한 행

렬의 특성을 반영한 다양한 접근법이 제시되어 왔으며, 이는 수리통계학의

발전 및 컴퓨터의 연산 능력의 발전과 함께 가속화되어 왔다. 과거에는 기

존의 정형 데이터(Structured Data)를 분석하는 전통적인 방법론을 그대로

적용하는 방식이 주를 이루었으나 최근에는 컴퓨터의 연산 능력을 활용하

Page 114: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

113

정책교육

는 방법이 보다 널리 사용되고 있다. 그 대표적인 방법이 토픽 모델링(Topic

Modeling)이다.

(다) 토픽 모델링(Topic Modeling)의 소개

토픽 모델링은 앞서 제시한 DTM을 이용하여 다량의 문서에서 사용된 주요

단어, 즉 주제어들의 빈도 및 공기 패턴을 바탕으로 문서 자료에 나타나는

다수의 주제를 자동으로 추출하여 분석하는 기법이다. 토픽 모델링을 수행

하는 방법은 여러 가지가 존재하나 일반적으로는 Blei et al.(2003)이 제시한

잠재 디리클레 할당(LDA, Latent Dirichlet Allocation)이 주로 사용된다. LDA

의 주요 가정은 다음과 같다.

① 문서들은 관측되지 않는 다수의 주제로 구성되어 있으며, 하나의 문서에서 다수의 주제가 확률적으로 나타날 수 있다. 하나의 문서에 확률적으로 나타나는 다수의 주제는 구성비율

로 나타낼 수 있으며 이 비율은 디리클레 분포를 따른다.3)

② 각 주제는 다양한 단어로 표현되며, 특정 단어가 특정 주제에 따를 확률은 다항분포에 따

른다.

①번 가정은 주어진 다량의 문서에 사전적으로 정해진 수의 주제가 존재

하며, 하나의 문서에서는 다수의 주제가 존재하고, 그것을 구성비율로 나타

낼 수 있다는 의미이다. 조금 쉬운 예를 들어보자. ‘대통령’이라는 단어가 등

장하는 3만 개의 언론보도 기사가 주어졌다고 할 때, 이러한 3만 개의 문서

집단에는 정치면, 경제면, 사회면은 물론 대통령이 등장하는 TV프로그램,

심지어는 스포츠 기사까지 나타날 수 있을 것이다. 이렇듯 3만 개의 문서에

3) 디리클레 분포는 k개의 사건이 발생할 확률의 합이 1인 경우에 정의된다.

Page 115: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

114

나타나는 다양한 주제의 수가 LDA모형에서는 사전적으로 정의된다. ‘문서

들은 관측되지 않는 다수의 주제로 구성되어 있다’의 의미가 바로 이런 점을

가리킨다.

다음으로 ‘하나의 문서에서 다수의 주제가 확률적으로 나타날 수 있다’는

점을 고찰해 보자. 3만 개의 기사 중 대통령이 프로야구 한국시리즈에서 시

구를 했음을 알리는 기사는 물론, 프로야구에 대한 내용이 주를 이루고 있을

것이기 때문에 ‘스포츠’ 주제에 관련되어 있다고 볼 수 있지만 엄연히 대통령

의 동정을 알리고 있는 기사이기 때문에 ‘정치’ 주제와도 연관이 있다고 볼

수 있다. 그러나 이 기사는 ‘경제’ 주제 또는 ‘사회’ 주제와는 별다른 관련이

없다고 할 것이다. 여기서 알 수 있는 점은 하나의 언론 기사에 다양한 주제

가 나타날 수 있고, 이것이 상대적 비율로 표시될 수 있다는 점이다. 이러한

상대적 비율이 디리클레 분포를 따르기 때문에 그 합은 항상 1이 된다. 앞의

예를 다시 한 번 들어보면 정치, 경제, 사회, 스포츠의 네 가지 주제가 사전

적으로 주어져있다고 할 때, ‘대통령의 프로야구 한국시리즈 시구’ 기사는 정

치 기사의 성격은 낮고 스포츠 기사의 성격은 높으며, 경제 또는 사회 기사

의 성격은 거의 없을 것이다.4)

②번 가정은 다량의 문서에 사전적으로 주어지는 ‘주제’가 결국에는 자주

(높은 빈도), 동시에 나타나는(높은 공기) 단어들의 결합으로 정의된다는 의미

이다. 한 예로 대통령, 국회의원, 정당 등의 단어가 빈번하게 나오는 문서의

주제는 ‘정치’가 될 확률이 높고 GDP, 기업, 임금, 경기 등의 단어가 빈번하

게 나오는 문서의 주제는 ‘경제’가 될 확률이 높을 것이다.

4) 이 기사가 속한 주제의 성격을 확률적으로 나타낸 예시는 p(정치, 경제, 사회, 스포츠) =

p(0.1, 0, 0, 0.9) 정도가 될 것이다. 다시 말해 정치 기사의 성격이 약간 있으며, 경제/사회 성

격은 없고, 스포츠 기사의 성격이 매우 높을 것이다. 네 가지 주제 비중의 합이 1이 되는 것은 디

리클레 분포를 따르기 때문이다.

Page 116: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

115

정책교육

LDA는 이와 같은 가정에 기반을 두고 주어진 다량의 문서가 나타날 확률

을 극대화하는 주제와 주제를 이루는 단어의 결합을 찾는 방법이라고 할 수

있다. 이러한 LDA 기반의 토픽 모델링은 다음과 같은 결과를 도출한다. 첫

째, 주제별로 속한 단어를 통해, 해당 주제가 무엇을 나타내는지를 보여준

다. 둘째, 파악된 주제의 의미를 통해, 주어진 다량의 문서에서 어떠한 주제

가 주로 나타나는지를 보여준다. 셋째, 주제에 속하는 단어들의 빈도를 통해

특정 주제가 다른 주제보다 얼마나 더 빈번하게 나타나는가를 보여준다. 넷

째, 특정 문서가 어떠한 주제로 분류되는지를 보여준다. 이러한 결과를 기반

으로 다음과 같은 연구문제를 LDA로 다룰 수 있다.

① 주어진 다수의 문서에서 어떠한 주제(Topic)들이 나타나는가?

이는 토픽 모델링의 결과로 주어지는 가장 기본적인 결과물이다.

② 나타나는 주제 간의 상대적 중요성은 어떠한가?

이는 각 주제별로 속한 단어들의 빈도로 나타낼 수 있다.

③ 특정 주제는 다른 주제들과 얼마나 연관성이 있는가?

상이한 주제에서 동시에 나타나는 단어들이 많고, 빈도가 높을수록 두 주제의 연관성이

높다고 할 수 있다. 토픽 모델링의 결과를 통해 이를 고찰할 수 있다.

④ 각 주제별로 어떠한 핵심어(Key Word)들이 얼마나 나타나는가?

각 주제에 속하는 단어의 종류와 빈도를 통해 알 수 있다.

⑤ 특정 문서는 어떠한 주제가 주로 나타나는 것으로 분류될 수 있는가?

특정 문서에 나타나는 단어의 종류와 빈도는 곧 주제와 연관된다.

⑥ 특정 주제가 어떠한 시점에 활발히 나타나는가?

문서가 작성된 시점을 주제와 연관시킨다면, 시점별로 어떠한 주제가 주로 다루어지는지

를 파악할 수 있다.

(라) 토픽 모델링을 통한 젠트리피케이션 언론 보도 고찰 연구문제

본 연구에서는 최근 15년간의 10대 일간지 및 3대 경제지 언론보도를 대상

Page 117: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

116

으로 ‘젠트리피케이션’ 단어가 등장하는 기사에 관해 토픽 모델링을 수행하

고자 한다. 토픽 모델링을 통해 연구하고자 하는 문제는 다음과 같다.

① ‘젠트리피케이션’과 관련된 언론보도의 전체·매체별 빈도는 어떻게 나타나는가?

② ‘젠트리피케이션’과 관련하여 언론보도에서 어떠한 주제(topic)가 나타나고 있는가?

③ ‘젠트리피케이션’과 2000년대 이후 시점별로 어떠한 주제가 많이 다루어졌는가?

④ 언론사별로 ‘젠트리피케이션’과 관련된 주제를 다루는 데 차이가 나타나는가?

● 분석대상의 기술통계

이에 본 연구에서는 검색엔진 ‘네이버’ 또는 신문사별 홈페이지5)에서 2000

년 1월 1일부터 2018년 9월 19일까지 10대 일간지 및 3대 경제지에서 ‘젠트

리피케이션’이라는 단어가 나타난 모든 기사를, R을 이용한 웹 크롤링(Web

Crawling)6) 방법으로 수집하였다. 수집 결과 해당 기간에 ‘젠트리피케이션’을

포함한 기사는 총 1,937건이었는데, 이중에는 사진 기사를 비롯하여 젠트리

피케이션에 관한 정보값이 거의 없는 기사가 존재한다. 이러한 기사를 배제

하기 위해 공백을 포함하여 500자 미만의 기사는 분석에서 제외하였다. 그

결과 토픽 모델링의 대상이 되는 기사 수는 총 1,835건이다.

다음 [그림26]은 젠트리피케이션 관련 언론보도의 빈도를 연도별로 나타

내었다. 10대 일간지 및 3대 경제지에서 ‘젠트리피케이션’이라는 용어가 처

음으로 나타난 것은 2006년(중앙일보)이었다. 주목할 점은 본격적으로 젠트

5) 대부분의 일간지 및 경제지는 네이버 뉴스 페이지에 모든 기사를 송고하지만 조선일보는 최근 6

개월 이내의 기사만 검색되고 중앙일보의 경우 1년 이내의 기사만 검색된다. 또한 한국일보의 경

우 언론사 내부 문제로 인해 2014년 이전의 기사가 검색되지 않는다. 따라서 대부분의 경우에는

네이버 뉴스 페이지에서 관련 기사를 추출하였고, 조선일보 및 중앙일보의 경우 해당 언론사 홈

페이지에서 관련 기사를 추출하였다.

6) 웹 브라우저상에 html로 제시되는 자료를 자동으로 수집하는 프로그램

Page 118: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

117

정책교육

리피케이션으로 인한 도시문제가 지적되기 시작한 2015년 이전의 언론 보

도에서는 이를 긍정적으로 묘사한 기사가 일부 제시되었다는 점이다.

“예술가들이 모이는 지역의 부동산 가격이 오른다 … 학문적인 용어로 ‘예술가 주도의 젠트리피케이션(Gentrification·고급화)’이라고 한다.”7)

또는 단순히 초고급 고가 주택이 공급되는 상황을 설명하는 용어로 사용

되기도 했다(조선일보, 2009.10.24.). 이는 젠트리피케이션으로 인한 사회 문제

가 주목받기 전에는 해당 용어에 부정적 의미가 실리지 않았음을 시사한다.

그러나 2015년 이후 도심재개발과 임대료 상승으로 인한 세입자 피해 등이

사회문제화되며 송출 빈도는 급격히 증가하기 시작한다.

600

400

200

0

2006 2010 year 2015 2018

coun

t

[그림26] 연도별 송출 기사 규모 추이

7) 예술가와 부동산 http://news.chosun.com/site/data/html_dir/2009/01/18/2009011800963.

html

Page 119: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

118

<표12>에서는 언론사별 송출기사 규모를 나타내었다. 이를 보면 한겨레

와 경향신문이 가장 많은 수의 기사를 송출하였다. 분석 대상 10개 일간지

및 3대 경제지의 송출기사 전체 1,835건 중 424건(23.1%)을 진보 성향의 신

문사가 송출하였는데, 이는 진보적 성향의 언론이 젠트리피케이션 문제에

보다 많은 관심을 기울이고 있는지 확인해 볼 필요가 있음을 시사한다. 또

한 경제지로 분류되는 매일경제와 서울경제 역시 전체 1,835건 중 378건

(20.6%)을 송출하였는데, 양적인 측면에서 진보 성향의 언론과 조금 낮은 수

준으로 산출한 경제지들이 어떠한 성향의 기사를 송출하였는지도 확인해야

할 부분이다.

<표12> 언론사별 송출기사 규모

신문사 빈도 비율 순위

한겨레 235 12.8% 1

매일경제 212 11.6% 2

경향신문 189 10.3% 3

서울신문 181 9.9% 4

서울경제 166 9.0% 5

조선일보 157 8.6% 6

한국일보 117 6.4% 7

국민일보 116 6.3% 8

중앙일보 116 6.3% 8

세계일보 108 5.9% 10

한국경제 88 4.8% 11

동아일보 81 4.4% 12

문화일보 69 3.8% 13

계 1,835 100.0% -

Page 120: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

119

정책교육

[그림27]에서는 언론사별 송출 기사 규모 추이를 나타내었다. 언론에 최

초로 ‘젠트리피케이션’이라는 단어가 나타난 것은 2006년의 중앙일보 기사

로, 세계 도시의 리모델링을 다루는 연작기사에서 뉴욕을 대상으로 할 때

나타났다. 도심 재개발에 따라 저소득층의 일자리와 주거지가 대폭 줄어드

는 문제점을 다루면서 ‘젠트리피케이션’이라는 단어를 사용하였다(중앙일보,

2006.02.17.). 이후 모든 언론사에서 2015년부터 젠트리피케이션이라는 단어

의 사용이 증가하기 시작하였는데, 한겨레와 매일경제를 제외하면 2015년

이후 동일 언론사 내에서 사용하는 빈도는 크게 차이난다고 보기 어렵다. 이

는 젠트리피케이션 문제를 2015년 이후 거의 모든 언론사에서 꾸준히 다루

고 있음을 시사한다.

coun

t

100

75

50

25

0

경향신문

100

75

50

25

0

서울경제

100

75

50

25

0

한겨례

국민일보

서울신문

한국경제

동아일보

세계일보

한국일보

매일경제

조선일보

문화일보

중앙일보

year

2006 2006 2006

2006 2006

2012 2012 2012

2012 2012

2018 2018 2018

2018 2018

[그림27] 언론사별 송출 기사 규모 추이

Page 121: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

120

<표13>에서는 분석 대상 말뭉치에서 등장하는 단어들 중 가장 빈도가 높

은 20개를 나타내었다. 이를 보면 도시 재생, 상업과 도시계획 및 정부 정책,

문화 등과 관련된 단어가 나타남을 알 수 있다. 이는 젠트리피케이션과 관련

된 공간 및 정책 문제, 그 원인이 되는 문화적 현상, 영향을 받는 마을 등의

공간과 관련된 단어가 주로 나타남을 알 수 있다. 또한 ‘젠트리피케이션’이란

검색어로 나타나는 언론기사는 10대 일간지 및 3대 경제지에서 2,000건이

채 되지 않는다. 따라서 이러한 단어가 나타나는 언론기사를 추가로 분석 대

상에 포함하여 연구를 확장하는 방법을 향후 검토해 볼 필요가 있다.

<표13> 말뭉치 등장 단어의 빈도

단어 재생 도시 사업 상권 상가 젠트리피케이션 공간 주민 서울 건물

빈도 2,921 2,866 2,355 1,625 1,608 1,409 1,312 1,304 1,297 1,229

단어 시장 문화 마을 추진 계획 상인 사람 정부 문제 현상

빈도 1,216 1,105 1,012 992 974 972 955 930 925 896

● 토픽 모델링의 수행 결과

다음은 토픽 모델링을 수행한 결과이다. 가장 비중이 높게 나타나는 토픽은

젠트리피케이션의 정의를 나타내는 토픽이라고 볼 수 있다. 2015년 이전까

지는 일반적으로 잘 알려지지 않은 용어이기 때문에, 초기 상당수의 기사에

서는 별도의 상자기사 형식으로 용어정의를 제시하는 경우가 많았다. 이를

반영하는 것으로 이해할 수 있다. 다음으로 나타나는 토픽2는 젠트리피케이

션이 나타나는 공간적 지역 또는 영향을 받는 사업에 관한 토픽이다. 이는

젠트리피케이션이 나타나는 상황을 스트레이트성 기사로 제시할 경우 나타

Page 122: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

121

정책교육

나는 내용이라고 할 수 있다. 다음으로 토픽3은 문화예술 관련 이슈로써 젠

트리피케이션 현상으로 인해 영향을 받는 문화, 예술 분야 종사자들과 관련

된 기사가 다수 나타남을 반영한다. 토픽4는 도시 재생, 뉴딜 추진, 주택 및

교통 공공 개발, 임대주택 등의 정부 정책을 나타내는 토픽이다. 사회적 문

제로 떠오른 만큼 정부의 정책적 대응에 관한 기사를 반영한다고 할 수 있

다. 토픽5는 중소기업과 청년고용 이슈로써, 젠트리피케이션 현상이 청년고

용과도 연관지어 나타남을 시사한다. 다음으로 토픽6은 상생, 협약 등 젠트

리피케이션의 부정적 현상 방지를 위한 노력에 관한 이슈를 제시한다. 토픽7

은 소규모 자영업자들에 관련된 이슈이며, 토픽8의 부동산 정책과 밀접하게

연관되어 있음을 시사한다. 토픽9는 젠트리피케이션과 관련된 핵심 분쟁과

이슈로써, 상가 임대차보호법과 소송에 관하여 별도의 이슈로 묶여서 나타

난다. 이는 젠트리피케이션의 부정적 영향으로 인해 피해 받는 소상공인들

이 상가 임대차보호법으로 충분한 보호를 받지 못하는 현재의 문제점을 지

적하는 기사들이 다수 나타남을 시사한다. 마지막으로 토픽10은 서울 북촌

과 서촌, 전주의 한옥마을 그리고 관광객과 관련된 이슈인데, 젠트리피케이

션 현상에 영향을 받는 대표적 지역으로서 자주 거론되며, 개발 제한과 보존

에 관한 쟁점이 부각됨을 알 수 있다.

<표14> 토픽 모델링 결과

토픽 키워드(토픽내빈도순) 해당키워드수

1도시, 문제, 사회, 사람, 문화, 젠트리피케이션, 시장, 필요, 시작, 시민, 공

간, 개발, 기업, 경제, 주민, 현상, 세계, 사업, 참여, 시간

→ 젠트리피케이션의 정의

43,969(25.7%)

2상권, 상가, 거리, 골목, 서울, 건물, 홍대, 인근, 부동산, 시장, 상인, 카페,

젠트리피케이션, 현상, 가로수, 점포, 시작, 음식, 망원, 일대

→ 젠트리피케이션 현상이 나타나는 지역과 대상 사업

22,522(13.1%)

Page 123: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

122

토픽 키워드(토픽내빈도순) 해당키워드수

3공간, 문화, 거리, 이곳, 사람, 음악, 예술가, 동네, 카페, 건물, 작가, 공연,

골목, 예술, 홍대, 운영, 마을, 서점, 청년, 제주

→ 문화예술 관련 이슈

20,592(12.0%)

4재생, 사업, 도시, 뉴딜, 추진, 정부, 국토, 계획, 주민, 선정, 공간, 조성, 개

발, 주택, 교통, 공공, 방식, 시설, 지자체, 임대주택

→ 도시재생과 관련된 정부정책 이슈

18,528(10.8%)

5정부, 정책, 청년, 확대, 강화, 추진, 공약, 기업, 방안, 후보, 경제, 도입, 장

관, 인상, 최저임금, 중소기업, 문제, 강조, 대기업, 국민

→ 중소기업과 청년고용 관련 이슈

15,470(9.0%)

6협약, 젠트리피케이션, 방지, 상생, 재생, 사업, 조례, 추진, 주민, 계획, 체

결, 세운상가, 서울, 성수, 제정, 상가, 현상, 조성, 상인, 구역

→ 젠트리피케이션의 부정적 현상 방지를 위한 노력에 관한 이슈

15,264(8.9%)

7공인, 상가, 소상, 상권, 상인, 시장, 안심, 매입, 창업, 임대, 장기, 협약, 자

영업자, 사업, 조성, 점포, 계획, 마련, 기간, 상생

→ 소규모 자영업자 관련 이슈

11,905(6.9%)

8부동산, 주택, 시장, 공급, 정부, 투자, 임대주택, 주요, 국토, 주거, 증가, 교

통, 분석, 서울, 현상, 평균, 정책, 규제, 기준, 상승

→ 부동산 정책에 관련된 이슈

8,400(4.9%)

9상가, 임대차보호법, 건물, 갱신, 요구, 계약, 상인, 권리, 기간, 내용, 국회,

개정, 보호, 환산, 상권, 젠트리피케이션, 서울, 소송, 청구, 전화

→ 젠트리피케이션과 관련된 소상공인의 분쟁에 관련된 이슈

7,978(4.7%)

10마을, 한옥, 주민, 관광객, 구역, 문화, 북촌, 전주, 제한, 서울, 개발, 일대,

동네, 카페, 전통, 계획, 지난해, 서울시는, 서촌, 보존

→ 한옥마을과 관련된 이슈

6,721(3.9%)

이러한 토픽 모델링 결과를 다차원 척도법(Multidimensional Scaling)으로

나타내는 방법을 고려해 볼 수 있다. [그림28]에서는 R의 LDAvis 패키지를

사용하여 다차원 척도법으로 위에서 제시한 10개의 토픽 간 관계를 좌측에,

분석대상 말뭉치 전체에 나타나는 최빈 단어 30가지를 오른쪽에 나타내었

다. 이를 보면 토픽1과 토픽6, 토픽4와 토픽5, 토픽7과 토픽8이 다른 토픽에

비해 상대적으로 연관성이 높은 것으로 볼 수 있다. 앞서 <표14>에서 제시

된 토픽 해석에 기반을 둔 토픽1과 토픽6은 ‘젠트리피케이션의 정의와 이 현

Page 124: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

123

정책교육

상이 나타나는 대상과 사업’으로 볼 수 있고, 토픽4와 토픽5는 ‘도시재생과

연관된 중소기업, 청년고용에 관한 정부정책’으로 간주할 수 있으며, 토픽7

과 토픽8은 ‘(젠트리피케이션 현상의 부정적 영향을 받는) 소규모 자영업자

와 이들과 관련된 부동산 정책’이라 할 수 있다.

또한 LDAvis 패키지를 사용한 이러한 다차원 척도법 시각화를 각 토픽에

서 나타나는 단어 빈도와 말뭉치 전체에서 나타나는 빈도를 비교하여 분석

할 수 있다([그림32]~[그림41]).

재생

도시

마을

사업

상권

상가

주민

동민

한옥

협약

문화

부동산

공간

시장

주택

상인

관광객

정부

건물

소상

젠트리피게이션

거리

임대차보호법

방지

상생

정책

추진

뉴딜

카페

골목

PC1

PC2

2%

10%

5%

0 2,000 4,000 6,000 8,000 10,000

Marginal topicdistribution

Overall term frequency

Estimated term frequency within selected topic

1. saliency(term w) = frequency(w) [sum_t p(t | w) log(p(t | w)/(p(t)|] for topic t; see Chuang et. a l(2012)

2. relevance(term w│topic t) = λ p(w | t) + (1-λ) p(w | t)/p(w); see Sievert & Shirley (2014)

3

2

9

10

1 6

4

5

78

[그림28] 다차원 척도법으로 나타낸 토픽 간의 관계

● 토픽 모델링 결과와 기존 자료의 결합 분석

토픽 모델링을 통해 얻을 수 있는 결과 중 하나는 분석 대상 문서가 어떤 토

픽에 속하는지에 관한 정보이다. 이는 각 문서에 속하는 단어가 어떠한 토

픽으로 가장 많이 분류되었는가에 근거하여 산출된다. 즉 분석 대상이 된

Page 125: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

124

1,835개의 기사가 토픽 모델링의 결과로 제시된 10개의 토픽 중 어떠한 토

픽에 속할 가능성이 가장 높은지를 알 수 있다. <표15>는 각 토픽으로 분류

된 기사의 빈도 및 비율을 나타낸다.

<표15> 각 토픽으로 분류된 기사의 빈도 및 비율

분류 토픽1 토픽2 토픽3 토픽4 토픽5 토픽6 토픽7 토픽8 토픽9 토픽10 계

빈도 497 202 240 197 115 243 137 48 84 72 1,835

비율 27.1% 11.0% 13.1% 10.7% 6.3% 13.2% 7.5% 2.6% 4.6% 3.9% 100.0%

[그림29]는 각 토픽별 2015년 이후의 기사 발생 빈도를 시각화하여 나타

내었다. 이를 보면, 단순히 젠트리피케이션 현상의 정의를 기술하거나(토픽1)

발생 대상 지역 및 사업과 같은 현상에 관한 스트레이스성 내용(토픽6)은 과

거에 매우 빈번하게 나타났으나 2016년 이후에는 급격히 감소하고 있음을

알 수 있다. 상대적으로 빈도가 지속적으로 증가하고 있는 이슈는 젠트리피

케이션 현상에 영향을 받는 청년고용 또는 중소기업과 관련된 이슈인 토픽5

와 상가 임대차보호법과 관련하여 소상공인의 분쟁에 대한 토픽9이다.8) 이

는 언론에서 다루는 젠트리피케이션 현상이 단순한 정보 제공에서 벗어나

현실적인 쟁점 위주로 재편되고 있음을 시사한다.

8) 특히 상가 임대차보호법과 관련하여서는 서촌에서 건물주의 무리한 임대료 인상과 퇴거조치로

인해 임차인과 임대인의 폭력 사건의 선고가 있던 점이 관련 기사가 다수 생산되는데 영향을 주

었을 것이다.

Page 126: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

125

정책교육

coun

t150

100

50

0

150

100

50

0

2015 20152015 2015 20152018 20182018 2018 20182016 20162016 2016 20162017 20172017 2017 2017year

1

6

2

7

3

8

4

9

5

10

[그림29] 각 토픽별 2015년 이후의 기사 발생 추이

또 다른 분석으로, 기사별로 분류된 토픽 유형과 기사를 작성한 언론사의

정보를 결합하여 분석하는 방법을 생각해 볼 수 있다. 이를 통해 언론사별

로 특정 시점에 어떠한 토픽에 주로 기사를 생산하였는지를 고찰할 수 있다.

[그림30]은 진보 언론의 대표인 한겨레와 보수적이라 알려진 매일경제의 토

픽별 기사 발생 추이를 비교하여 나타내었다. 이를 보면 <표15>에서 제시한

바와 같이 한겨레가 가장 많은 수의 젠트리피케이션 관련 기사를 생산하였

으나, 대부분의 기사가 젠트리피케이션 현상에 관한 단순 정보를 제시하는

토픽1 유형임을 알 수 있다. 이러한 단순 정보성 토픽인 토픽1과 토픽6을 제

외하면 나머지 토픽에서는 매일경제와 한겨레 간 토픽별 기사 발생 빈도와

추이의 유의미한 차이는 관찰하기 어렵다. 도리어 문화예술 관련 이슈에서

는 한겨레보다 매일경제가 더 많은 기사를 생산하고 있는 것처럼, 매일경제

가 보다 다양한 영역에서 젠트리피케이션을 다루고 있음을 알 수 있다.

Page 127: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

126

freq

40

30

20

10

0

40

30

20

10

0

2015 2015 2015 2015 2015

paper 매일경제 한겨레

2018 2018 2018 2018 20182016 2016 2016 2016 20162017 2017 2017 2017year

1

6

2

7

3

8

4

9

5

10

[그림30] 한겨레와 매일경제의 토픽별 기사 발생 추이

유사하게 [그림31]에서는 경향신문과 매일경제의 토픽별 기사 발생 추이

를 비교하였다. 한겨레보다는 정도가 덜한 편이지만 역시 단순정보성 기사

인 토픽1과 토픽6의 분량이 상대적으로 많이 나타나며, 다루는 분야에 한정

해서는 매일경제와 유의미한 차이를 보기 어려움을 알 수 있다.

Page 128: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

127

정책교육

freq

40

30

20

10

0

40

30

20

10

0

2015 2015 2015 2015 2015

paper 매일경제 한겨레

2018 2018 2018 20182016 2016 2016 2016 20162017 2017 2017 2017year

1

6

2

7

3

8

4

9

5

10

[그림31] 경향신문과 매일경제의 토픽별 기사 발생 추이

(마) 토픽 모델링 분석의 시사점

토픽 모델링 분석을 통해 1,835개의 기사를 분석한 결과 다음과 같은 점을

알 수 있었다. 첫째, 젠트리피케이션 현상에 관한 정의와 영향을 주는 대상

을 다루는 기사가 가장 많이 나타났지만 경제, 부동산, 소매 상업, 청년고용

등에 관한 다양한 주제가 젠트리피케이션 현상과 관련하여 보도되고 있었

다. 둘째, 젠트리피케이션 관련 단순한 현상을 기술하는 기사는 점점 빈도가

줄어들고 있고 경제, 산업, 지역정책 등 분야별로 세분화된 기사의 등장이

증가하고 있다. 특히 주목할 것은 청년고용 및 중소기업과 관련한 이슈인 토

픽5와 상가 임대차보호법과 관련하여 소상공인의 분쟁에 대한 토픽9 두 가

지 이슈만이 젠트리피케이션과 관련된 기사 중 지속적인 증가 추이를 보이

고 있다는 점이다. 이는 젠트리피케이션과 관련된 핵심 이슈가 이 두 가지임

을 시사한다. 셋째, 한겨레, 경향신문 등 진보언론이 젠트리피케이션과 관련

Page 129: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

128

하여 다른 언론에 비해 많은 기사를 생산하고 있으나 대부분 단순 정보 제공

에 가까운 기사이며, 분야별 세부적인 이슈의 분포는 다른 언론사와 비교해

볼 때 뚜렷하게 구분되지 않는다. 물론 토픽 모델링 분석만으로 기사의 논

조까지 분석하여 비교하기는 어려우나, 단순한 젠트리피케이션 기사의 양적

증가만으로 해당 이슈를 특정 성향의 언론이 잘 다루고 있다고 평가하는 데

에는 신중할 필요가 있을 것이다.

도시

문제

사회

사람

문화

젠트리피케이션

시장

필요

시작

시민

공간

개발

기업

경제

주민

현상

세계

사업

참여

시간

자신

해결

운영

서울

고민

사례

활동

성공

다양

동네

PC1

PC2

2%

10%

5%

0 2,000 4,000 6,000 8,000 10,000

Marginal topicdistribution

Overall term frequency

Estimated term frequency within selected topic

Intertopic Distance Map(via multidimensional scaling Top-30 Most Relevant Teems for Topic 1 (28.3% of tokens)

1. saliency(term w) = frequency(w) [sum_t p(t | w) log(p(t | w)/(p(t)|] for topic t; see Chuang et. a l(2012)

2. relevance(term w│topic t) = λ p(w | t) + (1-λ) p(w | t)/p(w); see Sievert & Shirley (2014)

3

2

9

10

1 6

4

5

78

[그림32] 각 토픽별 다차원 척도 시각화 및 출현 단어의 빈도 비교(토픽1)

Page 130: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

129

정책교육

상권

상가

거리

골목

서울

건물

홍대

인근

부동산

시장

상인

카페

젠트리피케이션

현상

가로수

점포

시작

음식

망원

식달

일대

매장

월세

사람

분기

지난해

주변

형성

관계자

빌딩

PC1

PC2

2%

10%

5%

0 2,000 4,000 6,000 8,000

Marginal topicdistribution

Overall term frequency

Estimated term frequency within selected topic

Intertopic Distance Map(via multidimensional scaling Top-30 Most Relevant Teems for Topic 2 (13.2% of tokens)

1. saliency(term w) = frequency(w) [sum_t p(t | w) log(p(t | w)/(p(t)|] for topic t; see Chuang et. a l(2012)

2. relevance(term w│topic t) = λ p(w | t) + (1-λ) p(w | t)/p(w); see Sievert & Shirley (2014)

3

2

9

10

1 6

4

5

78

[그림33] 각 토픽별 다차원 척도 시각화 및 출현 단어의 빈도 비교(토픽2)

공간

문화

거리

이곳

사람

음악

예술가

동네

카페

건물

작가

공연

골목

예술

홍대

운영

마을

서점

청년

제주

전시

시작

서울

작품

사진

다양

이름

해방

극장

역시

PC1

PC2

2%

10%

5%

0 2,0001,000 4,0003,000 6,000,

Marginal topicdistribution

Overall term frequency

Estimated term frequency within selected topic

Intertopic Distance Map(via multidimensional scaling Top-30 Most Relevant Teems for Topic 3 (12.8% of tokens)

1. saliency(term w) = frequency(w) [sum_t p(t | w) log(p(t | w)/(p(t)|] for topic t; see Chuang et. a l(2012)

2. relevance(term w│topic t) = λ p(w | t) + (1-λ) p(w | t)/p(w); see Sievert & Shirley (2014)

3

2

9

10

1 6

4

5

78

[그림34] 각 토픽별 다차원 척도 시각화 및 출현 단어의 빈도 비교(토픽3)

Page 131: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

130

재생

사입

도시

뉴딜

추진

정부

국토

계획

주민

선정

공간

조성

개발

주택

교통

공공

방식

시설

지자체

임대주택

진행

거점

기존

예정

기금

창업

부동산

임대

투입

정비

PC1

PC2

2%

10%

5%

0 4,0002000 8,0006,000 10,000

Marginal topicdistribution

Overall term frequency

Estimated term frequency within selected topic

Intertopic Distance Map(via multidimensional scaling Top-30 Most Relevant Teems for Topic 4 (9.9% of tokens)

1. saliency(term w) = frequency(w) [sum_t p(t | w) log(p(t | w)/(p(t)|] for topic t; see Chuang et. a l(2012)

2. relevance(term w│topic t) = λ p(w | t) + (1-λ) p(w | t)/p(w); see Sievert & Shirley (2014)

3

2

9

10

1 6

4

5

78

[그림35] 각 토픽별 다차원 척도 시각화 및 출현 단어의 빈도 비교(토픽4)

정부

정책

청년

확대

강화

추진

공약

기업

방안

후보

경제

도입

장관

인상

최저임금

중소기업

문제

대기업

강조

국민

제도

서울

대통령

현장

규제

혁신

해결

박 시장

성장

마련

PC1

PC2

2%

10%

5%

0 2,0001,000 4,0003,000 6,0005,000

Marginal topicdistribution

Overall term frequency

Estimated term frequency within selected topic

Intertopic Distance Map(via multidimensional scaling Top-30 Most Relevant Teems for Topic 5 (8.4% of tokens)

1. saliency(term w) = frequency(w) [sum_t p(t | w) log(p(t | w)/(p(t)|] for topic t; see Chuang et. a l(2012)

2. relevance(term w│topic t) = λ p(w | t) + (1-λ) p(w | t)/p(w); see Sievert & Shirley (2014)

3

2

9

10

1 6

4

5

78

[그림36] 각 토픽별 다차원 척도 시각화 및 출현 단어의 빈도 비교(토픽5)

Page 132: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

131

정책교육

협약

젠트리피케이션

방지

상생

재생

사업

조례

추진

주민

계획

체결

세운상가

서울

성수

제정

상가

현상

조성

구역

서울시는

중구

건물

보행

마련

협력

최초

정원

전국

내용

PC1

PC2

2%

10%

5%

0 4,0002,000 8,0006,000 10,000

Marginal topicdistribution

Overall term frequency

Estimated term frequency within selected topic

Intertopic Distance Map(via multidimensional scaling Top-30 Most Relevant Teems for Topic 6 (7.7% of tokens)

1. saliency(term w) = frequency(w) [sum_t p(t | w) log(p(t | w)/(p(t)|] for topic t; see Chuang et. a l(2012)

2. relevance(term w│topic t) = λ p(w | t) + (1-λ) p(w | t)/p(w); see Sievert & Shirley (2014)

3

2

9

10

1 6

4

5

78

[그림37] 각 토픽별 다차원 척도 시각화 및 출현 단어의 빈도 비교(토픽6)

공인

상가

소상

상권

상인

시장

안심

매입

창업

임대

장기

협약

자영업자

사업

조성

점포

마련

계획

기간

상생

비용

전통

젠트리피케이션

공공

최대

영세

자금

현상

방안

건물

PC1

PC2

2%

10%

5%

0 4,0002,000 8,0006,000

Marginal topicdistribution

Overall term frequency

Estimated term frequency within selected topic

Intertopic Distance Map(via multidimensional scaling Top-30 Most Relevant Teems for Topic 7 (6.1% of tokens)

1. saliency(term w) = frequency(w) [sum_t p(t | w) log(p(t | w)/(p(t)|] for topic t; see Chuang et. a l(2012)

2. relevance(term w│topic t) = λ p(w | t) + (1-λ) p(w | t)/p(w); see Sievert & Shirley (2014)

3

2

9

1 6

4

78

[그림38] 각 토픽별 다차원 척도 시각화 및 출현 단어의 빈도 비교(토픽7)

Page 133: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

132

부동산

주택

시장

공급

정부

투자

임대주택

주요

국토

주거

증가

교통

분석

서울

현상

평균

규제

정책

기준

상승

경기

계획

결과

월세

자료

공공

비율

정보

부부

기존

PC1

PC2

2%

10%

5%

0 4,0002,000 8,0006,000

Marginal topicdistribution

Overall term frequency

Estimated term frequency within selected topic

Top-30 Most Relevant Teems for Topic 8 (4.8% of tokens)

1. saliency(term w) = frequency(w) [sum_t p(t | w) log(p(t | w)/(p(t)|] for topic t; see Chuang et. a l(2012)

2. relevance(term w│topic t) = λ p(w | t) + (1-λ) p(w | t)/p(w); see Sievert & Shirley (2014)

3

2

9

10

1 6

4

5

78

[그림39] 각 토픽별 다차원 척도 시각화 및 출현 단어의 빈도 비교(토픽8)

상가

임대차보호법

건물

갱신

요구

계약

상인

권리

기간

내용

국회

개정

보호

환산

상권

젠트리피케이션

서울

청구

소송

전화

임차

제한

강제집행

월세

현행

적용

족발

인상

발의

상황

PC1

PC2

2%

10%

5%

0 4,0002,000 8,0006,000

Marginal topicdistribution

Overall term frequency

Estimated term frequency within selected topic

Intertopic Distance Map(via multidimensional scaling Top-30 Most Relevant Teems for Topic 9 (4.7% of tokens)

1. saliency(term w) = frequency(w) [sum_t p(t | w) log(p(t | w)/(p(t)|] for topic t; see Chuang et. a l(2012)

2. relevance(term w│topic t) = λ p(w | t) + (1-λ) p(w | t)/p(w); see Sievert & Shirley (2014)

3

2

9

10

1 6

4

5

[그림40] 각 토픽별 다차원 척도 시각화 및 출현 단어의 빈도 비교(토픽9)

Page 134: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

133

정책교육

마을

한옥

주민

관광객

구역

문화

북촌

전주

제한

서울

개발

일 대

동네

카페

전통

계획

지난해

나무

서촌

보존

서울시는

관광지

인사

조성

보전

보호

역사

설명

음식

건물

PC1

PC2

2%

10%

5%

0 4,0002,000 8,0006,000

Marginal topicdistribution

Overall term frequency

Estimated term frequency within selected topic

Intertopic Distance Map(via multidimensional scaling Top-30 Most Relevant Teems for Topic 10 (4% of tokens)

1. saliency(term w) = frequency(w) [sum_t p(t | w) log(p(t | w)/(p(t)|] for topic t; see Chuang et. a l(2012)

2. relevance(term w│topic t) = λ p(w | t) + (1-λ) p(w | t)/p(w); see Sievert & Shirley (2014)

9

10

1 6

4

5

78

[그림41] 각 토픽별 다차원 척도 시각화 및 출현 단어의 빈도 비교(토픽10)

iter0 50 100 150 200

log_

likel

yhoo

d

-1200000

-1300000

-1400000

-1500000

-1600000

[그림42] 확률모형 수행에 따른 우도값의 수렴 시각화

Page 135: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

134

02

강의교안에 맞춘 학생용 교재

1.학생용교재의구성

학생용 교재는 강의교안의 구성과 맞추어 ①데이터 기반 정책에 대한 이해,

②서울시 젠트리피케이션 사례에 대한 이해, ③비정형 데이터 분석을 통한

젠트리피케이션 문제에 대한 이해: 기초, ④비정형 데이터 분석을 통한 젠트

리피케이션 문제에 대한 이해: 심화에 대해 각각 제시한다. 구체적인 내용으

로는 수업을 듣고 이해하는데 필요한 보충자료 또는 연습문제 제공을 목적

으로 하며, 관련된 쟁점을 토론주제로 제시한다. 제시된 연습문제는 숙제로

활용할 수 있으며, 학생 개인이 자율적으로 필요에 따라 활용할 수 있다.

Page 136: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

135

정책교육

2.학생용교재

1)데이터기반정책에대한이해

주제 데이터기반정책에대한이해 차시 1

교육목표

•데이터 기반 정책이 무엇이며 왜 중요한지를 이해함

•데이터 기반 정책의 한계를 이해함

•데이터 기반 정책의 해외사례를 학습함

•공공데이터의 개방 현황을 이해함

보충자료

*데이터는어디에서얻을수있는가?

<공공데이터제공웹사이트목록예시>

공공데이터포털(https://www.data.go.kr)국가통계포털(http://kosis.kr/index/index.do)

e-나라지표(http://www.index.go.kr/main.do)

국토교통부 통계누리(http://stat.molit.go.kr/portal/main/portalMain.do)

열린재정(http://www.openfiscaldata.go.kr/portal/main.do)

지방재정365(http://lofin.mois.go.kr/portal/main.do)

중앙선거관리위원회 선거통계시스템(http://info.nec.go.kr)한국은행경제통계시스템(http://ecos.bok.or.kr)World Bank Open Data(https://data.worldbank.org)OECD Statistics(https://stats.oecd.org)

연습문제

*데이터기반정책수립수행

정책문제 필요한데이터 데이터확보방법

*데이터기반정책의해외사례조사

논점 내용

어떤 정책문제인가?

데이터 기반 접근의 구체적인 내용은 무엇인가?

도출된 정책의 내용은 무엇인가?

사례로부터 얻을 수 있는 시사점은 무엇인가?

Page 137: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

136

<토론과제>

▒ 데이터기반정책은왜필요하며,그한계점은무엇인가?한계점을어떻게보완할수있

을것인가?

합리적 정책결정의 중요성은 일찍이 Lasswell(1951), Dror(1967) 등 여러 학자들에 의해 강

조되어 왔으며, 특히 최근 빅데이터의 시대를 맞아 공공데이터 역시 빠르게 축적되면서 데

이터 기반 정책의 중요성과 가능성은 더욱 증대되고 있다. 그러나 정책결정은 합리적으로만

이루어지는 것은 아니며, 데이터가 현상의 모든 면을 나타내주는 것도 아닐 수 있다. 즉 데

이터 기반 정책의 필요성이 인정되지만, 그 한계점을 인지하고 접근하는 것이 필요하다. 데

이터 기반 정책이 왜 필요하며, 그 한계점은 무엇인지, 한계점들을 어떻게 보완할 수 있을

것인지 토론해보자.

▒ 당신이고용노동부소속의정책입안자라고가정해보자.한국이당면한고용문제청년실

업문제에대해데이터기반접근을해보아라.

한국의 고용문제는 지속적으로 문제가 되어 왔으며, 특히 청년실업 문제의 심각성이 자주

언급되고 있다. 그러나 다양한 고용지표(데이터)가 존재함에도 데이터에 기반을 두고 엄밀

한 접근을 취하는 경우는 찾아보기 힘들다. 청년실업 문제를 정의하고 해결하는데 있어 어

떠한 데이터들이 필요하며, 해당 데이터를 활용하면 정책대안 도출의 어떠한 측면에서 도움

이 되는지 토론해보자.

▒ 데이터기반정책의활용증대가공무원인사체계개편에어떠한영향을미칠것인가?또

는어떠한방향으로의인사체계개편이필요한가?

데이터 기반 정책의 활용 증대를 위해서는 해당 역량을 갖춘 공무원이 필요하며, 이는 공무

원의 선발, 교육 및 훈련, 배치 등 인사체계에 있어서도 개편 필요성을 야기한다. 예컨대 선

발에 있어서부터 일반행정직 또는 통계직으로 데이터 분석 직렬을 신설하여 선발할 수도

있고 또는 선발에 있어서는 차이를 두지 않고 선발 이후 수요자에 한해 데이터 분석과 관련

한 교육 및 훈련을 할 수도 있을 것이다. 어떤 방향으로의 인사체계 개편이 바람직할까? 그

이유는 무엇인가? 에 대해 토론해보자.

Page 138: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

137

정책교육

2)서울시의젠트리피케이션사례에대한이해

주제 서울시젠트리피케이션사례에대한이해 차시 2

교육목표

•젠트리피케이션 정책사례의 선정 이유에 대한 이해

•젠트리피케이션 사례의 다양한 정책분야와의 연계성 이해

•젠트리피케이션 현상에 대한 이해

•젠트리피케이션 현상에 대한 정책적 대응의 이해

보충자료

*젠트리피케이션에대한이해를위한동영상자료

•젠트리피케이션의 어원 등 기본적인 현상 이해

‘세상의 모든 법칙 – 그 핫플레이스가 망한 이유는?’(EBS 교양)

(https://www.youtube.com/watch?v=cdAgxXm5YjY)

• 성동구 지속발전과 과장의 인터뷰 등을 통해 살펴본 젠트리피케이션 방지 조례

신설의 맥락

‘시시각각토크 – 서울 젠트리피케이션의 이면’(tbs 시민의 방송)

(https://www.youtube.com/watch?v=AfI7_V1CFtk)

연습문제

*빅데이터를정책과정에활용한경우와

그렇지않은경우에서의정책적대응이어떻게달라졌는가?

데이터에기반을두지않은

정책문제정의

데이터에기반을둔

정책문제정의

강점

약점

Page 139: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

138

<토론과제>

▒ 젠트리피케이션은어떠한현상이며어떻게정의할수있는가?

젠트리피케이션은 언론보도 등에서 빈번하게 접하는 단어이면서도, 그것이 어떠한 현상이

며, 어떤 의미가 무엇인지에 대해서는 단일한 정의가 존재하지 않는 것으로 보인다. 공무원

의 입장에서 젠트리피케이션을 어떻게 정의할 수 있을지 생각해보자.

▒ 당신이치안유지와관련된업무를담당하고있는공무원이라고가정해보자.젠트리피케

이션현상이해당지역의치안에는어떠한영향을미치는지데이터를활용하여파악및

분석하고,정책대안을제시하라.

젠트리피케이션이 치안 측면에서 어떠한 영향을 미칠지에 대해서는 상반된 예측이 존재한

다. 낙후된 지역에 중산층이 유입되면 교육 및 생활수준과 치안이 개선되고, 범죄율이 떨어

진다는 주장이 있는 반면(국제경제, 2016.10.19.), 유동인구의 증가로 범죄에 대한 두려움이

증가할 수 있다는 주장 역시 존재한다(한종희·임용진, 2018:110). 따라서 실제 범죄율 데

이터 등을 활용해 실증적인 증거에 기반을 두고 현상을 정확히 파악하여 정책결정을 할 필

요가 있다. 실증적인 증거를 활용한 현황 파악 및 정책대안을 제시해보자.

Page 140: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

139

정책교육

3)비정형데이터분석을통한젠트리피케이션문제에대한이해:기초

주제비정형데이터분석을통한젠트리피케이션문제에대한

이해:기초차시 3

교육목표• 비정형 데이터 분석을 통해 정책문제를 이해하는 기초적인 방법 학습

•뉴스 빅데이터 활용의 체계적인 방법 소개

보충자료

*빅카인즈를활용한자료수집및뉴스빅데이터분석의사례예시

• 이은별·전진오·백지선, 2017; 서울의 다문화 공간 연구, 미디어 경제와 문화,

15:2, 7-43

*빅카인즈이외의데이터분석의기본적인활용수단소개:구글트렌드

• 구글 트렌드는 사용자가 실제 세계에서의 검색 키워드를 파악할 수 있게 해주며,

키워드 빈도뿐만 아니라 키워드와 관련된 지역, 도시 및 언어와 같은 관련 정보

도 표시해준다. 다만 구글트렌드는 검색 수만을 가지고 판단하므로 명확한 자료

해석에 한계가 있다(곽재현·홍지숙, 2018).

연습문제

*빅카인즈를활용한정책문제이해의연습

정책문제 분석결과

*빅카인즈를활용한정책문제이해의한계점과개선방안

한계점 개선방안

Page 141: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

140

<토론과제>

▒ 뉴스기사자체를데이터로활용하는것이외에도뉴스기사에대한인터넷댓글등을분석

한학술연구,보고서등도존재한다.댓글분석을통해얻는데이터의강점과약점은무엇

이며,분석시주의해야할점은무엇일까?

인터넷 댓글을 활용한 분석이 심심치 않게 이루어지고 있는 반면, 이에 대해서는 익명성, 대

표성의 부재 등의 문제로 인해 분석 데이터로 활용하기에 적절하지 않다는 비관론이 존재

한다. 댓글을 활용해 데이터 분석을 하면 어떤 강점과 약점이 있을까? 정책입안 및 집행에

반영하기 분석결과를 반영하기에 한계는 없을까? 분석 시 주의해야 할 점은 무엇인가? 등

에 대해 토론해보자.

Page 142: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

141

정책교육

4)비정형데이터분석을통한젠트리피케이션문제에대한이해:심화

주제비정형데이터분석을통한젠트리피케이션문제에대한

이해:심화(TopicModeling)차시 4

교육목표

•텍스트 분석에 대한 기본적인 이해

•토픽 모델링에 대한 기본적인 이해

•토픽 모델링을 통한 젠트리피케이션 언론보도 내용의 이해

보충자료

*(심화)다양한빅데이터분석방법및통계패키지활용법에대한이해

•‘사례를 통한 빅데이터 분석’(한국기술교육대학교 온라인평생교육원)

(https://www.youtube.com/watch?v=3ihf6VQBTts)

연습문제

*토픽모델링기법을어떤정책문제에적용하여어떻게활용할수것인가?

정책문제 토픽모델링을활용한분석계획

*다른빅데이터분석방법론에대해조사해보자.

Page 143: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

142

<토론과제>

▒ 앞서데이터기반접근의정책문제를정의하기이전과이후의젠트리피케이션에대한문

제정의에차이가존재하는가?존재한다면어떤점에서차이가존재하는가?

앞서 비정형 데이터 분석을 학습하기 이전에 젠트리피케이션 문제를 정의했던 것과 비정형

데이터 분석 학습 이후의 젠트리피케이션 문제를 정의한 것을 비교해보고 그 차이가 존재

하는지 살펴보자. 이를 통해 데이터 기반의 문제 접근을 한 경우와 그렇지 않은 경우를 비

교해보자.

▒ 데이터기반정책과정에서공무원의역할은어디까지로보는것이바람직한가?

다양한 데이터 분석기법들이 존재하고 발전하고 있는 가운데, 기술과 정책결정자 사이의 간

극이 확대되고 있다는 우려가 존재한다. 분석기법 및 결과해석에 대한 전문지식을 요하는

경우가 존재해 기존 공무원이 이를 활용하기 쉽지 않을 것이라는 의견이다. 그러나 정보화

교육 등이 이루어지고 있으며 한국 공무원들의 높은 역량을 고려한다면 채용제도의 변화,

교육 및 훈련 내용의 변화 등을 통해 적극적으로 대응하는 것도 불가능한 일은 아니다. 데

이터 기반 정책과정에서 공무원의 역할을 어디까지로 보는 것이 바람직한가? 에 대해 토론

해보자.

Page 144: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

143

참고문헌

참고문헌

국내문헌

건설교통부. (2002). 주택백서.

곽재현·홍지숙. (2018). 빅데이터를 활용한 욜로(YOLO) 현상 분석. 관광연구저널, 32(2), 21-34.

국토교통부. (2017). 사회통합형 주거사다리 구축을 위한 주거복지로드맵 발표(2017.11.29.).

국토교통부. (2017). 주택 업무 편람.

국회예산정책처. (2012). “보금자리주택사업 평가”, 사업평가 12-02(통권 239호).

김구. (2017). 공공데이터 개방정책에 관한 평가적 고찰: 공공데이터포털을 중심으로. 국가정책연

구, 31(2), 57-82.

김근용·김혜승·박천규·이윤상. (2015). “공공임대주택 공급체계 개선방안 연구”, 국토연구원.

김병석·배순한·백승익. (2012). 사회 네트워크 분석기법을 이용한 온라인 공동체의 네트워크 구조

탐색. Entrue Journal of Information Technology, 11(1), 59-72.

김선명. (2003). 사이버 교육의 효과적 운영방안. 한국행정학회 학술발표논문집, 103-115.

김소연. (2017). 인디 음악가의 젠트리피케이션 경험과 인식. 대중음악, 117-158.

김정숙. (2012). 빅 데이터 활용과 관련기술 고찰. 한국콘텐츠학회지, 10(1), 34-40.

김종래. (2011). 정책사례교육의 효과성 제고방안 연구. 한국정책연구, 11(2), 53-74.

김재생. (2014). 빅데이터 분석 기술과 활용사례. 한국콘텐츠학회지, 12(1), 14-20.

김희진·최막중. (2016). 문화특화지역의 상업적 젠트리피케이션 과정과 장소성 인식 변화의 특성:

삼청동과 신사동 가로변을 사례로. Journal of Korea Planning Association, 51(3), 97.

남기철. (2010). “영구임대단지와 사회적 배제”, 월간 복지동향, (139), pp.42-46.

박관민·송명규·이경진. (2009). “임대아파트 단지에 대한 사회적 배제의 실증연구”. 도시행정학보,

22(3), pp.107-131.

박상우. (2015). “주택정책의 역사적 변동”, 권도엽 편, 국토교통정책의 역사적 변동과 전망, 문우사,

pp. 153~210.

박상우·박환용. (2014). “공공임대주택 공급의 지역전세시장에 대한 영향 분석: 수도권 지역을 중

심으로”, 국토연구 (83) pp.69-80.

박태원. (2016). 젠트리피케이션의 주요 이슈와 쟁점. 도시문제, 51(576), 23-26.

박태원·김연진·이선영·김준형. (2016). 한국의 젠트리피케이션. 도시정보, (413), 3-14.

Page 145: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

144

배장오·전영일 (2014) “임대아파트 거주자의 주거만족에 관한 연구”. 부동산학보, 한국부동산학회,

59.

성욱준. (2016). 공공부문 빅데이터 정책 활성화 연구. 한국정책학회보, 25(2), 125-149.

성지은·박기량. (2014). 빅데이터를 활용한 정책 사례 분석과 시사점. 과학기술정책, 24(2), 94-106.

성지은·송위진. (2008). 정책 조정의 새로운 접근으로서 정책 통합. 기술혁신학회지, 11(3), 352-

375.

송선영·김항인. (2016). 정보화시대의 빅 데이터 (Big Data) 활용에 대한 윤리적 논쟁과 전망. 윤리

연구, 108, 227-248.

신동희·김용문. (2015). 국내 재난관리 분야의 빅 데이터 활용 정책방안. 한국콘텐츠학회논문지,

15(2), 377-392.

오세영·윤건·오균 (2017), “증거 기반 정책을 위한 정부의 통계 구축 및 활용에 대한 현황 조사”,

한국행정연구원 사회조사센터.

윤광석. (2018). 4차산업혁명 시대 정보기술을 활용한 행정서비스 혁신방안, 한국행정연구원 이슈

페이퍼 통권 67호.

윤영근. (2013). "정책증거, policy evidence, 의 시차에 관한 연구: 산아제한정책사례의 적용." 행정

논총 51(4).

윤윤채·박진아. (2016). 상업용도 변화 측면에서 본 서울시의 상업 젠트리피케이션 속도 연구. 서울

도시연구, 17(4), 17-32.

이대원. (2010). “공공임대주택, 초심으로 돌아가야”, 새로운 사회를 여는 연구원.

이용훈. (2013). 공공갈등의 원인과 해결과정에 관한 연구. 한국공공관리학보, 27(1), 1-26.

이은별·전진오·백지선. (2017). 서울의 다문화 공간 연구. 미디어 경제와 문화, 15(2), 7-43.

이재민·김진희. (2016). 젠트리피케이션에 관한 국내 연구동향 분석. 한국엔터테인먼트산업학회 학

술대회 논문집, 163-167.

이종권·김경미·권치흥·박상학. (2013). “공공임대주택 50년 성과와 과제,” 토지주택연구원.

이중원. (2017). 빅데이터가 던지는 도전적인 철학적 문제들에 대한 고찰. 도시인문학연구, 9(1),

168-205.

이재민·김진희. (2016). 젠트리피케이션에 관한 국내 연구동향 분석. 한국엔터테인먼트산업학회 학

술대회 논문집, 163-167.

임재호.. (2017). [정책사례교육] 현황과 활용방안연구. 한국행정학회 학술발표논문집, 1059-1075.

조덕훈. (2013). “한국 임대주택 공급정책의 변화과정 연구” 공간과 사회 (46) pp.58-101.

조성우. (2011). Big Data 시대의 기술. KT 종합기술원, 5-7.

Page 146: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

145

참고문헌

진미윤. (2013). “장기공공임대주택의 임대료 체계 조정 방안 연구”. 한국토지주택공사 토지주택연

구원.

천현숙. (2017). “공공임대주택 정책의 진단 및 향후 과제”, 부동산포커스 (105) pp.22-31.

천현숙·이재춘·이길제. (2016). “가구원수별 주거사용면적 차이와 시사점”, 국토정책Brief (592)

통계청. (2017). 장래가구추계:2015~2045.

하성규·김연명. (1991). “한국의 주택정책과 이데올로기”, 국토계획, 26(1), pp.23~41.

하성규·서종녀. (2006). “공공임대주택과 사회적 배제에 관한 연구”. 주택연구, (14) pp.159-181.

하창효. (2017). 도시재생으로 인한 젠트리피케이션 대응방안에 대한 법적 고찰. 부동산법학, 21,

227-247.

하혜영. (2011). 정부갈등해결을 위한 ADR 기구 연구. 한국행정학회 학술발표논문집, 879-896.

한종희·임용진. (2018). 젠트리피케이션에 따른 문화갈등과 주민의 범죄 두려움 분석-망원동 지역

을 중심으로. 한국중독범죄학회보, 8(1), 105-133.

행정안전부 공공데이터정책과. (2018). 공공 빅데이터 이용 우수사례집, 2018.02.

허자연·정연주·정창무. (2015). 상업공간의 젠트리피케이션 과정 및 사업자 변화에 관한 연구: 경

리단길 사례. 서울도시연구, 16(2), 19-33.

외국문헌

Dror, Y. (1967). Policy analysts: A new professional role in government service. Public

Administration Review, 197-203.

Glaeser, E. L, Kim, Hyunjin, & Luca Michael (2018), Nowcasting Gentrification: Using Yelp Data

to Quantify Neighborhood Change, Havard Business School Working Paper 18-077.

Lasswell, H. (1951). The policy orientation. Communication Researchers and Policy–Making.

OECD. (2017). Preventing Ageing Unequally, OECD Publishing, Paris.

Shin, H. B. (2016). Economic transition and speculative urbanisation in China: Gentrification

versus dispossession. Urban Studies, 53(3), 471-489.

Shin, H. B., &Kim, S. H. (2016). The developmental state, speculative urbanisation and the

politics of displacement in gentrifying Seoul. Urban Studies, 53(3), 540-559.

Shin, H. B., Lees, L., &L pez-Morales, E. (2016). Introduction: Locating gentrification in the

global east. Urban Studies, 53(3), 455-470.

Smith, N. (1979). Toward a theory of gentrification a back to the city movement by capital, not

Page 147: 데이터 기반셋째, 텍스트 분석, 공공데이터 접속 및 분석 등의 다양한 기법들을 활용 하는 과정을 보여줄 수 있다는 장점이 있다. 2) 연구

데이터 기반 정책결정사례

146

people. Journal of the American Planning Association, 45(4), 538-548.

Waley, P. (2016). Speaking gentrification in the languages of the Global East. Urban Studies,

53(3), 615-625.

기타

경향신문, 2018.04.10. 기사, “시세 95% 받는 민간임대주택에 ‘공공지원’이라니”

국제경제, 2016.10.19. 기사, “[세계는, 왜?] 치솟는 집값에 원주민이 밀려난 도시들… 세계는 젠트

리피케이션과 전쟁중”

국토교통부, 마이홈 홈페이지(https://www.myhome.go.kr/hws/portal/main/getMgtMainPage.do).

매일경제, 2018.04.08. 기사, “임대주택 활성화 막는 대못 규제 `표준건축비`”

빅카인즈(https://www.bigkinds.or.kr/).

서울시 정보소통광장(http://opengov.seoul.go.kr).

유투브(https://www.youtube.com/).

자치법규시스템(www.elis.go.kr).

중앙일보, 2006.02.17. 기사, “[세계 도시는 리모델링중] 2. 뉴욕”

조선일보, 2009.10.24. 기사, “폭락설에서 폭등설까지...널뛰는 한국 부동산 시장 전망”

조선일보, 2017.04.24. 기사, “문재인 “공적 임대주택 매년 17만가구 공급...청년·신혼부부·저소득

층 지원”

한겨례, 2016.07.27. 기사, “‘58년 개띠’의 상가 사냥, ‘94년 개띠’를 몰아내다”