연결형 마이크로맵 도표를 활용한 데이터...

17
통계연구(2013), 제18권 제2호, 111-127 연결형 마이크로맵 도표를 활용한 데이터 시각화 1) 박세진 2) 안정용 3) 요약 통계그래프(statistical graphs) 및 데이터 시각화(data visualization) 기법은 데이터에 대한 직관적 이고 쉬운 이해를 제공한다. 데이터에 대한 초기 탐색단계에서부터 분석 결과의 발표에 이르기 까지 데이터 시각화는 매우 중요한 역할을 수행하며, 최근에는 지리 정보를 갖는 데이터 (geographically referenced data, location data)를 표현하기 위해 다양한 형태의 통계지도 (statistical maps)가 활용되고 있다. 본 연구에서는 새로운 데이터 시각화 방법인 연결형 마이크 로맵 도표를 소개하고, 우리나라 지도를 마이크로맵으로 제작하는 방법을 제시하고자 한다. 또 한, 연결형 마이크로맵 도표를 이용하여 우리나라 16개 광역시도에 대한 통계정보를 표현할 수 있는 모듈을 개발한다. 개발된 모듈은 지역사회건강조사의 비만 및 체중조절에 관한 자료와 통 e-지방지표의 고용에 관한 자료에 적용하여 변수들 사이의 관련성, 지역별 비교, 지리적 패턴 등 을 파악하는 사례로 제시하였다. 본 연구는 연결형 마이크로맵 도표에서 이용되는 기법을 우리 나라 지도에 적용하여 통계정보를 제공할 수 있는 방안을 탐색하는데 그 목적이 있다. 주요용어 : 데이터 시각화, 연결형 마이크로맵 도표, R 모듈, 통계지도 1. 서론 통계지도(statistical maps)는 통계정보를 지역별로 보여주는 특별한 형태의 지도이 며, 행정구역에 따라 어떤 정보를 보여주거나 데이터 범주에 따른 지리학적 특성을 나타낸다. 예를 들면, 행정구역별로 지지율이 가장 높은 정당을 보여주거나 강수량을 범주화하여 같은 범주에 해당하는 지리학적 특성을 보여주는 등 다양한 분야의 정보 제공하는데 이용되고 있다. 통계지도는 데이터 표현 방식에 따라 단계구분도 (choropleth map), 등치선도(isopleth map), 비례기호지도(proportional symbol map), 점 통계지도(dot map) 등으로 구분할 수 있으며, 현재 단계구분도가 가장 많이 활용 되고 있다. 단계구분도는 색 또는 명암을 이용하여 데이터의 지역별 분포를 나타내는 단순한 형태의 통계지도이며, 1938년 Wright에 의해 소개되어 많은 연구가 이루어졌다 (Wright, 1938; Murray와 Shyy, 2000; Armstrong 등, 2004; Cromley와 Cromley, 2009). 이 지도는 지역의 특성을 쉽게 나타낼 수 있고, 데이터의 지역별 분포를 직관 적으로 이해할 수 있는 장점을 가지고 있는 반면에 다음과 같은 단점도 가지고 있다 (Robinson 등, 1978; Dent, 1993; Harris, 1999). 첫째, 지역의 면적에 관련된 문제로 1) 박세진의 석사학위논문 내용을 확장한 논문임 2) 전주시 덕진구 백제대로 567, 전북대학교 통계학과, 박사과정. E-mail: [email protected] 3) 교신저자, 전주시 덕진구 백제대로 567, 전북대학교 통계학과(응용통계연구소). 교수. E-mail: [email protected]

Upload: others

Post on 22-Jan-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

통계연구(2013), 제18권 제2호, 111-127

연결형 마이크로맵 도표를 활용한 데이터 시각화1)

박세진2) ․ 안정용3)

요약

통계그래프(statistical graphs) 및 데이터 시각화(data visualization) 기법은 데이터에 대한 직관적

이고 쉬운 이해를 제공한다. 데이터에 대한 초기 탐색단계에서부터 분석 결과의 발표에 이르기

까지 데이터 시각화는 매우 중요한 역할을 수행하며, 최근에는 지리 정보를 갖는 데이터

(geographically referenced data, location data)를 표현하기 위해 다양한 형태의 통계지도

(statistical maps)가 활용되고 있다. 본 연구에서는 새로운 데이터 시각화 방법인 연결형 마이크

로맵 도표를 소개하고, 우리나라 지도를 마이크로맵으로 제작하는 방법을 제시하고자 한다. 또

한, 연결형 마이크로맵 도표를 이용하여 우리나라 16개 광역시도에 대한 통계정보를 표현할 수

있는 모듈을 개발한다. 개발된 모듈은 지역사회건강조사의 비만 및 체중조절에 관한 자료와 통

e-지방지표의 고용에 관한 자료에 적용하여 변수들 사이의 관련성, 지역별 비교, 지리적 패턴 등

을 파악하는 사례로 제시하였다. 본 연구는 연결형 마이크로맵 도표에서 이용되는 기법을 우리

나라 지도에 적용하여 통계정보를 제공할 수 있는 방안을 탐색하는데 그 목적이 있다.

주요용어 : 데이터 시각화, 연결형 마이크로맵 도표, R 모듈, 통계지도

1. 서론

통계지도(statistical maps)는 통계정보를 지역별로 보여주는 특별한 형태의 지도이

며, 행정구역에 따라 어떤 정보를 보여주거나 데이터 범주에 따른 지리학 특성을

나타낸다. 를 들면, 행정구역별로 지지율이 가장 높은 정당을 보여주거나 강수량을

범주화하여 같은 범주에 해당하는 지리학 특성을 보여주는 등 다양한 분야의 정보

를 제공하는데 이용되고 있다. 통계지도는 데이터 표 방식에 따라 단계구분도

(choropleth map), 등치선도(isopleth map), 비례기호지도(proportional symbol map),

통계지도(dot map) 등으로 구분할 수 있으며, 재 단계구분도가 가장 많이 활용

되고 있다.

단계구분도는 색 는 명암을 이용하여 데이터의 지역별 분포를 나타내는 단순한

형태의 통계지도이며, 1938년 Wright에 의해 소개되어 많은 연구가 이루어졌다

(Wright, 1938; Murray와 Shyy, 2000; Armstrong 등, 2004; Cromley와 Cromley,

2009). 이 지도는 지역의 특성을 쉽게 나타낼 수 있고, 데이터의 지역별 분포를 직

으로 이해할 수 있는 장 을 가지고 있는 반면에 다음과 같은 단 도 가지고 있다

(Robinson 등, 1978; Dent, 1993; Harris, 1999). 첫째, 지역의 면 에 련된 문제로

1) 박세진의 석사학 논문 내용을 확장한 논문임

2) 주시 덕진구 백제 로 567, 북 학교 통계학과, 박사과정. E-mail: [email protected]

3) 교신 자, 주시 덕진구 백제 로 567, 북 학교 통계학과(응용통계연구소). 교수. E-mail:

[email protected]

Page 2: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

112 박세진 ‧ 안정용

다른 지역에 비해 상 으로 면 이 매우 작은 지역은 색깔로 표 되기 어려운 단

이 있다. 를 들어, <그림 2.1>의 (a)에서 서울시 등포구에 한 정보를 알기는 매

우 어렵다. 둘째, 양 데이터를 몇 개의 범주를 갖는 질 인 데이터로 변환하여 표

함으로써 정보의 손실이 야기된다. 셋째, 지도에서 같은 색으로 표시된 지역의 데이터

에 한 변동(variation)은 감추어져 있다. 를 들어, <그림 2.1>의 (a)에서 25%와

29%는 같은 색으로 표 되어 있어 같은 값으로 인식될 수 있다. 넷째, 하나의 지도에

하나의 변수에 한 정보만 나타낼 수 있으며, 두 개 이상의 변수에 한 정보는 나

타내기가 어렵다.

이러한 문제 을 해결하기 한 하나의 안은 연결형 마이크로맵 도표(Linked

Micromap plot, LM plot)를 활용하는 것이다. 연결형 마이크로맵 도표는 지리 인 구

역과 통계 데이터를 연결하여 표 함으로써 통 인 통계 그래 의 역할은 물론 특

정지역 데이터의 통계 패턴(statistical patterns)을 제공해 수 있는 유용한 형태

의 도표이다(Carr와 Pierson, 1996). 그러나 에서 언 한 바와 같이 재는 단계구분

도 주로 통계지도가 이용되고 있으며, 미국을 제외한 다른 나라들에서는 연결형 마

이크로맵 도표가 거의 활용되지 못하고 있다. 우리나라의 상황도 마찬가지여서 단계

구분도를 활용하기 한 몇몇 연구들만이 진행되어 왔으며(노희방, 1992; 조 정,

2000; 이종용 등, 2006), 통계청, 국토지리정보원 등에서 운 하는 시스템에서도 단계

구분도가 주로 이용되고 있다. 한 재까지 진행된 연구가 부분 지리학자들에 의

해 수행되어 지도의 제작 표 문제를 주로 다루고 있을 뿐 통계정보의 효율 제

공을 한 탐색은 이루어지지 못하고 있다.

본 연구에서는 새로운 데이터 시각화 방법인 연결형 마이크로맵 도표를 소개하고,

우리나라 지도를 마이크로맵으로 제작하는 방법을 제시하고자 한다. 한, 연결형 마

이크로맵 도표를 이용하여 우리나라 16개 역시도에 한 통계정보를 표 할 수 있

는 모듈을 개발한다. 본 연구는 연결형 마이크로맵 도표에서 이용되는 기법을 우리나

라 지도에 용하여 통계정보를 제공할 수 있는 방안을 탐색하는데 그 목 이 있다.

본 논문의 구성은 다음과 같다. 2 에서는 재 많이 이용되고 있는 몇 가지 형태의

통계지도들을 소개하고, 3 에서는 연결형 마이크로맵 도표의 몇 가지 특징들에 해

정리한다. 4 에서는 마이크로맵으로 활용할 단순화된 형태의 지도 제작방법과 연결

형 마이크로맵 도표 작성을 해 본 연구에서 개발된 모듈을 설명한다. 한 개발된

모듈을 통하여 생성된 연결형 마이크로맵 도표의 를 제시하고 통계정보 제공의 가

능성을 탐색한다.

2. 통계지도

재 활용되고 있는 통계지도의 형태는 매우 다양하다(Monmonier, 1993; Friendly,

2008). 이 에서는 표 인 몇 가지 형태의 통계지도를 소개한다. <그림 2.1>의 (a)

는 단계구분도(choropleth map)의 형 인 형태로 비율(rates/percentages) 는 도

(densities) 등과 같은 표 화된 데이터를 표 하는데 하다. <그림 2.1>의 (b)는

등치선도(isopleth map)의 이다. 이 지도는 행정구역 등과 같은 미리 정의된 단 로

Page 3: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

연결형 마이크로맵 도표를 활용한 데이터 시각화 113

데이터를 그룹화할 필요가 없다는 에서 단계구분도와 구분되며, 데이터의 진 인

변화를 보여주는데 합하다.

(a) choropleth map

(출처: 통계청)

(b) isopleth map

(출처: http://geographyfieldwork.com)

<그림 2.1> 통계지도의 1

(a) proportional symbol map

(출처: http://thedailyviz.com)

(b) dot map

(출처: http://e-education.psu.edu)

<그림 2.2> 통계지도의 2

<그림 2.3> 통계지도의 3 (google map, 출처: http://www.restorethegulf.gov)

Page 4: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

114 박세진 ‧ 안정용

<그림 2.2>의 (a)는 비례기호지도(proportional symbol map)의 이며, 이 지도는

표 하고자 하는 값의 크기에 비례하는 기호들을 사용하여 데이터를 표 한다. <그림

2.2>의 (b)는 통계지도(dot map)이며, 이 지도는 같은 크기의 는 다른 기호를

이용하여 데이터 도를 시각 으로 표 한다.

통계지도의 다른 형태는 <그림 2.3>과 같이 구 지도(Google maps)를 이용하

는 것이다. 구 지도는 지리 정보를 갖는 데이터에 한 시각화와 매핑 서비스

(mapping service)를 제공하기 한 가장 보편화된 수단의 하나로 자리매김하고 있

으며, 보통 기호를 이용하여 지도 에 통계정보를 표 하는 형태로 이용된다(Fu와 Zhang,

2012).

이상의 통계지도들은 데이터의 지역별 분포에 한 직 이고 쉬운 이해를 제공

하는 장 을 지니고 있다. 그러나 통계지도 작성을 해 재 제공되고 있는 모듈

(modules)은 데이터 표 에 필요한 기본 인 기능만을 제공하고 있기 때문에 사용자가

다양한 통계정보를 표 하는데 어려움이 있다. 한 하나의 지도에 하나의 변수만 나타

낼 수 있기 때문에 변수들간의 련성이나 통계 패턴을 알 수 없다는 단 이 있다.

3. 연결형 마이크로맵 도표의 특징

연결형 마이크로맵 도표는 일반 으로 이용되고 있는 통계지도 특히, 단계구분도

의 단 을 보완하기 해 Olsen 등(1996)에 의해 개발되어 Carr 등(1998), Carr 등

(2000), Symanzik과 Carr(2008), Carr와 Pickle(2010) 등을 통해 발 하 다. 이 도표

는 구역화된 지도, 지역이름, 데이터를 나타내는 여러 개의 패 (panels)을 연결하여

통계정보를 표 한다.

<그림 3.1> 연결형 마이크로맵의 [Gebreab 등(2007)]

<그림 3.1>은 연결형 마이크로맵 도표의 특징을 잘 보여주는 이다. 이 도표는 5

Page 5: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

연결형 마이크로맵 도표를 활용한 데이터 시각화 115

개의 병렬 패 (panels)로 구성되어 있다. 먼 , <그림 3.1>의 가장 왼쪽에 ‘Maps'로

명명된 부분 즉, 지도를 표시하는 부분을 마이크로맵 패 (micromap panel)이라 한다.

마이크로맵은 지역을 표시하기 해 사용하는 작은 지도들을 말한다. 두 번째,

‘Names'로 명명된 부분 즉, 지역이름을 표시하는 부분을 이블 패 (label panel)이

라 한다. 그 다음 3개의 패 즉, ‘Statistical Panel 1, Statistical Panel 2, Statistical

Panel 3’으로 명명된 부분은 3개의 변수에 한 통계정보를 그래 로 나타내는 통계

정보 패 (statistical summary panels)이다.

이 도표에서 행(rows)은 두 번째 변수(도표에서 Statistical Panel 2)의 값에 의해

정렬되어 있고, 첫 번째 변수(Statistical Panel 1)와 두 번째 변수(Statistical Panel 2)

는 강한 상 계를 보이고 있다. 반면에 첫 번째 는 두 번째 변수와 세 번째 변수

(Statistical Panel 3)는 강한 역상 계를 보이며, 세 번째 변수의 region 1의 값은

이상치(outlier)로 보여진다. 한 마이크로맵 패 에서는 지리 인 패턴이 강하게 나

타난다. 첫 번째 변수와 두 번째 변수에 련된 값들은 동북쪽 지역에서 높게 나타나

고 남서쪽 지역에서 낮게 나타남을 알 수 있다.

연결형 마이크로맵 도표의 특징을 정리하면 다음과 같다. 첫째, 지역정보를 나타내

기 해 일반 으로 2개의 패 을 이용하고 통계정보를 표 하기 해 1개 이상의 패

을 이용한다. 즉 지도와 함께 여러 개의 변수에 한 정보를 나타낼 수 있다. 연결

형 마이크로맵 도표의 가장 큰 장 의 하나는 여러 개의 변수에 한 정보를 표

하면서 는 선도표는 물론 다양한 형태의 그래 를 활용할 수 있다는 이다. 둘

째, 심 있는 변수를 사용하여 각 지역의 데이터를 정렬하여 나타낼 수 있다. 이러한

데이터 정렬은 데이터가 가지고 있는 지역별 정보에 한 사용자들의 이해를 쉽게 도

와 수 있는 장 으로 작용한다. 셋째, 지역들을 5개 는 그 이하로 분할하여 통계

정보를 나타냄으로서 특정 지역의 통계정보에 한 사용자들의 주의를 집 시킬 수

있다. 넷째, 여러 개의 패 에서 색과 지역을 매칭하여 정보를 표 할 수 있다. 이러

한 특징들은 다른 통계지도를 이용할 때 악이 불가능한 지리 인 패턴을 쉽게 식별

할 수 있도록 도와 다.

4. 연결형 마이크로맵 도표 작성

4.1 단순화된 형태의 지도 제작

연결형 마이크로맵 도표 제작을 한 첫 번째 과정은 마이크로맵으로 활용할 단순

화된 형태의 지도(simplified/caricatured map)를 제작하는 것이다. 이러한 지도를 제

작하는 목 은 첫째, 마이크로맵은 정확하고 세부 인 지형을 나타내는 지도가 필요

한 것이 아니라 지역들을 구분할 수 있으면 충분하고 둘째는 면 이 무 좁은 지역

은 색으로 표 해도 인식이 어렵기 때문에 당한 크기로 확 하는 것이 필요하기 때

문이다.

본 연구에서는 R 환경에서 연결형 마이크로맵 도표를 활용하기 하여 우리나라

Page 6: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

116 박세진 ‧ 안정용

16개 역자치단체가 표 되는 단순화된 형태의 지도를 제작하 으며, 지도 제작을

해 공간 인 정보를 가지고 있는 공간화일(shape file)을 이용하 다. 공간화일은 지

도의 지리 치를 장하고 있는 디지털 벡터이며 지리정보시스템 소 트웨어에서

가장 일반 으로 사용되는 형태이다. R 환경에서 사용가능한 단순화된 형태의 지도를

제작한다는 의미는 공간화일로부터 16개 시도를 구분하여 나타낼 수 있는 x좌표 벡터

와 y좌표 벡터를 생성한다는 것이며, 이 좌표들을 선으로 연결하면 실제 지도와 비슷

한 모양이 생성된다.

<그림 4.1> 실제 지도와 단순화된 형태의 지도

<그림 4.1>은 우리나라 실제 지도와 마이크로맵으로 활용하기 한 단순화된 형

태의 지도이다. 우리나라의 서해안과 남해안은 크고 작은 섬들이 많고 해안선이 복잡

한 지형을 가진다. 앞에서 언 하 듯이 마이크로맵은 지역을 구분할 수 있을 정도의

략 인 형태로 표 하면 되기 때문에 <그림 4.1>의 오른쪽 형태와 같이 섬들은 생

략되고 해안선은 단순화시켜 활용한다. 실제 지도와 단순화된 형태의 지도를 비교해

보면, 단순화된 형태는 각 지역을 구분하고 지리 치를 악가능하게 하는데

을 둔다는 것을 알 수 있다.

4.2 모듈 개발

연결형 마이크로맵 도표를 생성하기 해서는 마이크로맵과 연결하여 통계정보를

표 할 수 있는 모듈 개발이 필요하다. 본 연구에서는 박세진(2013), Ahn(2013) 등에

서 개발된 모듈을 확장한 LinkedMicroMap() 함수를 개발하 으며, 본 연구에서 개발

된 모듈의 직 버 은 Han 등(2014)에서 참고할 수 있다. LinkedMicroMap() 함수는

Gebreab 등(2008), Carr와 Pickle(2010)에서 제공되는 R 로그램을 참조하여 우리나

라의 지도 통계정보를 표 하기 모듈로 새롭게 작성하 다. 확장된 함수에서는 통

Page 7: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

연결형 마이크로맵 도표를 활용한 데이터 시각화 117

계정보 패 에 도표와 시계열 도표를 함께 표 할 수 있으며, 마이크로맵 도표를

정렬하기 한 기 변수를 선택할 수 있다. 개발된 함수의 코드는 주요 실행단계

주로 부록에 수록되어 있으며, 함수의 형태와 실행단계는 다음과 같다.

LinkedMicroMap(data, dat.decreasing, dat.var.order, dot.points, ts.points,

dot.graph.cex, ts.graph.cex, graph.type, graph.combine.order,

dot.graph.num, ts.graph.num, ...)

□ 실행 단계

• Step 1: 패 을 표 하기 한 이아웃 설정

• Step 2: 우리나라 16개 시도의 지리경계 데이터 호출

• Step 3: 마이크로맵 패 생성

• Step 4: 이블 패 생성

• Step 5: 통계정보 패 생성

<표 4.1> LinkedMicroMap() 함수의 주요 인수

인수 설명

data a data matrix including region names and data values

dat.decreasing sorting status of the first variables

dat.var.order a column number for ordering micromaps

dot.points/ts.points graph options

dot.graph.cex/ts.graph.cex plotting text and symbols

graph.type graph types of statistical summary panel

graph.combine.order the order of graphs

dot.graph.num/ts.graph.num the number of graphs

LinkedMicroMap() 함수의 주요 인수는 <표 4.1>과 같다. 첫 번째 인수 data는 연

결형 마이크로맵 도표를 생성하기 한 데이터이며, dat.var.order는 마이크로맵을 정

렬하기 한 기 변수를 설정하기 한 인수이다. graph.type 인수는 통계정보 패 에

표 할 그래 유형을 설정하기 한 것이다. 도표만 표 하고자 하는 경우와 시계

열도표만 표 하고자 하는 경우, 그리고 두 유형을 함께 표 하고자 하는 경우를 구

분한다. 통계정보 패 에 도표와 시계열도표를 함께 표 하고자 하는 경우, 도표

와 시계열도표의 순서는 graph.combine.order 인수를 이용하여 설정할 수 있다.

한편, 사용자들의 연결형 마이크로맵 도표 제작을 돕기 하여 ‘micromap’,

‘micromapST' 등과 같은 R 로그램 패키지가 최근에 개발되어 제공되고 있다. Carr

와 Pierson(2013)에 의해 개발된 ‘micromapST'는 51개(50 states + 1 D.C.) 미국 지역

의 연결형 마이크로맵 도표를 제작할 수 있는 패키지이다. ‘micromap’ 패키지는 여러

국가의 연결형 마이크로맵 도표를 쉽게 생성할 수 있도록 돕기 하여 2012년 Payton

과 Olsen에 의해 개발되었으며 2013년 새로운 버 으로 개선되었다(Payton과 Olsen,

2013). 따라서 ‘micromapST'는 미국 지도만을 표 하기 한 패키지인 반면에

Page 8: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

118 박세진 ‧ 안정용

‘micromap’는 범용 패키지라 할 수 있다. 본 연구에서 개발된 모듈은 우리나라 지도를

단순화된 형태로 표 하여 연결형 마이크로맵 도표를 생성하는 것에 주안 을 두고

개발하 기 때문에 ‘micromapST' 패키지와 유사한 성격을 지닌다고 할 수 있다. 그

러나 단순화된 지도 정보만 가지고 있으면 어느 나라의 지도도 표 가능하기 때문에

‘micromap’과 같이 범용으로 이용가능하며, 우리나라 특정 시도의 시군구 정보표 을

한 확장도 쉽게 가능하다.

4.3 활용 예

본 연구에서 개발된 LinkedMicroMap() 함수를 이용하면 다양한 형태의 그래 를

연결형 마이크로맵 도표로 표 할 수 있다. <그림 4.2>는 2011년 지역사회건강조사의

비만 체 조 에 한 자료(출처: KOSIS 보건․사회․복지, http://kosis.kr)를 연

결형 마이크로맵 도표로 표 한 것이다.

<그림 4.2> 2011년 지역사회건강조사 데이터의 LM plot

Page 9: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

연결형 마이크로맵 도표를 활용한 데이터 시각화 119

이 자료는 16개 시도별 비만율(%), 주 비만인지율(%), 체 조 시도율(%) 등

의 변수로 구성되어 있다. 비만율은 체 조사 상 응답자 에서 체질량지수가 25이

상인 사람의 비율을 의미하며, 주 비만인지율은 체 조사 상 응답자 에서 주

으로 ‘약간 비만’ 는 ‘매우 비만’이라고 생각하는 사람의 비율을 나타낸다. 한,

체 조 시도율은 체 조사 상자 에서 최근 1년 동안 체 을 이거나 유지하려

고 노력했다고 응답한 비율을 의미한다.

통계정보 패 의 첫 번째 변수인 비만율을 기 으로 내림차순으로 정렬해보면 비

만율이 가장 높은 지역은 강원도, 가장 낮은 지역은 주 역시로 나타난다. 지리 인

특성을 심으로 살펴보았을 때, 비만율이 높은 지역은 주로 부권, 낮은 지역은 주

로 남부권에 치하는 경향이 보인다. 한, 비만율의 95% 신뢰구간을 나타내보면 변

동이 가장 큰 지역은 제주도이고 변동이 가장 작은 지역은 경기도임을 알 수 있다.

비만율(첫 번째 패 )과 주 비만인지율(두 번째 패 ) 사이에는 어떤 패턴이 나타

나지 않으나 주 비만인지율(두 번째 패 )과 체 조 시도율(세 번째 패 ) 사이

에는 유사한 패턴을 보여 두 변수 사이에 비교 높은 상 계가 있을 것임을 알 수

있다. 일반 으로 본인이 비만이라고 생각할수록 체 조 을 시도할 가능성이 높으므

로 이러한 패턴은 타당하다고 볼 수 있다. 지역별로 살펴보면, 서울시는 실질 인 비

만율이 낮은 편에 속하는데도 불구하고 주 비만인지율이 매우 높게 나타난다. 이

는 다른 지역에 비해 서울시민들의 건강에 한 심이 상 으로 높다고 생각할 수

있다. 같은 맥락에서 역시는 비만율과 주 비만인지율이 낮은 편에 속하지

만 체 조 시도율은 가장 높음을 알 수 있다. 이것으로 미루어 역시민들의

미용에 한 심이 다른 지역에 비해 상 으로 높다고 추측할 수 있다.

<그림 4.3>의 자료는 통계청에서 조사한 e-지방지표의 2012년 고용에 한 것으

로 실업률(%), 고용률(%), 경제활동 참가율(%) 등의 변수로 구성되어 있다(출처:

KOSIS 고용․노동․임 , http://kosis.kr). 실업률은 경제활동인구(취업자+실업자)에

서 실업자의 비율을 의미하며, 고용률과 경제활동 참가율은 만 15세 이상 인구 취

업자와 경제활동인구(취업자+실업자)가 차지하는 비율을 각각 나타낸다.

통계정보 패 의 첫 번째 패 에는 지난 5년간의 실업률에 한 시계열 도표가 제

시되어 있으며, 2012년의 실업률(첫 번째 패 의 마지막 값)을 기 으로 내림차순으로

정렬하여 2012년 고용률(두 번째 패 )과 경제활동 참가율(세 번째 패 )을 표시하

다. 고용률은 2011년도 비 2012년에 어느 정도 증가 는 감소하 는지를 보여 다.

2012년 실업률이 다른 지역에 비해 상 으로 높은 지역은 수도권과 역시로 인구

도가 높고 은층이 많은 지역임을 알 수 있다. 실업률과 고용률 경제활동 참가

율 간에는 상 계가 보이지 않으므로, 실업률이 낮다고 해서 고용률이나 경제활동

참가율이 높을 것임을 기 할 수는 없다. 그러나 고용률과 경제활동 참가율의 패턴은

매우 유사하므로 두 변수 간에 강한 상 계가 있음을 알 수 있다.

<그림 4.2>, <그림 4.3>과 같이 연결형 마이크로맵 도표를 활용하면 기존의 단계

구분도와 같은 지도그래 , 막 선 그래 와 같은 단순 그래 를 통해 알기 어려

웠던 지리 인 패턴을 쉽게 악할 수 있고, 다양한 형태의 그래 를 지도와 연결하

여 동시에 표 함으로서 개별 변수의 특성뿐만 아니라 변수들간의 련성도 쉽게

Page 10: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

120 박세진 ‧ 안정용

악할 수 있다. 한 데이터의 시계열 인 변화와 함께 이러한 변화에 향을 주는 여

러 가지 변수들을 같이 표 하여 향을 미치는 정도도 악할 수 있다. 단 으로는

재까지는 로그램을 작성해야 연결형 마이크로맵 도표를 작성할 수 있기 때문에

메뉴방식에 익숙한 사용자들에게는 도표 작성이 용이하지 않다는 이다.

<그림 4.3> 고용률 데이터의 LM plot

한편, 2012년 고용률을 2011년과 비교해 보았을 때 가장 크게 증가한 지역은 구

역시이고, 가장 크게 감소한 지역은 충청북도이다. 시계열도표를 통해 같은 기간동

안 실업률을 살펴보면, 구 역시와 충청북도 모두 실업률이 감소했음을 알 수 있다.

그러나 이 제에서 시계열도표는 선이 겹쳐져 있어 시간에 따른 실업율의 지역별 변

화를 살펴보는 데 어려움이 있다. 이러한 경우에는 비교형 마이크로맵(comparative

micromap)을 활용하면 쉽게 정보를 악할 수 있으나 본 연구에서는 비교형 마이크

로맵에 해서는 논의하지 않는다.

Page 11: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

연결형 마이크로맵 도표를 활용한 데이터 시각화 121

<표 4.2> 고용률 데이터의 LM plot 작성 코드

## Including the R code which contains the function LinkedMicroMap()

source("Function_LinkedMicroMap.R")

## Load the sample data

data = read.csv("2012 obesity.csv", header=T)

dat = data[,-7]

change = data[,8]-data[,7]

## Drawing the LM plot

LinkedMicroMap(dat, dat.var.order=5, graph.type="combine", graph.combine.

order="td", ts.graph.num=5, dot.graph.num=2, ts.start=2008, ts.points=T,

connected.line=c(F,T), uci.line=c(T,F), ... )

<표 4.2>는 <그림 4.3>의 연결형 마이크로맵 도표 작성을 한 R 코드이다. 첫

번째 단계에서 LinkedMicroMap() 함수를 이용하기 해 이 함수가 정의되어 있는

일을 호출한다. 이 함수에는 연결형 마이크로맵 도표를 작성하기 한 요소들이 정의

되어 있다. 두 번째 단계는 연결형 마이크로맵 도표 작성을 한 데이터를 가져온다.

세 번째 단계에서 LinkedMicroMap() 함수를 호출하여 표 하고자 하는 연결형 마이

크로맵 도표를 생성한다.

5. 결론

국가통계를 포함하여 재 작성되고 있는 통계 데이터의 부분은 행정구역 는

지리 인 정보를 포함하고 있다. 그러나 이러한 데이터를 막 도표, 원도표 등과 같은

통 인 통계그래 와 단계구분도, 지도 등과 같은 단순한 형태의 통계지도를 이

용하여 표 함으로서 데이터가 가지고 있는 정보를 효과 으로 표 하지 못하는 경우

가 많다. 이러한 단 을 보완하기 한 하나의 안은 마이크로맵을 활용하는 것이다.

본 연구에서는 데이터 시각화 방법인 연결형 마이크로맵 도표와 우리나라 지도를

마이크로맵으로 제작하는 방법에 해 소개하 다. 한, 연결형 마이크로맵 도표를

이용하여 우리나라 16개 역시도에 한 통계정보를 표 할 수 있는 모듈을 개발하

다. 연결형 마이크로맵 도표는 지리 정보와 함께 2개 이상의 변수를 동시에 제시

함으로써 데이터가 갖는 정보를 효과 으로 시각화 할 수 있고, 데이터 변환에 따른

정보의 손실을 방지할 수 있다. 한 재 일반 으로 사용하고 있는 표, 그래 , 통

계지도 등에서 표 하기 어려운 변수사이의 련성, 지역별 비교, 지리 패턴 등을

쉽게 악할 수 있는 장 을 가지고 있다. 본 연구의 결과는 사용자들이 손쉽게 마이

크로맵을 활용하여 통계정보를 표 할 수 있는 편리성을 제공해주고 일반 사용자들의

통계 데이터에 한 이해를 도울 수 있을 것으로 기 하며, 제 로그램 코드는

Page 12: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

122 박세진 ‧ 안정용

자의 블로그(http://stat_park.blog.me)에서 내려받기 할 수 있다.

연결형 마이크로맵 도표의 활용성을 확장하기 하여 향후 다음과 같은 연구가 더

필요할 것으로 생각된다. 첫째, 재 개발된 모듈은 통계정보 패 에 도표와 시계열

도표만을 표 할 수 있으므로 이를 막 도표, 원도표, 상자도표 등 다양한 형태의 그

래 를 표 할 수 있도록 확장하여야 한다. 둘째, 사용자의 편의에 맞게 패 의 순서

를 자유롭게 조 가능하도록 확장할 필요가 있다.

(2013년 8월 6일 수, 2013년 9월 7일 수정, 2013년 9월 28일 채택)

감사의 글

이 논문은 2012년도 정부(교육과학기술부)의 재원으로 한국연구재단의 지원을 받

아 수행된 기 연구사업임(NRF-2012R1A1A4A01002729).

Page 13: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

연결형 마이크로맵 도표를 활용한 데이터 시각화 123

부록

<표 A.1> R code: LinkedMicroMap()

LinkedMicroMap = function(data, dat.decreasing=TRUE, dat.var.order=1,

graph.col=NULL, graph.bg="lavender", graph.pch=1, graph.xlab="",

graph.xlab.cex=1, graph.xlab.font=NA, graph.xlab.col=1, ...)

{

## Creating the push function for data handling

push = function(vec, item) {

vec=substitute(vec)

...

}

## Checking and Setting the parameters

if(is.null(graph.col)) graph.col=c("tomato", "#FFC000", ...)

## Setting the confidence interval options.

if(length(ci) == dot.graph.num) {

...

} else if(length(ci) == 1) {

...

}

## Setting the layout

if(is.null(layout.widths)) {

layout.widths = c(.3,.7,1,rep(1, dot.graph.num),.3)

if(graph.type=="ts") layout.widths = c(.3, 0.71, 0.957, 2.872, .5)

if(graph.type=="combine") {

if(graph.combine.order=="dt") layout.widths = c(.3, .7, 1,

rep(1,dot.graph.num), 2, .35)

if(graph.combine.order=="td") layout.widths = c(.3, .7, 1, 2,

rep(1,dot.graph.num), .35)

}

} else {

layout.widths = c(.3,layout.widths,.3)

}

...

## Creating the layout

layout(matrix(layout_dat, nrow=row_num, byrow = T), widths=layout.widths,

heights=layout.heights)

Page 14: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

124 박세진 ‧ 안정용

## Reading the map boundary data

de1 <- read.table("modified Korea16pov_ung.txt", sep="\t", header=T)

de2 <- read.table("Koreapov_boundary_ung.txt", sep=",", header=T)

## Function for plotting time series plot

ts.panel = function(dat_value, ...) {

...

}

## Function for plotting dot plot

dot.panel = function(dat_value, dot.graph.num, ...) {

...

}

## Default plot for LM

default = expression(plot(0,0,xlim=c(0,1),ylim=c(0,1),type="n",

bty="n",xaxt="n",yaxt="n",xlab="",ylab=""))

## Plotting the Linked MicroMap

for (i in 1:4) {

## compute colors, plot map (column 1)

par(mex = 0.5, mar = rep(.1,4))

m.col = c()

...

## plot labels (column 2)

...

## dot plot

if(graph.type=="ts") ts.panel(dat_value)

...

## plot labels

if(graph.type=="dot") label.num = dot.graph.num

...

## separate line

if(i==2 && median.line==TRUE) {

eval(default)

abline(h=.5,lwd=3,col=graph.col[5])

}

}

}

Page 15: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

연결형 마이크로맵 도표를 활용한 데이터 시각화 125

참고문헌

노희방 (1992). 컴퓨터에 의한 Choropleth Map 제작, <지리교육논집>, 27, 16-30.

박세진 (2013). 연결형 마이크로맵을 활용한 통계정보 시각화, 석사학 논문, 북 학

교.

이종용, 안종천, 조성호 (2006). 디지털국토통계지도 시스템 개선에 한 연구, <한국

지리정보학회지>, 9, 60-70.

조 정 (2000). 단계구분도의 색채배열에 한 연구, <지리학논총>, 36, 125-151.

Ahn, J.Y. (2013). Linked micromaps for the visualization of geographically

referenced data, Proceedings of Joint Meeting of the IASC Satellite

Conference and the 8th Conference of the Asian Regional Section of the

IASC, 219-221.

Armstrong, M.P., Xiao, N. and Bennett, D.A. (2004). Using genetic algorithms to

create multicriteria class intervals for choropleth maps, Annals of the

Association of American Geographers, 93, 595-623.

Carr, D.B., Olsen, A.R., Courbois, J.P., Pierson, S.M. and Carr, D.A. (1998). Linked

micromap plots: named and described, Statistical Computing and

Graphics Newsletter, 9, 24-32.

Carr, D.B., Olsen, A.R., Pierson, S.M., and Courbois, J.P. (2000). Using linked

micromap plots to characterize omernik ecoregions, Data Mining and

Knowledge Discovery, 4, 43-67.

Carr, D.B. and Pierson, J. (2013). Package ‘micromapST’, http://cran.r-project.org/

web/ packages/micromapST/micromapST.pdf.

Carr, D.B. and Pickle, L.W. (2010). Visualizing data patterns with micromaps,

Chapman & Hall/CRC, FL.

Carr, D.B. and Pierson, S.M. (1996). Emphasizing statistical summaries and

showing spatial context with micromaps, Statistical Computing and

Statistical Graphics Newsletter, 7, 16-23.

Cromley, R.G. and Cromley, E.K. (2009). Choropleth map legend design for

visualizing community health disparities, International Health

Geographics, 8, 52.

Dent, B.D. (1993). Cartography: Thematic map design (Third Edition), William C.

Brown, Dubuque, IA.

Friendly, M. (2008). The golden age of statistical graphics, Statistical Science, 23,

502-535.

Fu, J. and Zhang, Y. (2012). Visualizing spatial data using SAS and Google static

maps, Proceedings of the SAS Global Forum, http://support.sas.com/

resources/papers/proceedings12/266-2012.pdf

Gebreab, S.Y., Gillies, R.R., Munger, R.G. and Symanzik, J. (2008). Visualization

Page 16: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

126 박세진 ‧ 안정용

and interpretation of birth defects data using linked micromap plots,

Birth Defects Research (Part A): Clinical and Molecular Teratology,

82, 110-119.

Han, K.S., Park, S.J., Mun, G.S., Choi, S.H., Symanzik, J., Gebreab, S. and Ahn,

J.Y. (2014). Linked micromaps for the visualization of geographically

referenced data, ICIC Express Letters, 8, accepted.

Harris, R.L. (1999). Information graphics: A comprehensive illustrated reference,

Oxford University Press, New York.

Monmonier, M. (1993). Mapping it out: Expository cartography for the humanities

and social sciences, University of Chicago Press, Chicago

Murray, A.T. and Shyy, T.K. (2000). Integrating attribute and space characteristics

in choropleth display and spatial data mining, International Journal of

Geographical Information Science, 14, 649-667.

Olsen, A.R., Carr, D.B., Courbois, J.P. and Pierson, S.M. (1996). Presentation of

data in linked attribute and geographic space, Proceedings of the Joint

Statistical Meetings, American Statistical Association, 271.

Payton, Q. and Olsen, T. (2013). Package ‘micromap’, http://cran.r-project.org/web/

packages/micromap/micromap.pdf

Robinson, A., Sale, R. and Morrison, J. (1978). Elements of cartography (Fourth

Edition), John Wiley and Sons, New York.

Symanzik, J. and Carr, D.B. (2008). Interactive linked micromap plots for the

display of geographically referenced statistical data, in C. Chen, W.

Hardle & A. Unwin, eds, Handbook of Data Visualization, Springer,

Berlin, 267-294.

Wright, J.K. (1938). Notes on statistical mapping, with special reference to the

mapping of population phenomena, Population Association of America,

Washington.

Page 17: 연결형 마이크로맵 도표를 활용한 데이터 시각화1)kostat.go.kr/file_total/18-2-06.pdf · 도 위주로 통계지도가 이용되고 있으며, 미국을 제외한

연결형 마이크로맵 도표를 활용한 데이터 시각화 127

Visualizing Statistical Data using Linked Micromap Plots

Sejin Park1) ․ Jeongyong Ahn2)

Abstract

Statistical graphics and techniques for data visualization are critical elements of modern data analysis. From initial exploration of a dataset to the final presentation of results to the end user, data visualizations play a vital role in shaping our understanding of data and many types of statistical maps are recently used for representation of geographically referenced data. In this study, we introduce the micromap and design linked micromap plots. First, we introduce the method to construct micromap using the map of South Korea with 16 regional local governments. Second, we develop some R modules to visualize statistical information of geographically referenced data using the linked micromap plots.

Key words : Data visualization, Linked micromap plots, R modules, Statistical maps

1) Graduate Student, Dept. of Statistics, Chonbuk National University, 567 Baekje-daero,

Deokjin-gu, Jeonju-si, Jeollabuk-do 561-756, Korea. E-mail: [email protected]

2) (Corresponding author) Professor, Dept. of Statistics (Institute of Applied Statistics),

Chonbuk National University, 567 Baekje-daero, Deokjin-gu, Jeonju-si, Jeollabuk-do

561-756, Korea. E-mail: [email protected]