공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과...

26
공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표* 1 < 요 약 > 본 논문에서는 매년 증가하고 있는 업무상질병자의 분석을 위해 지역간의 상관관계를 고려한 공간 군집화(spatial clustering) 방법을 이용하여 통계분석을 실시하고자 한다. 공간검색통계량(spatial scan statistic) 과 베이지안 합성곱 모델(Bayesian convolution model)을 이용하여 질병지도(disease mapping)를 작성하고, 이 질 병지도의 객관적인 해석을 위해 에셜론 분석(echelon analysis) 실시하였다. 이 에셜론 분석을 통해 핫스팟(hotspot)지역을 찾아 내고, 이의 결과와 공간검색통계량의 결과를 비교 분석하고 그 원 인에 대해 알아보고자 한다. Keywords : spatial scan statistic, echelon analysis, disease mapping, convolution model * 일본 오카야마대학 대학원 자연과학연구과 통계전공(박사과정)

Upload: others

Post on 27-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

공간 군집화 방법과 에셜론 분석을 이용한

핫스팟 지역의 발견

홍 한 표*1

< 요 약 >

본 논문에서는 매년 증가하고 있는 업무상질병자의 분석을 위해

지역간의 상관관계를 고려한 공간 군집화(spatial clustering)방법을

이용하여 통계분석을 실시하고자 한다. 공간검색통계량(spatial

scan statistic)과 베이지안 합성곱 모델(Bayesian convolution

model)을 이용하여 질병지도(disease mapping)를 작성하고, 이 질

병지도의 객관적인 해석을 위해 에셜론 분석(echelon analysis)을

실시하였다. 이 에셜론 분석을 통해 핫스팟(hotspot) 지역을 찾아

내고, 이의 결과와 공간검색통계량의 결과를 비교 분석하고 그 원

인에 대해 알아보고자 한다.

Keywords : spatial scan statistic, echelon analysis,

disease mapping, convolution model

* 일본 오카야마대학 대학원 자연과학연구과 통계전공(박사과정)

Page 2: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 1 -

Ⅰ. 서론

산업재해(industrial accidents)란 고용으로 인한 또는 고용중에

발생한 재해로서 작업중에 발생한 사고를 근로재해 또는 산업재해

라 하고, 작업성상해란 근로재해로 인한 사망, 상해 그리고 유해한

물질 및 환경등에 노출되어 얻는 질병을 일컫는다. 이러한 산업재

해는 업무상사고(occupational accident)와 업무상질병(occupational

disease, 직업병)으로 분류할 수 있다. 급속한 산업화와 생산기술의

급격한 변화로 인해 산업재해자들도 증가하게 되었고, 우리나라의

경우 꾸준히 증가하던 재해자는 1984년의 157,800명을 정점으로 하

여 줄기 시작하였지만, 1999년부터는 다시 증가하는 현상을 보이고

있다. 그 원인으로 업무상질병자들의 증가가 두드러지며, 그중 스

트레스 등 이로 인한 뇌혈관 및 심장관련 질환자들의 증가는 심각

한 사회적 문제로 대두되기도 하였다. 하지만, 산업재해와 관련된

통계적 분석은 아주 기초적인 통계자료만 산출되고 있고, 구체적인

원인분석 및 이의 예방을 위한 자료로 활용될 만한 통계분석은 실

시되지 못하고 있다.

이에 대한 대안으로 질병지도(disease mapping)의 작성과 이를

통한 공간군집(spatial cluster)의 발견을 생각해 볼 수 있다. 질병

도(disease map)는 질병의 지리적 분포를 설명하거나, 가설의 설정,

질병율이 특히 높은 지역에 대한 감시, 보건정책의 수립시 보조자

료 활용 및 보건자원의 할당 등에 이용되며, 공간역학(spatial

epidemiology)분야에서는 매우 중요한 방법중의 하나이다.

본 논문에서는 공간 군집화(spatial clustering)방법을 이용하여

전국 지역 중 통계적으로 업무상질병 이환율이 높은 지역 또는 군

집(cluster)을 찾아내고, 베이지안 합성곱 모델(Bayesian

Page 3: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 2 -

convolution model)을 이용하여 각 지역의 표준화 상대 위험율

(SMR; standardized relative risk)과 이의 사후확률(posterior

probability)을 추정하고자 한다. 또한 이렇게 추정된 표준화 상대

위험율과 사후확률을 이용하여 질병도를 작성하고, 이의 객관적인

해석을 위해 에셜론 분석(echelon analysis)을 통해 핫스팟(hotspot)

지역을 찾아내고 이의 결과와 공간검색통계량의 결과를 비교 분

석하고자 한다.

Ⅱ. 공간검색통계량(spatial scan statistic)

공간통계학에서의 일반적인 관심사항은 일련의 점(point)들이 랜

덤(random)하게 분포되어 있느냐, 아니면 일정한 군집(cluster)성을

가지고 있느냐는 것이다. 이러한 군집의 위치를 찾아내고자 하는

경우에 사용할 수 있는 방법이 바로 공간 검색 통계량(spatial scan

statistic)이다.

이러한 공간 검색 통계량은 지도위에 둥근 원(circular window)

으로 정의되며, 우도비(likelihood ratio)에 기초하여 둥근 원이 관심

지역을 움직이며 이에 기초한 통계적 작업을 수행하여 귀무가설

가정하에서의 결과와 비교하여, 귀무가설을 기각하는 경우에는 군

집(cluster)을 발견하게 된다.

전체지역을 G라하고, 그 중 하나의 지역을 Z라고 하자. Z지역

안에 일련의 점들이 포함될 확률을 p라하고, 반면에 Z지역 밖의

점들이 포함될 확률을 q라하고, 이때 각각의 점들은 서로 독립이

다.

따라서, 귀무가설은 H 0 : p =q 이고, 대립가설은 H1 : p>q 라

Page 4: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 3 -

고 할 수 있다. 전체지역 G의 모집단(population)을 n(G)라 하고,

Z지역의 모집단를 n(Z)라 하자. 전체지역 G의 일련의 속성의 전

체 갯수를 c(G)라 하고, Z 지역의 일련의 속성의 개수를 c(Z)라

하자.

1. 베르누이 모형(Bernoulli model)

베르누이모형(Bernoulli model)에 대한 우도함수(likelihood func-

tion)는 다음과 같이 표현할 수 있다.

L (Z,p ,q )= p c ( Z )( 1-p) n( Z )- c (Z )q n( G ) - n (Z )(1-q ) ( n( G ) - n (G ))- (c ( G )-c (Z ))

<수식 1>

군집이 될 가능성이 큰 지역을 찾아내기 위해서는 이 우도함수

를 최대화하는 Z을 구해야 한다.

=( c ( Z )n( Z )

) c(Z ) (1- c (Z )n(Z )

)n (Z )- c(Z )

×((c ( G) -c ( Z ) )(n( G) -n( Z ) )

) (c(G ) -c(Z ))(1-( c (G )-c (Z ) )( n(G )-n(Z ) )

) ( (n (G )- n (Z ) )-(c(G )-c(Z ))

<수식 2>

<수식 3>

위의 <수식 2>, <수식 3>을 이용하여 우도비λ 를 다음과 같이

표현할 수 있다.

Page 5: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 4 -

<수식 4>

<수식 4>의 우도비 λ는 검정통계량(test statistic)으로 사용되며,

몬테카를로(Monte Carlo)에 기초한 시뮬레이션 방법에 의해 p-값(

p-value)을 계산하였다.

2. 포아송 모형(Poisson model)

포아송 모형(Poisson model)에 대한 우도함수(likelihood function

)는 다음과 같이 표현할 수 있다.

<수식 5>

군집이 될 가능성이 큰 지역을 찾아내기 위해서는 이 우도함수

를 최대화하는 Z을 구해야 한다.

<수식 6>

Page 6: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 5 -

우도함수는 p =n (Z)/c(Z)이고, q =(n (G )-n( Z ) ) / (c (G ) -c (Z ) )일

때 최대값을 갖는다. 따라서,

<수식 7>

이 된다..

위의 수식으로부터 우도비 λ는 다음과 같이 표현할 수 있다.

<수식 8>

3. 몬테카를로 가설검정(Monte Carlo hypothesis testing)

검정통계량을 계산하기 위하여는 우도비를 계산할 수 있는 방법

이 필요하다. 하지만, 검정통계량의 분포를 찾아내 계산한다는 것

은 매우 힘들기 때문에, 그 대안으로 몬테카를로 시뮬레이션방법을

사용하게 된다.

Kulldorff(1997)는 몬테카를로(Monte Carlo)에 기초하여 다음과

Page 7: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 6 -

같은 과정을 거치는 시뮬레이션 방법을 제안하였다.

1) 실제 데이터로부터 검정통계량을 계산한다.

2) 귀무가설하에서 랜덤 데이터셋을 만든다.

3) 이러한 각각의 랜덤 반복 데이터셋으로부터 검정통계량을 계산

한다.

4) 1)과 3)으로부터 나온 검정통계량을 정렬하여 이것이 상위 α

퍼센트에 랭크(rank)되는 경우에, 유의수준 α퍼센트 하에서 귀무가

설을 기각하게 된다.

Ⅲ. 베이지안 합성곱 모델(bayesian convolution model)

컴퓨터의 급속한 발전, 지리정보시스템(GIS, Geographical

information system)의 등장, 통계학의 발전은 질병위험도(disease

risk)의 공간변동(spatial variation)에 대한 실질적인 연구를 가능하

게 해주었다.

질병지도(disease mapping)란 어떤 질병의 발생이 지역에 있어

어떻게 이동하는가를 지도상에 표현하는 것을 말하며, 역학

(epidemiology) 분야에 있어서는 매우 긴 역사를 가지고 있으며, 이

러한 질병지도의 작성은 공간역학분야에 있어 매우 중요한 방법중

의 하나이다. 일반적으로 질병도 작성시 사용되는 통계량으로 표준

화 위험율(SMR; standardized mortality ratio)이라는 것이 있다.

i 지역의 관측치를 Y i , 예측치를 E i 라고 했을 때, SMR은

Y i/E i 로 정의된다. 이 추정량의 분산은 E - 1i 에 비례하므로, 인구

(population)가 작은 지역에 있어서 높은 샘플링 변동(sampling

Page 8: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 7 -

variablity)을 가지게 된다. 따라서, 이러한 문제점을 해결하기 위해

일반적으로 평활화(smoothing)기법을 사용하게 된다. 여러 가지 평

활화 기법이 존재 하지만, 본 논문에서는 베이지안 합성곱 모형

(Bayesian convolution model)을 사용하였다.

역학분야에 있어서 주요 목적은 공간 상관된 오차(error)와 측정

치의 과대산포(over-dispersion)를 고려하여 상대위험율(relative

risk)의 패턴을 예측하는 것이다. 포아송 분포에 기초한 전통적인

방법은 이러한 질병 위험율이 지역마다 일정하며 지역의 개인마다

일정하다는 가정을 한다. 사실상, 개인 위험율은 지역안에서도 모

두 다르며, 지역마다 다르기 때문에 이런한 관측치들은 모두 큰 변

동을 갖게된다. 이러한 변동을 하나 혹은 그 이상의 임의효과

(random effect)로서 표현이 가능하다.

i 지역으로부터 관측된 값을 O i , 예측된 값을 E i 라 하면, 다음

과 같은 모형을 가정할 수 있다.

O i ∼ Poi(E iθ i) <수식 9>

여기서 θi 는 i 지역의 상대 위험율(relative risk)이다.

추정된 θi 는 SMR의 최대우도추정량인 θ i =O i/E i과 같다. 하

지만, 이는 relative risk의 추정량처럼 불안정하다. 왜냐하면 SMR

지도는 O i의 값이 작거나, 모집단(population)이 작은 경우에 왜곡

되는 경향이 있다. 작은 변동(small change)이라도 SMR에서는 큰

이동(shift)을 만들어 낸다. 이러한 것을 해결하기 위해서 다음과

같은 모형을 생각할 수 있으며, 합성곱 모형(convolution model)이

라고 부르며 다음과 같이 표현할 수 있다.

Page 9: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 8 -

log (θ i) =α+H i+S i

H i ∼ Normal (0, v)

S i |S j, j≠ i ∼Normal (m i, v i) <수식 10>

여기서, m i =∑j∈∂ i

W ijs j

∑j∈∂ i

W ij

이고, v i =v *

∑j∈∂ i

W i j

, ∂i는 i지역과 인접

하는 지역의 집합이다.

Ⅳ. 에셜론 분석(echelon analysis)

에셜론분석(Myers et al. 1997)은 공간상에 분류된 지도상의 1변

량 데이터에 대해 공간적 위치를 표면상의 데이터 고저(高低)를 바

탕으로 분할, 공간 데이터의 위상적(topological) 구조 및 변화를 계

통적(hierarchical)이고 객관적으로 발견하기 위해서 개발된 해석법

이다. 이러한 데이터의 계층적 구조나 원형데이터의 위상적 표면의

변화를 나타내기 위해 에셜론 덴드로그램(echelon dendrogram)을

이용한다. 핫스팟(hotspot)으로 간주할 수 있는 여러개의 지역들은

에셜론 덴드로그램상에서 피크(peak)로 표현된다.

1. 데이터 고저가 1차원적인 수평 위치인 경우

데이터 고저가 1차원적인 수평위치로 주어졌을 경우, 공간(수평)

위치 x에서의 데이터 값을 h 라고 하면 데이터는 (x, h) 로 표시된

다. <그림 1>과 같이 공간데이터가 있을 경우, 위상적으로 동일한

9개의 계급으로 나눌 수가 있다.

Page 10: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 9 -

<그림 1> 공간데이터의 동일 위상 영역으로의 분할

9

8

75

6

1

2

34

이들 계급을 각각 에셜론(echelon)이라 하며, <그림 1>에 주어진

번호가 에셜론 번호(echelon number)이다. 에셜론 1부터 5를 피크

(peak)라 하며 1차 에셜론 이라고도 한다. 에셜론 6은 2개의 피크

를 연결하는 파운데이션(foundation)이며, 2차 echelon이라고 한다.

마찬가지로, 에셜론 7은 1차 에셜론 3과 4의 파운데이션이며 2차

에셜론이다. 에셜론 8은 2개 이상의 2차 에셜론 6과 7의 파운데이

션이며 3차 에셜론이라 부른다. 에셜론 9는 에셜론 5와 8의 파운데

이션이지만, 에셜론 8은 3차 에셜론 5는 1차 에셜론 이므로 에셜론

차수는 3차이다. 에셜론 9는 루트(root)라고도 한다.

<그림 1>을 단순화 하여 <그림 2>와 같이 표현할 수 있으며 이

를 에셜론 덴드로그램(dendrogram)이라 한다.

<그림 2> 에셜론 덴드로그램

1

A

A

A

AA

BB

B

B

B

6

B

BB

2

A

A

AA

3

A

A

A

A

4

A

A

A

7 5A

A

A

A

A

C

CC

8

C

C

C

C

9

Page 11: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 10 -

2. 데이터 고저가 간단한 구조인 2차원 공간인 경우

데이터 고저가 2차원 공간에 주어진 경우, 공간의 위치 (x, y )

에 있어서의 데이터 값을 h 라 하면, 데이터는 (x, y, h) 로 표현할

수 있다. 일반적으로 지형도와 같이 데이터 고저가 비교적 간단한

구조로 주어지는 경우, 이들 세 변수간에는 h =f( x, y ) 의 관계가

성립한다. <그림 3>과 같은 2차원 공간상의 지형도를 고려해 보

자.

<그림 3> 2차원 공간상의 지형도

이 지형도에서는, 베이스 9 위에 작은 피크 5와 큰 파운데이션 8

이 있으며, 파운데이션 8 위에는 두 개의 파운데이션 6과 7이 있

다. 또한, 파운데이션 6 위에는 2개의 피크 1과 2, 파운데이션 7 위

에는 2개의 피크 3과 4가 있다. 피크 1부터 5는 번호순으로 값이

작으며(descending order), 파운데이션 6이 7보다 값이 클 경우, <

그림 2>와 같이 표현할 수 있다.

Page 12: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 11 -

3. 데이터 고저가 2차원 공간의 배열 상에 주어진 경우

인공위성등을 통해 얻어진 원격탐사(remote sensing) 데이터와

같이 데이터의 고저(高低)가 n×m 배열상의

D ij = { (x, y) x i- 1<x<x i , y j - 1<y<y j },

i = 1 , 2 , , n , j = 1, 2 , , m 의 계수값 h 로 주어지는 공간 데

이터인 경우, 데이터는 ( i, j, h ) 로 나타낸다. 이와 같은 공간 데이

터의 경우 이들 세 변수의 관계를 나타내는 함수 h = f ( i, j) 는 이

산적(discrete)이며 복잡한 함수가 되어 구조도 복잡하게 된다. 그

림 4-1과 같은 5×5 배열상의 데이터가 주어질 때, 아래와 같은 방

법으로 echelon 분석이 진행된다.

<그림 4> 5×5 배열상의 데이터

2 24 8 15 3

1 0 1 1 4 22 5

4 13 1 9 23 2 5

2 0 21 1 2 11 1 7

1 6 6 9 18 7

2 24 8 15 3

1 0 1 1 4 22 5

4 13 1 9 23 2 5

2 0 21 1 2 11 1 7

1 6 6 9 18 7

1) 피크(peak)의 발견

피크에 속하는 데이터 값은 동일한 피크에 속하는 데이터 이외의

인접하는 데이터 값보다 크다. <그림 4>의 데이터에 있어서는 4개

의 피크가 있다.

(1) 제1피크

최대값은 25이다. 우선, 25는 제1피크에 포함된다. 25에 인접하는

Page 13: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 12 -

데이터 중에서 최대값은 23으로, 23은 (25, 23)에 인접하는 데이터

보다 크므로 제 1피크에 포함된다. (25, 23)에 인접하는 데이터 중

에서 최대값은 22로, 22는 (25, 23, 22)에 인접하는 데이터보다 크

므로 22도 제 1피크에 포함된다. (25, 23, 22)에 인접하는 데이터

중에서 최대값은 19이다. 하지만 19는 (25, 23, 22, 19)에 인접하는

21보다 작으므로 제1피크에 속하지 않는다. 따라서 제1피크는 데이

터 25, 23, 22에 의해 구성되며, 에셜론 번호는 1이다. 이들 데이터

는 동일한 피크 이외의 인접하는 데이터보다 크다.

(2) 제2피크 이후

제1피크를 제외한 데이터 중에서 최대값은 24이다. 이 24는 제2

피크에 포함된다. 24에 인접하는 데이터 중에서 최대값은 14이지만

인접하는 23보다 작기 때문에 제2피크에 속하지 않는다. 그러므로

제 2피크는 24에 의해서만 구성된다. 동일한 순서에 의해 제 3피크

는 21, 20, 제 4피크는 18에 의해 구성된다.

2) foundation의 발견

(1) 제1파운데이션

4개 피크에 포함되는 데이터를 제외한 최대값은 19이다. 19는 제

1 피크와 제 3피크의 파운데이션이며 에셜론 번호는 5가 된다. 에

셜론 번호 1, 3, 5에 인접하는 데이터 중 최대값은 17이다. 그러나

17은 제 4피크의 18보다 작으므로 17은 에셜론 5에 속하지 않는다

에셜론 5는 에셜론 1과 에셜론 3의 부모(parent)이며 이 관계는 에

셜론 번호를 이용해서 5(1 3)로 표시된다. 이후 파운데이션을 찾게

되면 에셜론 1과 에셜론 3은 사용되지 않고 에셜론 5를 이용한다.

Page 14: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 13 -

(2) 제2파운데이션

에셜론 1부터 5에 포함되는 데이터를 제외한 최대값은 17이다.

17은 에셜론 5와 에셜론 4의 파운데이션이며 에셜론 6이다. 에셜론

6은 에셜론 5와 에셜론 4의 부모(parent)가 되며 6(5(1 3)4)이다.

에셜론 1부터 6에 포함되는 데이터를 제외한 최대값은 16이다. 이

16은 에셜론 1, 3, 4, 5, 6에 인접하는 데이터보다 크므로 에셜론 6

에 속한다. 에셜론 1부터 6(단, 16은 에셜론 6에 포함된다)에 포함

되는 데이터를 제외한 최대값은 15이다. 이 15도 에셜론 6에 속한

다. 에셜론 1부터 6(단, 16, 15는 에셜론 6에 포함된다)에 포함되는

데이터를 제외한 최대값은 14이다. 그렇지만 14는 (에셜론 1, 3, 4,

5, 6)에 인접하는 데이터의 제2피크의 24보다 작으므로 14는 에셜

론 6에는 속하지 않는다.

(3) 제3파운데이션(root)

에셜론 1부터 6에 포함되는 데이터를 제외한 최대값은 14이다.

14는 에셜론 2와 에셜론 6의 파운데이션이며 에셜론 7이다. 에셜론

7은 에셜론 2와 에셜론 6의 부모(parent)가 되며 7(2 6(5(1 3)4))이

된다.

(4) 루트(root)

에셜론 1부터 6에 포함되지 않는 13이하의 데이터는 루트가 된

다.

이상에 의해서 이 5×5 배열 데이터의 구조는 <그림 5>와 같이

에셜론 덴드로그램으로 재표현할 수 있다.

Page 15: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 14 -

<그림 5> 5×5 데이터의 에셜론 덴드로그램

1AAAA

AA

2

AAAAAAA

AAA

2 42 5

2 32 2 3

A

A

2 1

2 0BB

1 9 4A 1 8

BBB

1 71 61 5

BB...

B

1 41 3...

1

( 7 )

( 5 )

( 6 )

Ⅴ. 데이터 분석

1999년 한해 전국에서 발생한 업무상질병자는 총 1,521명이며,

이중 뇌혈관 및 심장관련 질환자는 952명, 소음성난청은 201명 발

생하여 총 업무상질병자의 75.8%를 차지하고 있다.

분석을 위해 <표 1>과 같이 우리나라 지역을 46개 지역으로 구

분하였고, 구분기준은 노동부의 지방노동사무소 기준으로 구분하였

다.

Page 16: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 15 -

<표 1> 지역별 업무상 질병자수

ID 지 역 근로자수뇌혈관

심장질환

소음성

난청ID 지역 근로자수

뇌혈관

심장질환

소음성

난청

1 서울청 506,787 87 1 24 원주 55,270 1 0

2 서울동부 326,534 42 0 25 청주 188,521 12 0

3 서울북부 263,752 20 0 26 충주 83,813 10 0

4 서울남부 350,696 30 1 27 대전청 319,661 30 1

5 서울관악 254,959 19 2 28 천안 161,700 14 2

6 서울서부 283,672 40 0 29 보령 90,494 5 2

7 서울강남 604,334 43 0 30 전주 168,620 22 0

8 부산청 428,773 54 16 31 군산 56,183 5 0

9 부산동래 202,859 16 5 32 익산 75,816 6 0

10 부산북부 139,454 2 3 33 광주청 329,271 24 11

11 제주 102,792 0 0 34 목포 101,905 0 3

12 인천 267,448 24 18 35 여수 148,102 5 0

13 부천 191,155 30 10 36 대구청 348,710 16 5

14 수원 461,410 50 1 37 포항 161,561 16 9

15 의정부 334,113 58 1 38 영주 42,006 3 0

16 성남 255,848 54 1 39 구미 131,861 1 1

17 안양 232,763 27 8 40 안동 40,653 6 0

18 안산 233,411 25 5 41 대구남부 241,043 23 4

19 인천북부 217,825 21 14 42 창원 280,576 23 19

20 춘천 64,394 10 0 43 진주 111,753 2 0

21 태백 22,111 1 2 44 울산 247,255 30 34

22 영월 20,010 0 4 45 통영 82,676 12 15

23 강릉 80,831 18 0 46 양산 150,206 15 3

Page 17: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 16 -

1. 공간검색통계량(spatial scan statistic)

본 논문에서는 포아송 모형을 가정하여 분석을 실시하였으며, 분

석 프로그램으로는 SaTScan이라는 소프트웨어를 사용하였다.

<그림 5> 공간 검색 통계량을 이용한 분석결과

(a) 뇌혈관 및 심장관련 질환자 (b) 소음성 난청 질환자

뇌혈관 심장관련 질환자의 경우 20(춘천), 24(원주), 16(성남), 23

(강릉), 22(영월), 15(의정부), 26(충주), 3(서울북부), 2(서울동부),

7(서울강남), 1(서울청), 6(서울서부), 17(안양)이 군집 A를 구성하

고 있다. 군집 A의 로그 우도비(log likelihood ratio)는 21.416이며,

p-value는 0.0001이다. 군집 B는 8(부산청)으로 구성되어 있으며,

로그우도비는 1.33, p-value는 0.99이다.

소음성 난청의 경우 군집 A는 10(부산북부), 8(부산청), 9(부산동

래), 46(양산), 42(창원), 44(울산), 45(통영)으로 구성되어 있으며

Page 18: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 17 -

로그 우도비는 52.69, p-value는 0.0001이다. 군집 B는 19(인천북

부), 13(부천), 12(경인청)으로 구성되어 있으며, 로그 우도비는

19.58, p-value는 0.0001이다. 군집 C는 21(태백), 22(영월)로 구성

되어 있으며 로그 우도비는 6.38, p-value는 0.0364이다.

<표 2> 공간 검색 통계량 분석 결과 요약

구 분 군집 Population CasesRelative

riskp-value

뇌 혈 관

심장질환

A 3,112,124 410 1.310 0.0001

B 428,773 54 1.252 0.9929

소음성

난 청

A 1,531,799 95 2.920 0.0001

B 676,428 42 2.923 0.0001

C 42,121 6 6.707 0.0364

D 232,763 8 1.618 0.9999

2. SMR의 추정

다음으로 여기서 계산된 SMR(Standardized mortality ratio)을

이용하여 질병도를 작성하였다.

<그림 6>으로부터 뇌혈관 심장질환자의 경우 남쪽 상단의 지역

들이 비교적 높은 값들을 가지는 것을 알 수 있고, 소음성 난청 질

환자의 경우 <그림 5>와 비슷한 패턴을 보이며, 4개의 군집을 형

성하고 있음을 알 수 있다. 이 질병도의 객관적인 분석을 위해 에

셜론 분석을 실시하였고, 결과는 <그림 7>과 같다..

Page 19: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 18 -

<그림 6> SMR의 최대우도추정량(maximum likelihood estimates)

(a) 뇌혈관 및 심장관련 질환자 (b) 소음성 난청 질환자

뇌혈관 및 심장관련 질환자의 경우 <그림 7> 에셜론 덴드로그

램으로부터 7개의 피크와 6개의 파운데이션으로 구성되어 있음을

알 수 있다. 에셜론 번호 2번은 16(성남), 15(의정부), 1(서울청),

13(부천)으로 구성되어 있으며 에셜론 번호 1번인 23(강릉)을 포함

하여 하나의 군집으로 생각할 수 있다. 에셜론 번호 5번은 30(전

주), 27(대전청), 31(군산)로 구성되어 있으며, 에셜론 번호 7번은

44(울산), 46(양산)으로 구성되어 있다. 즉, 16(성남), 15(의정부), 1

(서울청), 13(부천), 23(강릉)이 하나의 군집을 형성하며, 30(전주),

27(대전청), 31(군산)이 또 하나의 군집을 형성하며, 44(울산), 46(양

Page 20: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 19 -

산)이 하나의 군집을 형성함을 알 수 있다.

<그림 7> 에셜론 덴드로그램

(a) 뇌혈관 및 심장관련 질환자 (b) 소음성 난청 질환자

소음성 난청 질환자의 경우 7개의 피크와 5개의 파운데이션으로

구성되어있다. 에셜론 번호 1번은 46(양산), 42(창원), 45(통영)으로

구성되어 있으며 에셜론 번호 4번인 8(부산청)을 포함하여 하나의

군집으로 생각할 수 있다. 에셜론 번호 2번은 22(영월), 21(태백),

Page 21: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 20 -

37(포항)로 구성되어 있으며, 에셜론 번호 3번은 12(경인청), 19(인

천북부), 13(부천), 17(안양), 18(안산), 5(서울관악), 4(서울남부)으로

구성되어 있다. 에셜론 번호 5번은 33(광주청), 34(목포)로 구성되

어 있고, 에셜론 번호 6번은 29(보령), 28(천안)로 구성되어 있음을

알 수 있다.

3. 공간검색통계량의 로그람다 추정

<그림 8> 공간검색통계량의 로그람다를 이용한 질병도

(a) 뇌혈관 및 심장관련 질환자 (b) 소음성 난청 질환자

Page 22: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 21 -

<그림 8>은 공간검색통계량의 주요 추정량인 로그람다( logλ)를

기초로 하여 그린 질병도이고, ,<그림 9>는 <그림 8>의 에셜론 덴

드로그램이다. <그림 8>과 <그림 9>를 종합해 볼 때 뇌혈관 및

심장질환자의 경우 39(구미), 36(대구청), 43(진주), 35(여수), 25(청

주), 33(광주청), 45(통영), 30(전주)의 지역이 하나의 군집을 형성함

을 알 수 있다. 소음성 난청 질환자의 경우 44(울산), 37(포항)지역

이 하나의 군집을 형성함을 알 수 있고, 45(통영), 42(창원)이 다른

하나의 군집을 형성하며, 12(경인청), 19(인천북부), 4(서울남부)이

또 다른 하나의 군집을 형성함을 알 수 있다.

<그림 9> 에셜론 덴드로 그램

(a) 뇌혈관 및 심장관련 질환자 (b) 소음성 난청 질환자

Page 23: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 22 -

4. 베이지안 합성곱 모델을 이용한 SMR의 추정

다음은 베이지안 합성곱 모델을 이용하여 추정된 SMR을 이용하

여 질병도를 작성하였다.

<그림 10> 베이지안 합성곱 모델에 의해 추정된 SMR

a) 뇌혈관 및 심장관련 질환자 (b) 소음성 난청 질환자

뇌혈관 및 심장관련 질환자, 소음성 난청 질환자의 경우 모두 <

그림 6>과 패턴은 비슷하지만 <그림 6>보다 안정된 모습을 보여

준다.

Page 24: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 23 -

5. 베이지안 합성곱 모델을 이용한 사후확률의 추정

다음은 베이지안 합성곱 모델을 이용하여 추정된 사후확률을 이

용하여 질병도를 작성하였다.

뇌혈관 및 심장관련 질환자, 소음성 난청 질환자의 경우 모두 <

그림 6>보다 쉽게 군집을 확인할 수 있다. 이러한 뇌혈관 및 심장

관련 질환이 발생한 사람들의 대부분이 50대 이상이고, 건물의 종

합 관리업무를 하는 사람들이 많은 것으로 알려져 있다. 따라서,

이러한 사람들이 많은 서울, 경기 지역이 군집으로 발견될 가능성

이 큰 것으로 해석된다. 소음성 난청 질환자의 경우도 부산, 창원,

울산 등 소음이 많이 발생하는 열악한 환경의 군소 제조업체가 집

Page 25: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 24 -

중되어 있는 지역에서 발생할 확률이 큼을 알 수 있다.

Ⅵ. 맺음말

본 논문에서는 업무상질병자에 대해 질병지도(disease mapping)

를 작성하고, 공간 검색통계량(spatial scan statistic)을 이용하여

핫스팟(hotspot)지역을 찾아내고, 이의 통계량과 베이지안 합성곱

모델에 의해 추정된 추정량을 이용하여 질병도를 작성하고, 에셜론

덴드로그램을 통해 핫스팟 지역을 찾아내는 방법에 대해 검토해

보았다.

이렇게 공간 군집화 방법을 이용하면 상대 위험율이 큰 지역을

발견하여 집중적인 예방활동의 기초 자료로의 활용이 가능하다. 일

반적으로 지역의 크기와 모양이 동일한 경우 공간검색통계량

(spatial scan statistic)을 이용하지만, 크기와 모양이 불규칙한 경

우에는 여러 가지 문제점들이 존재하게 된다. 이러한 경우에 각 지

역의 상대 위험율을 추정하고, 에셜론 분석을 통하여 공간 군집을

발견하는 방법은 그 좋은 대안이라고 할 수 있다.

Page 26: 공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 …공간 군집화 방법과 에셜론 분석을 이용한 핫스팟 지역의 발견 홍 한 표*1 < 요 약

- 25 -

참고문헌

홍한표(2000), "통계적 방법을 이용한 산업재해 원인분석", 고려대

학교 대학원 석사학위논문

栗原考次(2001), デ タの科學, 放送大學振興會,日本.

K. Kurihara and H. Hong(2002), "Detection of Hotspots for

Geospatial Data with Echelon analysis based on spatial

scan statistics", proceedings of the 4th ARS conference of

the IASC, 189˜192.

K. Kurihara, W.L. Myers and G.P. Patil (2000), Echelon analysis

of the relationship between population and land cover

pattern based on remote sensing data, COMMUNITY

ECOLOGY, 1(1), 103-122.

Kulldorff M and Nargarwalla N, (1995). Spatial disease clusters

: Detection and inference. Statistics in Medicine 14,

799-810

P. Elliott, et al.(2000), Spatial epidemiology, 104˜127, Oxford

university press

Peter Congdon (2003), Applied Bayesian Modelling : 278˜279,

Wiley, New York.

W.L. Myers and G.P. Patil (2002), Echelon analysis,

Encyclopedia of Environmetrics, Vol. 2, 583-586.

http://minwon.molab.go.kr/html/tel.html (2003. 3. 10)