a gis vector data compression method considering dynamic ... · 제공되는 공간데이터는...

工學碩士學位論文

벡터 데이터의 효율 갱신을 고려한 압축

기법 연구

A GIS Vector Data Compression Method

Considering Dynamic Updates

2005年 8月

仁荷大學校大學院

地理情報工學科

全佑濟

工學碩士學位論文

벡터 데이터의 효율 갱신을 고려한 압축

기법 연구

A GIS Vector Data Compression Method

Considering Dynamic Updates

2005年 8月

指敎授朴修弘

이 論文을 工學碩士學位論文으로 提出함.

仁荷大學校大學院

地理情報工學科

全佑濟

- i -

요지

최근 이동 화, PDA, 텔 매틱스 단말기 등과 같은 모바일 기기의 사용

이 늘어나고 있다. 모바일 기기의 서비스 큰 부분을 차지하는 것으로는

치추 , 경로 탐색 서비스가 있다. 이러한 서비스는 모두 공간데이터의

사용이 필수 이다. 따라서 용량의 공간데이터의 효율 활용을 해 모

바일 기기에 합한 공간데이터 압축 기법이 최근 연구되고 있다.

공간데이터는 주기 이고 부분 인 갱신이 발생하는 특성을 지니고 있다.

하지만 모바일 기기에 갱신을 고려한 압축 기법에 한 연구는 미비하다.

본 연구에서는 모바일 환경에서 공간데이터의 효율 인 갱신에 합한 압

축 기법을 제시하고, 실험을 통해 압축률, 데이터 손실 정도, 정확도를 분석

하고자 하 다.

세부 으로는 압축된 데이터에 수정이 발생했을 때 신속하고, 정확하게

갱신을 반 할 수 있도록 방법을 모색하여 보았다. 시스템 자원이 한정 인

모바일 기기에서 복원이 이루어지므로 복원과정이 단순한 군집화 기법을

이용한 사 기반의 압축 방법을 선정하 으며 갱신된 데이터의 정확도를

높이기 해 퍼지 집합 이론에 근거한 근사화 함수를 사용하 다.

이 게 제시된 공간 데이터에 한 압축 기법을 실제 데이터에 용하여

실험해 본 결과와 기존 연구에서 제시된 방법을 용한 결과를 비교ㆍ분석

하 다. 결과 으로 본 연구에서 제시된 압축 방법이 갱신이 발생했을 경우

정확도 면에서 더 나은 성능을 보이는 것을 확인할 수 있었다.

- ii -

ABSTRACT

Nowadays, many people use mobile devices, such as a cellular phone,

PDA, telematics device. The large parts of the services with these

mobile devices are the position tracking and the route planning work.

These services need to transfer and store spatial data. To improve the

performance and efficiency in mobile environment, there have been

studies to compress huge spatial data.

Generally, spatial data have to be updated periodically even if it is a

small part. However, precedent studies did not take data updates into

account. In this paper, the compression technique, which is efficient in

mobile environment and an update event, is suggested and tested in

terms of compression rate, loss rate, and accuracy.

In detail, it is designed for fast and accurate reflection of the updated

data. Assuming that decompression process has to be performed in the

mobile devices, the compression technique adapts clustering and

dictionary based compression method. To enhance decompression

accuracy, it also uses approximation function which is based on fuzzy

set theory.

After tested and analyzed with precedent compression techniques,

suggested compression technique shows enhanced positional accuracy

when an update event occurs.

- iii -

<제 목차 례>

제 1 장 서 론 ····························································································· 1

1.1 연구배경과 목 ··························································································· 1

1.2 연구동향 ········································································································· 2

1.3 연구내용과 방법 ··························································································· 4

제 2 장 련 이론 연구 ·········································································· 7

2.1 데이터 압축 ··································································································· 7

2.1.1 개요 ·········································································································· 7

2.1.2 무 손실 압축 ·························································································· 8

2.1.3 손실 압축 ································································································ 9

2.2 사 기반의 데이터 압축 ··········································································· 9

2.3 K평균 군집화 기법 ···················································································· 11

2.3.1 군집화 개념 ·························································································· 11

2.3.2 군집화 기법의 종류 ············································································ 13

2.3.3. K평균 군집화 ······················································································ 14

2.4 퍼지 이론 ····································································································· 16

2.4.1 개요 ········································································································ 17

2.4.2 퍼지 집합 ······························································································ 18

2.4.3 퍼지 집합의 특성 ················································································ 19

2.4.4 퍼지 집합의 표 ················································································ 21

제 3 장 갱신을 고려한 벡터 데이터 압축 방 법의 설계와 구 22

3.1 갱신 고려의 필요성 ··················································································· 22

3.2 벡터데이터 압축 과정 ··············································································· 24

3.3 벡터 데이터 변환 ······················································································· 25

3.3.1 데이터 모델 선정 ················································································ 25

3.3.2 디퍼런셜 벡터 추출 ············································································ 26

- iv -

3.3.3 길이와 각도 분리 ················································································ 28

3.3.4 객체 시작 장 ················································································ 29

3.4 K평균 군집화 기법을 용한 사 제작 ·············································· 30

3.4.1 K평균 군집화 기법 선정 배경 ························································· 30

3.4.2 사 제작 ······························································································ 31

3.5 근사화 요소의 결정 ··················································································· 32

3.5.1 근사화 함수 ·························································································· 33

3.5.2 근사화 과정 ·························································································· 35

3.6 벡터 데이터 압축 알고리듬 ····································································· 37

3.7 압축 데이터 재구성 ··················································································· 38

제 4 장 실 험 분 석 ············································································ 3 9

4.1 실험 ··············································································································· 39

4.1.1 실험 방법 ······························································································ 39

4.1.2 실험 데이터 ·························································································· 39

4.1.3 기존 연구 압축 방법 실험 ································································ 44

4.1.4 제안된 압축 방법 실험 ······································································ 49

4.2 결과 분석 ····································································································· 52

4.2.1 기존 연구결과 ······················································································ 52

4.2.2 제안된 방법의 결과 ············································································ 53

4.2.3 두 방식 간의 비교 ·············································································· 58

4.2.4 종형 곡선 근사화 식과 삼각 곡선 근사화 식의 비교 ················ 62

4.2.5 근사화 함수의 스 일 결정 ······························································ 67

제 5 장 결 론 고찰 ············································································ 6 9

참고문헌 ····································································································· 71

- v -

<표차례>

[표 2-1] 사 구성 ··························································································· 11

[표 3-1] Sample 실험을 통한 결과 ······························································ 23

[표 3-2] 디퍼런셜 벡터의 표 ····································································· 27

[표 3-3] 디퍼런셜 벡터 추출 ········································································· 28

[표 4-1] 실험에 사용된 수치지도 이어(국토지리정보원) ···················· 40

[표 4-2] 실험 데이터 특징 ············································································· 43

[표 4-3] 건물데이터에 기존 연구 방법 용 결과 ································· 53

[표 4-4] 필지데이터 기존 연구 방법 용 결과 ······································· 53

[표 4-5] 건물 데이터 제안된 방법 용 결과 (종곡선) ·························· 54

[표 4-6] 건물 데이터 제안된 방법 용 결과 (삼각곡선) ······················ 55

[표 4-7] 필지 데이터 제안된 방법 용 결과 (종곡선) ·························· 56

[표 4-8] 필지 데이터 제안된 방법 용 결과 (삼각곡선) ······················ 57

[표 4-9] 스 일에 따른 실험 결과 ······························································· 68

- vi -

<그림차례>

[그림 1-1] 연구 흐름도 ····················································································· 6

[그림 2-1] 압축과 재구성 ··············································································· 8

[그림 2-2] LineString ·············································································· 10

[그림 2-3] 군집화 과정 ··················································································· 12

[그림 2-4] 군집화 방법 ··················································································· 13

[그림 2-5] K평균 군집화 과정 ···································································· 15

[그림 2-6] “높다”의 정도 ··············································································· 17

[그림 2-7] “노인”의 정도 ··············································································· 18

[그림 2-8] 퍼지 부분집합 A ·········································································· 18

[그림 2-9] 퍼지집합 Around 4 ····································································· 19

[그림 2-10] 퍼지집합 Around 50 ································································· 20

[그림 2-11] 삼각 퍼지 역 ··········································································· 21

[그림 3-1] 갱신시 기존 연구의 문제 ······················································· 23

[그림 3-2] 원본 데이터 ··················································································· 24

[그림 3-3] 기존 연구 방법에 의한 갱신 ····················································· 24

[그림 3-4] 제안된 압축 과정 ········································································· 25

[그림 3-5] 디퍼런셜 벡터의 ····································································· 27

[그림 3-6] 인 시작 이 같은 군집이 된 경우 ······································· 29

[그림 3-7] 두가지 근사화 ··············································································· 33

[그림 3-8] 삼각곡선과 종곡선 ······································································· 34

[그림 3-9] 근사화 함수를 통한 압축 ····················································· 36

[그림 3-10] 근사화 함수를 통한 복원 ··················································· 37

[그림 3-11] 제안된 압축 알고리듬 ······························································· 37

[그림 4-1] 첫 번째 실험 상 지역 ····························································· 41

[그림 4-2] 두 번째 실험 상 지역 ····························································· 42

[그림 4-3] 확 된 건물 데이터 ····································································· 43

[그림 4-4] 확 된 필지 데이터 ····································································· 43

[그림 4-5] 건물 원본 데이터 ········································································· 45

[그림 4-6] 갱신을 한 Target 데이터 ······················································ 45

[그림 4-7] 갱신 데이터 ··················································································· 45

- vii -

[그림 4-8] 필지 원본 데이터 ········································································· 46

[그림 4-9] 필지 Target 데이터 ···································································· 46

[그림 4-10] 필지 갱신 데이터 ······································································· 46

[그림 4-11] 건물 디퍼런셜 엔트리 분포(128×128) ··································· 47

[그림 4-12] 건물 디퍼런셜 엔트리 분포(256×256) ································· 47

[그림 4-13] 건물 디퍼런셜 엔트리 분포(512×512) ································· 47

[그림 4-14] 건물 디퍼런셜 엔트리 분포(1024×1024) ······························· 47

[그림 4-15] 필지 디퍼런셜 엔트리 분포(128×128) ··································· 48

[그림 4-16] 필지 디퍼런셜 엔트리 분포(256×256) ··································· 48

[그림 4-17] 필지 디퍼런셜 엔트리 분포(512×512) ··································· 48

[그림 4-18] 필지 디퍼런셜 엔트리 분포(1024×1024) ····························· 48

[그림 4-19] 건물 디퍼런셜 엔트리 분포 (삼각곡선 : 16가지 근사화) · 50

[그림 4-20] 건물 디퍼런셜 엔트리 분포 (종곡선 : 16가지 근사화) ····· 50

[그림 4-21] 건물 디퍼런셜 엔트리 분포 (삼각곡선 : 32가지 근사화) · 50

[그림 4-22] 건물 디퍼런셜 엔트리 분포 (종곡선 : 32가지 근사화) ····· 50

[그림 4-23] 필지 디퍼런셜 엔트리 분포 (삼각곡선 : 16가지 근사화) · 51

[그림 4-24] 필지 디퍼런셜 엔트리 분포 (종곡선 : 16가지 근사화) ··· 51

[그림 4-25] 필지 디퍼런셜 엔트리 분포 (삼각곡선 : 32가지 근사화) · 51

[그림 4-26] 필지 디퍼런셜 엔트리 분포 (종곡선 : 32가지 근사화) ····· 51

[그림 4-27] 군집수와 최 오차의 계 (필지 데이터) ···························· 58

[그림 4-28] 군집수와 RMSE의 계 (필지 데이터) ································ 59

[그림 4-29] 압축률과 RMSE의 계 (필지 데이터) ······························ 60

[그림 4-30] 군집수와 최 오차의 계 (건물 데이터) ···························· 61

[그림 4-31] 군집수와 RMSE의 계 (건물 데이터) ································ 61

[그림 4-32] 압축률과 RMSE의 계 (건물 데이터) ································ 62

[그림 4-33] 압축률에 한 RMSE (필지 데이터) ···································· 63

[그림 4-34] 압축률에 한 최 오차 (필지 데이터) ································ 64

[그림 4-35] 압축률에 한 RMSE (건물 데이터) ···································· 65

[그림 4-36] 압축률에 한 최 오차 (건물 데이터) ································ 66

[그림 4-37] 필지 원본 ····················································································· 67

[그림 4-38] 스 일 150% ··············································································· 67

[그림 4-39] 스 일 200% ··············································································· 67

[그림 4-40] 스 일 400% ············································································· 68

[그림 4-41] 스 일 600% ············································································· 68

- 1 -

제 1 장 서 론

1.1 연구배경과 목

최근 무선 인터넷의 속한 확산과 무선기기의 발달로 모바일 환경에서

다양한 서비스들이 제공되고 있다. 유선 인터넷 환경에서 제공되고 있는 다

양한 컨텐츠가 무선 인터넷 환경으로 이동하고 있다(김미란, 최진오, 2002).

다양한 컨텐츠 표 이라 할 수 있는 서비스로는 지도를 제공하는 서비

스나, 목 지까지의 경로 안내를 해주는 네비게이션 서비스가 있다. 이러한

서비스가 가능하기 한 기본 입력 자료로 공간 데이터가 필수 이다.

제공되는 공간데이터는 래스터 형태와 벡터 형태가 있고, 모바일 기기의

경우 은 장 공간을 고려하면 벡터 데이터가 합하다. 그러나 많은 경

우에 있어서 모바일 기기의 작은 장 공간과 제한된 송 역폭을 고려하

면 벡터 데이터의 용량은 아직도 크다(Shekhar and Huang, 2002).

압축 기술은 많은 양의 지도 데이터를 모바일 기기에 장할 수 있게 하

며, 문자 데이터와 같은 다른 종류의 데이터의 장을 한 공간을 마련할

수 있다. 데이터의 송 시에도 송에 필요한 비용을 최소화시켜, 보다 빠

른 시간에 많은 양의 데이터를 송하게 한다.

네비게이션 서비스에서 사용되는 공간 데이터는 크게 두 가지로 나 수

있다. 경로 탐색이나 공간 연산을 한 네트워크 데이터와 단순히 디스

이만을 한 배경용 지도 데이터이다. 단순히 배경용으로 사용되는 데이터

는 많은 장 공간을 차지하지만, 높은 치정확도는 필요치 않다. 이에 따

라 공간 데이터의 장 공간을 이기 해 군집화 방법을 이용한 사 기

- 2 -

반의 손실 압축 기법에 한 연구가 있었다(Shekhar and Huang, 2002).

지도데이터는 상 지역 지형지물의 변화가 반 되어야 한다. 재 네비

게이션 서비스로 사용하는 수요자는 서비스 공 자로부터 주기 인 지도

갱신을 받고 있다. 이러한 갱신은 체 데이터 셋을 다시 제공 받는 형태로

서, 부분 인 갱신에 비해 모바일 환경에서 갱신 비용이 크다. 따라서 지도

데이터의 압축은 원본 데이터의 갱신에 따른 압축된 데이터의 갱신 비용이

최소가 되도록 설계되어야 한다.

본 연구의 목 은 벡터 형태의 지도 데이터에 K평균 군집화 기법을 이용

하여 효율 인 갱신을 한 손실 압축 방법을 설계하고, 실험을 통해서 효

율성을 제시하는 것이다. 연구방법으로는 첫 번째로 사 기반의 근방법

(Dictionary-Based approach)을 이용하여 설계했다. 두 번째로는 사 제작

과정에서 군집화 기법인 K평균 군집화를 이용하 다. 세 번째는 퍼지 이론

을 도입해 지도 갱신 시에 사 값에 없는 데이터를 표 하여 갱신 시에 발

생할 수 있는 오차를 최소화하는 방향으로 압축하 다. 마지막으로 설계된

압축 알고리듬을 기존 연구와의 비교 실험을 통하여 타당성과 용가능성

에 하여 평가했다.

1.2 연구동향

공간 데이터 압축 분야에서 벡터 데이터 압축 기법에 한 연구는 래스터

데이터의 압축에 비하여 상 으로 었다. 벡터 데이터 압축에 한 연구

는 수치 지도학 분야에서 먼 시작 되었다. 수치 지도학 분야에서 축척 변

환에 따라 지도에서 표 하는 정보의 양이 변하게 된다. 이때 공간데이터의

제거, 통합, 단순화, 치환 등의 방법(Weibel, 1987)을 사용하여 데이터의 구

조를 변환하여 체 데이터의 크기를 이는 방법이 사용되었다. 한 벡터

데이터에 한 일반화 과정, 를 들면 선에 한 일반화 방법인

- 3 -

Douglas-Peucker(Douglas and Peucker, 1973) 방법 역시 압축 방법으로 이

용 가능하다.

벡터 데이터에 한 압축을 사 기반의 방식으로 근한 연구로는

FHM(Fibonacci, Human and Markov)압축 방법이 있었다. 이 방법은

Freeman coding(Freeman, 1961; Lu and Dunham, 1991)을 기반으로 하여

데이터를 표할 수 있는 사 을 제작하고, 사 값에 근사화 하는 방법을

이용한다. 하지만 사 을 제작하는 방법이 Freeman coding 과 같이 미리

정의되어 있기 때문에 주어진 데이터의 특성을 반 하지 못하는 단 이 있

다. 이것은 개별 벡터를 사 으로 근사화 과정이 진행 될 때 오차가 많이

포함되어, 재구성시 공간 데이터의 치 정확도가 떨어지는 문제가 발생하

다.

데이터의 특성을 반 하지 못하는 단 을 해결하기 한 연구(Shekhar

and Huang, 2002)가 있었다. 이 연구에서는 사 을 제작하는 과정에서 군

집화 기법(CBC : Cluster Based Compression)을 도입하 다. 동일한 압축

률, 즉 동일한 크기의 사 을 제작할 경우 FHM 압축 방법보다 CBC 방법

이 데이터 재구성시에 더 좋은 치 정확도를 보여주는 연구이다. 다른

군집화 기법을 이용한 벡터데이터 압축방법(이동헌, 2005)에서는 사 을 제

작하는 과정에서 디퍼런셜 벡터의 각도와 길이로 나 어 사 을 제작하고

복원하는 방법을 취했다. 이 방법은 CBC 방법에 비해 고 정확도가 필요한

데이터의 압축에서 더 향상된 압축률을 보여주었다.

의 두 가지 방법은 군집화 방법을 이용하여 데이터의 특성을 반 시켜

효과 인 압축을 수행하지만, 새롭게 추가되는 데이터는 기 구축된 사 으

로 표 하지 못하는 경우가 발생한다. 따라서 갱신된 데이터에 하여 기존

사 을 이용하여 표 할 경우 갱신된 데이터의 정확도는 기존 데이터의 정

확도에 비해 떨어지게 된다. 이러한 문제 때문에 갱신이 발생했을 때

체 데이터를 다시 군집화 하여 압축을 해야 한다. 그러나 이 방법도 부분

갱신이 일어날 경우 갱신되는 데이터가 체 데이터에 비해 매우 작은 을

- 4 -

고려하면 비용 면에서 상당히 비효율 이다.

따라서 본 연구는 이러한 기존 연구에서의 갱신시 발생하는 문제 을 해

결하기 해 기존 사 값 이외의 값을 장 표 할 수 있는 방향으로 연구

되었다.

1.3 연구내용과 방법

체 인 연구의 내용과 방법은 다음 6단계의 과정으로 나 어진다.

제 1 단계 : 연구동향과 문제 분석

기존 연구를 조사ㆍ분석하여 재까지 벡터 데이터 압축에 한 기존 연

구 동향을 악하고 문제 을 분석하 다. 특히 최근 연구가 진행된 디퍼런

셜 벡터의 각도와 길이의 군집화를 이용한 압축 방법을 분석하여 한계 을

악하고 해결 방안을 모색하 다.

제 2 단계 : 용 가능한 기술 분석

연구에서 알고리듬을 설계하고 제시되는데 필요한 기술을 분석하 다. 분

석된 기존 연구를 바탕으로 알고리듬 설계에 필요한 사 기반의 압축 방법

과 군집화 기법을 선정하 고, 갱신된 데이터를 표 하기 해 퍼지 이론에

해 분석하 다. 선정된 기법들에 하여 설계에 용 가능성, 타당성을

평가하 다.

제 3 단계 : 벡터 데이터 압축 기법의 설계

기존 연구의 분석을 통해 악된 문제 과 한계를 극복 할 수 있는 벡터

데이터 압축 기법을 설계하 다. 기술 분석에서 얻어진 각 방법을 용하여

압축 방법을 설계하 다.

- 5 -

제 4 단계 : 압축 기법의 실험

제시된 압축 알고리듬을 검증하기 한 실험 단계로 실험 상지역을 선

정하고 데이터를 구축 하 다. 군집화 기법은 상용 통계 패키지인 SPSS

v10 을 이용하 다.

제 5 단계 : 방법론의 타당성 평가

실험 단계를 통하여 얻어진 결과물을 분석하 다. 갱신 후에 나타나는 압

축률과 치 정확도에 을 맞추어 분석하 으며, 한 기존 연구와의 비

교를 통하여 제안된 압축 방법의 성능을 분석하 다.

제 6 단계 : 결론

분석된 결과를 바탕으로 제안된 압축 방법의 타당성과 실제 용 가능성

을 검토하 다. 한, 제안된 압축 방법의 문제 을 검하고, 향후 연구 방

안에 하여 제시하 다.

- 6 -

[그림 1-1] 연구 흐름도

기존 연구 분석

용 가능 기술 분석

압축/갱신 기법의 설계

실험과 분석

방법론의 타당성 평가

결론

갱신시 재군집화

K평균 군집화

사 기반 압축

퍼지 집합

갱신시 정확도,

최 오차, 압축률

- 7 -

제 2 장 련 이론 연구

2.1 데이터 압축

수년 까지 가정용 컴퓨터에서의 응용 로그램은 주로 텍스트 기반의

자료를 상으로 다루었다. 하지만 지 은 온라인과 표 매체 환경의 발달

로 양질의 멀티미디어 자료들이 늘어나고 있다. 이에 따라 장 매체의 발

달이 사용자의 요구를 만족시키지 못하는 실정이다. 이러한 장 공간의 문

제를 해결할 수 있는 방법 한가지로서 제시된 것이 데이터에 한 압축

이다. 데이터 압축은 작은 형태로 정보를 표 하는 과학 기술로(Sayood,

2000) 최소의 비트(bit)를 이용하여 가능한 정확하게 원래의 정보를 표 하

는 것을 목 으로 한다.

2.1.1 개요

데이터 압축 기술은 일반 으로 두 개의 알고리듬을 지칭하는 말이다. 주

어진 원 데이터 χ에 하여 압축된 형태의 χc로 변환하는 압축 알고리듬

과, 압축된 데이터인 χc를 이용하여 원래의 형태 γ로 재구성 하는 복원 알

고리듬이 그것이다[그림 2-1].

- 8 -

[그림 2-1] 압축과 재구성 (Khalid Sayood, 2000)

재구성하는 과정에서 데이터 압축 기술은 손실 압축 기술(Lossy

Compression)과 무 손실 압축 기술(Lossless Compression)의 두 가지로 나

수 있다. 원 데이터 χ와 재구성된 데이터 γ이 정확하게 일치하는 경우

를 무 손실 압축이라고 하고, χ와 재구성된 데이터 γ이 차이가 있을 경우

이를 손실 압축이라고 한다. 일반 으로 손실 압축이 무 손실 압축에 비하

여 높은 압축 성능을 보인다.

2.1.2 무 손실 압축

무 손실 압축 기술은 압축과 재구성 과정을 거치는 동안 정보의 손실이

없이 원 데이터를 정확하게 재구성하는 것이다. 이 기술은 정보의 손실이

치명 인 향을 미쳐 체 데이터를 사용할 수 없게 되는 경우에 사용된

다. 를 들면 텍스트 데이터나 성 상의 pixel 값을 가지고 있는 데이터

의 경우이다. 텍스트 데이터의 경우는 약간의 차이로 인하여 완 히 다른

의미로 바 는 결과를 낳는 경우이다. “Do not Send money"와 ”Do now

send money" 라는 두 문장의 경우 약간의 차이로 인하여 다른 의미를 갖는

경우라 할 수 있다. 성 상 데이터의 경우 촬 당시의 개별 인 pixel

값이 요한 의미를 담고 있기 때문에 손실 압축이 되어 정보의 손실이 되

- 9 -

면 사용이 불가능해 진다. 따라서 와 같은 경우에는 손실 압축 알고리듬

을 용하여 압축하고 재구성해서는 안 된다. 이러한 데이터에 한 크기를

이고자 한다면 원 데이터와 재구성된 데이터가 정확하게 일치하는 무 손

실 압축 기술을 이용해야 한다.

2.1.3 손실 압축

손실 압축 기술은 원 데이터 압축과 재구성 과정을 거친 후의 데이터가

정확하게 일치하지 않는 압축 기술이다. 손실 압축은 어느 정도 정보의 손

실과 왜곡을 포함 하더라도 용인될 경우에 사용된다. 를 들면, 목소리를

담고 있는 데이터의 경우 음질을 떨어트리면서 데이터의 크기를 이는 것

이 손실 압축 기술 이다. 이런 경우 압축을 하여 데이터 량과, 음질은 하

되지만 재구성한 데이터가 목소리가 담고 있는 내용이 달 될 수 있을 정

도라면 손실 압축 기술이 가능한 경우이다. 따라서 어떤 압축 기술을 용

해야 하는지에 한 단은 데이터의 활용측면에서 구분이 될 수 있다. 무

손실 압축 기술에서 를 든 성 상 데이터의 경우에도 단순 디스 이

용으로 데이터를 사용한다면 손실 압축 기술이 용 가능할 것이다.

2.2 사 기반의 데이터 압축

연구에서 사용된 사 기반(Shekhar and Huang, 2002)의 근 방법은 공

간 데이터만을 하여 개발된 근 방법은 아니다. 연구에서는 벡터 데이터

압축 방법을 사 기반의 근 방법을 사용하여 설계하 다.

사 기반의 근 방법은 먼 표 하고자 하는 데이터를 엔트리로 하는

사 을 제작한다. 그 후 실제 데이터에는 값(value)을 장하는 것이 아닌

사 의 엔트리를 가리키는 포인터의 나열로서 데이터를 표 한다.

- 10 -

이를 벡터 데이터에 하여 용하면 다음과 같다. 하나의 LineString이

[그림 2-2]와 같이 2차원 공간상에 존재 할 때, 이를 장할 수 있는 방법은

여러 가지가 있다.

[그림 2-2] LineString

OGC의 표 (OGIS, 1999)에서 제시하는 방법으로는 타입 정보, 체 포인

트의 수 등과 함께 8바이트 크기를 갖는 x와 y 의 배열을 이용하여 실제 좌

표를 장한다. 기하구조의 표 방법으로는 ‘LINESTRING (60 120, 100

180, 200 100, 260 140, 160 160, 220 240)’ 과 같은 방법을 이용하여 표 한

다. 이것을 사 기반의 방법으로 장하는 방법은 다음과 같다. 우선

LineString이 갖는 개별 인 좌표들을 엔트리로 갖는 사 을 제작한다.

[표 2-1]

- 11 -

[표 2-1] 사 구성

엔트리

1

2

3

4

5

6

(60, 120)

(100, 180)

(200, 100)

(260, 140)

(160, 160)

(220, 240)

[표 2-1]에서는 LineString이 가지고 있는 모든 의 좌표에서 복을 제

거하고 구성된 것이다. 그리고 LineString을 표 하는데 에는 실제 좌표를

넣는 것이 아니라 사 에 구성된 엔트리를 가리키고 있는 포인터의 배열로

나타낸다. 따라서 구조는 다음과 같이 '(1, 2, 3, 4, 5, 6)'으로 장 된다. 이

게 장된 공간 객체를 사용하고자 할 때는 객체 좌표를 신하고 있는

배열이 가리키는 사 의 엔트리를 검색하여 좌표로 표 하게 된다.

이러한 데이터 구조를 사 기반의 근이라고 한다. 의 와 같이 단

일 객체에 하여 사 기반 근법을 이용하여 데이터 구조를 만든다 할지

라도 체 데이터에 한 크기는 어들지 않는다. 사 을 구성하는 엔트리

에 엔트리를 가리키는 포인터의 크기가 추가되므로, 체 데이터 량은 단순

히 좌표를 기록하는 방식보다 포인터의 크기만큼 데이터 량이 늘어난다. 연

구에서는 다수의 공간 객체에 하여 유사한 형태의 복이 많이 일어나는

을 엔트리로 사 을 제작하여 데이터의 량을 이는 방법을 사용하 다.

2.3 K평균 군집화 기법

2.3.1 군집화 개념

- 12 -

군집분석은 규모의 데이터베이스에서 의미 있는 정보를 추출해 분석하

는 데이터 마이닝 기법 한 가지이다. 여기에서 군집이라는 것은 유사한

데이터들의 집합이다(Jan and Kanber, 2000). 즉 하나의 군집에는 유사한

데이터들이 포함되고 다른 군집에는 유사도가 떨어지는 데이터들의 집합이

되도록 만들어 주는 것이 군집화이다. 따라서 군집분석은 서로 섞여있는 이

질 인 상을 유사도(similarity)에 의해 몇 개의 균질 인 군집(cluster)으

로 분류하는 방법이다.

군집화 과정은 [그림 2-3]과 같이 4단계의 과정으로 이루어진다.

[그림 2-3] 군집화 과정

첫 번째 변수 측정의 단계에서는 개체들을 군집화 하는데 이용될 수 있는

각 개체의 특성을 측정하는 변수들을 구한다. n개의 개체에 하여 m 개의

변수를 측정한다. m은 개체가 가지고 있는 변수들 실제 군집화에 사용

할 변수들의 수가 된다. 두 번째 단계는 유사성을 측정하는 과정인데, 측정

한 m개의 변수를 이용하여 체 개체들 사이의 거리(distance) 는 비유사

성(dissimilarity)을 계산하는 과정이다. 개체들 사이의 거리를 측정하는 방

- 13 -

법은 군집화 방법에 따라서 다르게 계산 될 수 있다. 이 게 모든 개체들

사이의 거리를 계산하여 비유사성을 나타내는 거리 행렬을 만든다. 비유사

성은 값이 작을수록 두 개체사이가 가깝다. 개체 사이가 가깝다는 것은 개

체들에서 군집화를 해 측정한 m개의 변수들이 유사한 특성을 갖는다는

것이다. 세 번째 단계에서는 선정된 군집화 방법으로 계산된 비유사성 행렬

을 이용하여 거리가 가까운 개체들을 하나의 군집으로 묶어주는 과정이다.

마지막 분석의 단계는 각 군집의 성격, 상호 계를 단하는 과정이다. 이

과정은 군집화 과정이 완료된 결과를 통하여 개별 군집이 어떠한 의미를 갖

는지, 군집들 사이의 계가 어떠한지를 단하는 분석과정이다.

2.3.2 군집화 기법의 종류

군집분석에는 크게 계층 군집화 기법과 비 계층 군집화기법으로 나

수 있다(Hair, Anderson, Thatham and Black, 1992).

[그림 2-4] 군집화 방법

비 계층 군집화 기법은 주어진 n개의 개체를 선정된 분할 방법을 이용

하여 k개의 군집으로 분할하는 방법이다. 비 계층 군집화 방법에는 몇 가

지 조건이 필요한데 첫 번째는 항상 k가 n 보다 작아야 한다는 것이다. 두

- 14 -

번째는 최종 군집의 수가 개체의 수보다 작아야 하고 각 군집에는 최소한

한 개 이상의 개체가 포함되어야 한다. 마지막으로 각 개체는 하나의 군집

에만 속해야 한다는 것이다. 비 계층 군집화 기법 표 인 것으로는

K평균 군집화 기법이 있다.

계층 군집화 기법은 주어진 개체 집합을 단계 으로 분해하는 군집화

기법이다. 이 기법에는 상향식(bottom-up)방법과 하향식(top-down)의 두

가지가 있다. 상향식 방법은 각각의 개체를 다른 군집으로 할당한다. 그리

고 유사성을 측정하여 유사성이 높게 나타나는 군집을 하나로 병합하는 방

법을 이용하여 최종 군집이 한 개로 병합되거나 주어진 조건을 만족할 때까

지 반복한다. 하향식 방법은 상향식과 반 로 모든 개체를 하나의 군집으로

시작하여 하나의 군집이 하나의 개체로만 이루어지거나 주어진 조건을 만

족할 때까지 분할하는 과정을 반복하여 군집화한다. 표 인 계층 군집

화 기법에는 [그림 2-4]와 같이 단일 결합법, 완 결합법, 평균 결합법,

ward 법 등이 있다. 계층 방법은 기의 부 한 병합이나 분할이 일어

났을 경우 회복할 수 없다는 단 이 있다(Jan and Kanber, 2000).

2.3.3. K평균 군집화

연구에서 사용하게 되는 K평균 군집화 기법은 MacQueen(MacQueen,

1967)에 의해 개발된 비 계층 군집법이다. 즉 n개의 개체를 k개의 군집으

로 유사성이 높은 것을 하나의 군집으로 묶어주어 분할하는 방법이다. [그

림 2-5]는 K평균 군집화를 하는 과정을 나타낸 그림이다.

- 15 -

[그림 2-5] K평균 군집화 과정

첫 번째 단계는 입력 인자로 군집 심 K개를 입력받고, 입력받은 K 만

큼의 군집 심을 선정하는 과정이다. 기 군집 심은 임의로 선정된다.

다음 단계는 각각의 개체를 선정된 군집에 할당하는 과정이다. 이 단계에서

는 유사성을 계산하여 유사성이 가장 높은 군집으로 할당한다. 유사성을 계

산하는 방법은 여러 가지가 있는데, K평균 군집화 기법에서는 각 군집에 할

당된 개체들의 평균을 이용하여 새로운 군집의 심 값을 계산한다. 2차원

이상의 변수에 한 군집화에 해서는 평균값 신 무게 심(centroid)값

을 이용하여 군집 심을 재계산 한다. 이러한 과정을 주어진 조건을 만족

하거나 군집 심의 이동이 없어질 때 까지 반복한다.

두 번째 단계로 개체를 가장 유사한 군집에 할당 하는 방법은 여러 가지

가 있다. Minkowski 거리, Euclidean 거리, 표 화 거리, Mahalanobis 거리

등이 개체 사이의 유사성을 측정하는 도구로 사용이 가능하다. K평균 군집

화 기법을 용하는 데에 가장 많이 사용되는 유사도 측정 도구로는

Euclidean 거리이다. 연구에서는 2차원 공간상의 기하학 인 좌표를 이용하

여 연산을 해야 하기 때문에 Euclidean 거리를 유사도 측정의 도구로 이용

- 16 -

하 다. Euclidean 거리를 계산하는 식을 n 차원에 공간에서 용가능 하도

록 확장하면 다음과 같다.

d ϶= ∑n

i=1(b i-a i)

2

a=(a 1,a 2,a 3,∙∙∙∙a n)

b=(b 1,b 2,b 3,∙∙∙∙b n)

이 거리 계산을 이용하여 개체와 군집의 유사성을 측정한 후 개체와 유사

성이 가장 높은 군집으로 개체를 할당하여 군집을 재계산 한다. 이러한 과

정을 재 할당이 일어나지 않거나 주어진 조건을 만족할 때 까지 반복하여

최종 결과를 얻는다.

K평균 군집화 기법은 체 데이터의 내부 인 구조에 한 사 지식이

없어도 의미 있는 정보를 찾아낼 수 있다는 장 이 있다(Jain and Murty,

1999). 한 찰 값과 군집 심 사이의 거리 계를 데이터의 형태에 맞게

정의한다면 부분의 형태의 데이터에 용이 가능하다. 기의 잘못된 군

집에 개체가 속하더라도 반복을 통하여 타당한 군집으로 재 할당이 이루어

진다. K평균 군집화 기법은 기 값 K 이외에 다른 사 정보를 요구하지

않으므로 방법을 용하기에 용이하다. 하지만 기 값 K를 합하게 선정

하지 못한다면, 만족할만한 군집화 결과 얻을 수 없다. 비유사성 거리를

정의하는 과정에서 여러 가지 자료유형의 측정 척도(Measurement scale)가

상이한 경우 하나의 거리로서 정의하는 것이 어렵다. 한 사 에 주어진

군집 목 이 없으므로 결과 해석에 어려움이 따른다(Lee and Wong, 2000).

2.4 퍼지 이론

본 연구에서는 기존 사 값을 이용해 갱신되는 값을 표 하기 해 근사

- 17 -

화의 개념을 사용한다. 갱신된 값 x가 사 값 K에 얼마나 근사한가를 표

하기 해 퍼지 이론에서 사용하는 퍼지 집합과 퍼지 소속함수의 개념을 사

용하 다.

2.4.1 개요

부분의 자연 언어는 그 의미 내용이 애매한 넓이를 가지고 다의 이

다. 특히 형용사에 해서는 그 지시 상이 특정되지 않고 폭을 가진다는

에서 애매하다. 를 들면 “키가 크다”고 하면 어느 사람이 큰가라는,

정은 불확실하다. “노인”이라는 명사의 애매성은 “늙었다”라는 형용사의 의

미의 애매성에서 온 것이다.

“크다” “노인” 등 의미의 애매성을 양의 면에서 표 해 보자. 신장 140cm

에서 200cm까지의 범 에서 x cm의 사람이 크다고 할 수 있는 정도는 μ이

다. 이것을 신장 x에 정도 μ (단 0≤μ≤1이라고 한다)에 응시켜 보자. 가

로축에 x, 세로축에 μ를 취하면 [그림 2-6]과 같은 그래 가 그려질 것이다.

[그림 2-6] “높다”의 정도

- 18 -

[그림 2-7] “노인”의 정도

이 그래 는 “크다”의 의미의 애매성을 양 으로 표 한 것이다. 동일하

게 “노인” 이라는 개념의 애매성은 [그림 2-7]의 그래 에 의해서 표시할

수 있다.

이들 두 개의 그래 에 볼 수 있듯이 가로축은 말이 정량 으로 표시된

다. 길이나 연령 등의 일차원의 공간을 표시하고 가로축은 애매성의 정도를

정량화 한 것이다.

2.4.2 퍼지 집합

어떤 집합 X의 퍼지부분집합을 추상 으로 표시하면 [그림 2-8]처럼 된

다.

[그림 2-8] 퍼지 부분집합 A

- 19 -

사각형으로 된 부분은 집합 X를 나타내고, 선으로 되어 있어서 어느 부

분이 내부에 소속되고 어느 부분이 외부에 소속되는지가 불분명한 경계로

표 된 부분이 바로 X의 퍼지부분집합인 A이다. 퍼지집합 이론은 집합 X

의 원소인 x가 이 부분집합에 포함되는 정도(degree)를 정의하며 이 때 이

포함되는 정도의 값을 지정해 주는 함수를 소속함수(membership function)

라고 한다. 이때 소속원소는 x가 된다. 를 들면 원소 x가 A의 역에 소

속될 정도는 다음과 같이 표 될 수 있다.

μA(x1)=1, μA(x2)=0.8, μA(x3)=0.3, μA(x4)=0

여기서 μ는 소속함수이며 0과 1 사이의 값을 갖는 소속정도를 인가한다.

μ에 붙은 아래첨자 A는 μ가 A의 소속함수임을 나타낸다. 수학 으로 퍼지

집합은 함수 μ:X→[0,1]에는 A라는 명칭이 주어지며 A를 X의 퍼지(부분)집

합이라고 한다. 이때 μ를 A의 소속함수라고 한다.

2.4.3 퍼지 집합의 특성

퍼지 집합의 높이(height)는 최 귀속도이며 정규화의 개념과 하게

연계되어 있다. 로써 [그림 2-9]와 [그림 2-10]의 두 퍼지 집합을 생각해

보자.

[그림 2-9] 퍼지집합 Around 4

- 20 -

[그림 2-10] 퍼지집합 Around 50

퍼지집합 Around 4의 높이는 [1.0]이고, 집합 Around 50의 높이는 [0.82]

이다. 어도 하나의 원소가 [1.0]의 멤버십 값을 가지고, 하나의 원소가 [0]

의 값을 갖고 있으면 그 퍼지 집합은 최 정규 형태(Maximum Normal

Form)에 있다. 어도 하나의 원소가 [1.0]의 멤버십 값을 갖고 있으면 그

퍼지 집합은 최소 정규 형태(Minimum Normal Form)에 있다.

퍼지 집합의 정의구역(domain)은 허용 가능한 값의 모집단의 체를 의

미한다. 를 들어 몸무게에 해 “무겁다“의 정의역은 80kg ～ 180kg 으로

설정할 수 있다.

가끔 퍼지 집합의 0이 아닌 부분이 정의구역 체에 걸치지 않는 경우가

발생할 수 있다. 이 듯 정의역 에서 실제 값을 갖는 부분 집합을 지지

집합(Support Set)이라 한다. 를 들어 80kg ～ 180kg의 정의역 이지만 집

단의 실제 윤곽 곡선이 90kg ～ 150kg에 걸쳐 존재한다면 이 지역을 지지

집합이라 한다.

지지집합과 하게 연 된 기술 개념이 알 수 집합 는 “α-

단”이다. 알 수 이란 정의구역에 한 임계 제약이며, 각 정의구역 값의

귀속도에 근거하고 있다. 이 집단은 최소 멤버십 값 α에서 퍼지 집합의 일

부를 이루는 모든 정의구역 값을 포함한다.

- 21 -

2.4.4 퍼지 집합의 표

퍼지 집합에서 소속함수를 결정하는 것을 퍼지 역의 결정이라 한다. 퍼

지 집합이 가질 수 있는 값의 종류는 정의역이 되며, 귀속도는 공역에 해당

하게 된다. 퍼지 역은 선형, S 곡선형, 삼각형, 종형 역 등으로 퍼지 집

합의 특성에 맞도록 결정할 수 있다. 본 연구에서는 압축 과정을 통해 원본

데이터를 표하게 되는 사 엔트리 값에 압축되는 데이터 값이 얼마나 근

사한가를 나타내기 해 표값을 심으로 좌우로 귀속도를 표 할 수 있

고 비교 계산이 간단한 삼각형 형태의 퍼지 역을 사용하 다.

[그림 2-11] 삼각 퍼지 역

54 6 73210 8

0

1

[그림 2-11]에서 확인할 수 있듯이 하나의 값을 심으로 정의역 범 내

에서 다른 값들이 심 값에 얼마나 근사한가를 나타낸다.

본 연구에서 사 구축에 사용되지 않은 새로운 갱신된 값들을 표 하기

해 이러한 퍼지 집합을 사용하여 사 에 있는 값에 얼마나 귀속되는가를

귀속함수로서 계산하고 이 값을 장함으로서 보다 동 으로 사 값을 사

용할 수 있도록 하 다.

- 22 -

제 3 장 갱신을 고려한 벡터 데이터 압축 방법의

설계와 구

3.1 갱신 고려의 필요성

군집화를 통한 사 기반의 압축을 수행하게 되면 압축되는 원본 값들의

특성을 가장 잘 표할 수 있는 사 을 제작하고 복원시에 사 에 존재하는

값을 이용하여 데이터를 표 하게 된다. 이 방법은 원본데이터의 특성을 충

분히 활용하여 압축하는 방법으로 좋은 압축율과 정확도를 보장하는 것으

로 기존 연구에서 평가되었다. 그러나 데이터의 추가나 수정이 발생하는 경

우 이를 반 하기에는 기존에 제작된 사 은 더 이상 합하지 않다고 할

수 있다.

를 들어, 원본 데이터의 값의 범 가 10～100 사이의 값을 갖고 이에

한 사 을 구축하면 10～100 사이의 값을 가장 잘 표할 수 있는 값들로

서 사 을 구축하게 된다. 이후 갱신이 발생하여 10～100 사이에 있지 않은

150 이라는 값이 추가되면 기존 사 의 100으로 근사화하여 표 할 수 밖

에 없다. 체 데이터의 크기가 큼을 감안하면 갱신 ㆍ후의 체 오차의

평균은 미세하게 변하겠지만, 오차의 최 값은 크게 변하게 된다. 한, 데

이터의 갱신된 부분과 갱신이 되지 않은 부분의 정확도가 상이하여 체 데

이터에 한 신뢰성이 떨어지는 문제를 야기한다.

[그림 3-1]은 기존 연구에서 수행된 방법을 사용하여 데이터의 갱신을 반

한 경우 갱신된 데이터를 잘 표 해주지 못하는 경우를 보여 다.

- 23 -

[그림 3-1] 갱신시 기존 연구의 문제

굵게 표시된 부분은 갱신된 데이터의 원본이고 얇은 실선으로 표시된 부

분은 기존의 방법을 사용하여 압축과 복원을 수행하 을 때 나오는 결과이

다. 갱신된 데이터의 최장 변의 길이가 약 1,300m에 해당하지만 구축된 사

의 최 값이 약 800m밖에 안되어 기존의 사 으로 압축하고 복원하 을

경우 거리만으로 약 500m의 오차를 발생시킨다.

이를 해결하기 하여 갱신된 데이터를 포함하여 재군집화를 수행하여

사 을 구축하는 방법이 있지만, 군집화 연산은 체데이터 스캔의 반복이

수행되는 고비용의 연산이므로 실 으로 갱신이 발생할 때 마다 수행하

기에는 어려움이 있다. 따라서 본 연구에서 갱신을 고려한 압축방법으로 재

군집화는 배제하기로 한다.

[표 3-1] Sample 실험을 통한 결과

기존 연구

사 크기 256

압축률 78.3 %

체 거리 오차의 평균 0.536 m

최 거리 오차 489.04 m

- 24 -

[그림 3-2] 원본 데이터

[그림 3-3] 기존 연구 방법에 의한 갱신

[표 3-1]에서 거리오차는 원본과 복원된 좌표 값의 오차를 거리로 환산하

여 계산한 값이다. [그림 3-2], [그림 3-3]에서 색의 원이 가리키는 부분

이 갱신 후 발생하는 최 오차 지역이다.

3.2 벡터데이터 압축 과정

기존 연구로 진행된 디퍼런셜 벡터의 길이와 각도에 한 군집화를 이용

한 압축방법은 데이터의 갱신에 비효율 이다. 아무리 기존 데이터의 사

크기를 크게 해주어도 갱신되는 데이터가 제작된 사 값의 범 를 벗어나

면 한 값으로 표 하기가 어렵기 때문이다.

이러한 문제 을 보완 하고자 기존 연구 방법을 기본으로 하여 퍼지 이론

을 기반으로 한 근사화의 개념을 추가하 다. 새로이 갱신되는 데이터는 기

- 25 -

존에 제작된 사 값을 이용하지만 갱신되는 데이터의 디퍼런셜 벡터의 길

이와 각도가 사 값에 얼마나 귀속하게 되는지, 멤버 함수를 통해 이 귀속

도(근사요소)를 결정하게 된다. 그리고 압축은 거리ㆍ각도사 , 거리ㆍ각도

포인터, 거리ㆍ각도의 근사화 요소, 시작 을 장함으로서 수행된다. 복원

과정에서는 포인터가 가리키는 사 값으로 복원하는 신에 사 값에 근사

화 요소를 고려한 값, 즉 원본에 가장 가까운 사 값 주변 값으로 표 하게

된다.

[그림 3-4]는 제안된 방법의 벡터데이터 압축과 복원 수행과정을 나타낸

것이다. 각 과정의 세부 인 용기술에 해서는 다음 에서 구체 으로

기술하 다.

[그림 3-4] 제안된 압축 과정

3.3 벡터 데이터 변환

3.3.1 데이터 모델 선정

- 26 -

벡터 데이터 압축 과정의 첫 번째 단계는 설계에 사용될 데이터 모델을

선정하고 선정된 모델을 이용하여 디퍼런셜 벡터로 나 다. 디퍼런셜 벡터

는 공간 좌표계에서 객체의 인 치를 나타낼 수 있는 시작 좌표와

시작 을 기 으로 하는 상 인 치를 나타낸다. 이 과정에서 사용된 데

이터 모델은 OGC에서 제안된 기하 모델을 사용하 다. OGC는 공간 데이

터 분야에서 가장 공인된 표 화 기 이고, 공간 데이터 기하 모델은 ISO의

공간 데이터 분야 표 인 ISO DIS 19107을 따르고 있어, 이를 연구에 용

하 다. OGC에서 제안된 표 은 2차원 공간에서 0차원의 기하객체 즉

치를 표 하는 데이터는 8바이트를 갖는 x와 y 좌표를 이용하여 하나의

치를 장한다. 라인 데이터는 데이터의 배열을 이용하여 장하고,

폴리곤의 경우는 시작 과 끝 이 같은 데이터의 배열로 이루어진다. 이

게 장된 폴리곤 데이터를 이용하여 벡터 데이터에 한 압축 방법을 설

명한다. 공간 데이터에 한 표 방법으로는 같은 기 인 OGC에서 제안한

Simple Feature Specification For SQL v1.1(OGIS, 1999)의 표 방법을 사

용하 다.

3.3.2 디퍼런셜 벡터 추출

압축 과정의 첫 번째 단계인 벡터 데이터 변환과정은 디퍼런셜 벡터를 추

출하는 과정과 시작 좌표를 추출하는 과정으로 나 수 있다. 디퍼런셜

벡터는 각각의 좌표에 한 상 인 치를 표 하는 벡터이다. 디퍼런

셜 벡터를 계산 하는 방법은 i번째 장된 의 치를 i-1번째 과의 차이

를 이용하여 계산하는 방법과, i번째 장된 의 치를 첫 번째 치에

장된 과의 차이를 이용하여 계산하는 방법이 있다. 디퍼런셜 벡터를 계산

하는 방법에 따라 다음과 같은 표기를 이용한다(Shekhar and Huang,

2002).

- 27 -

[표 3-2] 디퍼런셜 벡터의 표

표

이 좌표와 차이

첫 번째 좌표와 차이

Δ i, i-1

Δ i, 0

Delta(i, i-1)

Delta(i, 0)

Δ i, 0는 하나의 공간객체에서 시작 좌표를 기 으로 나머지 각 의 좌

표를 가리키고 있는 벡터의 집합이다. 이와는 달리 Δ i, i-1의 경우에는 기

이 되는 이 각 객체의 시작 이 아닌 치를 표 하고자 하는 의 이

에 장되는 이 된다. 의 두 가지 방법을 이용하여 [그림 3-5]의 폴리곤

으로부터 디퍼런셜 벡터를 추출해 보면 [표 3-3]과 같다.

POLYGON ((80 260, 60 200, 120 160, 200 200, 160 280, 80 260))

[그림 3-5] 디퍼런셜 벡터의

- 28 -

[표 3-3] 디퍼런셜 벡터 추출

디퍼런셜 벡터

Δ i, i-1

Δ i, 0

(-20 -60), (60 -40), (80 40), -40 80)

(-20 -60), (40 -100), (120 -60), (-40 80)

연구에서는 Δ i, i-1를 압축 과정에 사용하 다. 지도 데이터에서는 건물이

나 기타 지형지물들은 도로를 따라서 나란하게 형성되는 경향을 보이고 있

었다. 이러한 을 이용하여 디퍼런셜 벡터를 객체 시작 이 아닌 이

을 기 으로 하여 추출한 Δ i, i-1를 사용하고 이를 길이와 각도로 추출하여

군집화에 용한다.

3.3.3 길이와 각도 분리

본 연구에서는 군집화를 용하기 에 디퍼런셜 벡터를 길이와 각도로

분리하는 과정을 거친다. 분리하는 목 의 첫 번째로는 디퍼런셜 벡터 추출

과정에서 각각의 벡터가 도로와 유사한 각도로 많이 분포하기 때문이다. 이

러한 경우 유사한 값을 하나의 값으로 묶어주는 군집화 기법을 용하 을

때 더 치 정확도 측면에서 이익을 볼 수 있기 때문이다. 두 번째로는 사

을 형성하 을 때 가질 수 있는 값의 경우의 수가 많아진다는 것이다. 2

차원 공간에서 군집화를 하여 10개의 엔트리를 갖는 사 을 만들었다면 실

제 가질 수 있는 값 역시도 10개 이다. 하지만 두 개의 인자로 나 어서 각

각 5개의 엔트리를 갖는 사 두 개를 제작하 다면, 실제 표 할 수 있는

값은 5×5개가 된다. 따라서 더 은 사 을 가지고도 더 많은 표 이 가능

하다는 에서 인자로 분리하 다. 세 번째로, 근사화 요소를 용함에 있

어서 길이와 각도 벡터는 각각 1차원 값에 한 근사화가 표 되는 가지 수

가 다양해지기 때문이다. 마지막으로 높은 치 정확도가 요구되는 데이터

를 손실 압축할 경우 군집의 수 K가 커지게 된다. 이러한 경우 압축 과정에

서 요구되는 비용이 높아지는 이유에서 길이와 각도를 분리하여 군집화 과

- 29 -

정을 거치게 된다.

3.3.4 객체 시작 장

벡터 데이터 압축 과정에서 객체의 시작 의 경우 아무런 처리를 하지 않

고 그 로를 장한다. 디퍼런셜 벡터가 개별 데이터의 상 인 치를

표 한다면, 객체의 시작 은 좌표상의 인 치를 가지고 있는 값이

다. 인 치를 표 하는 기 과 각각의 상 좌표를 나타내는 디퍼런

셜 벡터가 함께 존재 해야만 공간 객체를 재구성 할 수 있다.

이러한 시작 까지도 함께 군집화를 용한다고 할 때, 시작 의 개수보

다 군집의 개수가 단 한 개라도 게 된다면 두 개 이상의 폴리곤이 하나로

합쳐져 나타나게 된다. [그림 3-6]

[그림 3-6] 인 시작 이 같은 군집이 된 경우

객체의 인 치를 표 할 수 있는 좌표 까지도 다른 상 인 치

를 나타내는 디퍼런셜 벡터와 함께 군집화를 용할 때 체 객체의 수 이

하로 군집의 수를 결정한다면 체 데이터에 한 치 오차는 어들 수

도 있지만 [그림 3-6]과 같은 상으로 인하여 데이터에 한 왜곡이 심하

게 되어 사용이 불가능한 데이터가 된다. 인 치를 표 하는 까지

군집화를 용하면서 군집의 수를 객체의 수 이상으로 늘려 다면 참조해

야 하는 사 의 엔트리 수가 많아지게 된다. 사 의 엔트리 수가 늘어나게

- 30 -

되면 그에 따라서 사 을 가리키고 있는 포인터의 크기가 커져야 한다.

를 들면 사 의 엔트리 수가 256개 일 경우에는 포인터의 크기가 최소 8비

트로서 사 의 엔트리를 참조할 수 있는 반면, 엔트리의 수가 512개로 늘어

날 경우 9비트의 포인터가 필요하다.

3.4 K평균 군집화 기법을 용한 사 제작

벡터 데이터에 한 변환 과정을 거친 후 얻을 수 있는 디퍼런셜 벡터에

한 길이와 각도에 하여 각각 K평균 군집화 기법을 용하 다. K평균

군집화를 통하여 얻은 군집 심 값을 엔트리로 하는 사 을 제작하고 각

군집 내에 포함된 개체들을 사 의 엔트리를 가리키는 포인터로 변환하

다.

3.4.1 K평균 군집화 기법 선정 배경

연구에서는 디퍼런셜 벡터들에 하여 표값을 선정하여 이 표값에

각각의 디퍼런셜 벡터를 근사화 식에 의해 근사화 하게 된다. 이러한 일련

의 작업을 하기 해서 군집화 기법을 용하 다. 지식추출의 방법으로는

군집화 기법과 분류 기법이 있다. 군집화(clustering) 기법은 많은 데이터

집합에서 사 지식 없이 의미 있는 정보를 추출하기 한 방법이다. 분류

(classification) 기법은 사용자가 분류하고자 하는 체 데이터에 한 반

인 이해가 선행 되고, 이를 바탕으로 분류 기 을 정의해 주어야만 용

가능한 방법이다. 이러한 에서 본 연구에서는 데이터에 한 이해 없이도

용 가능한 무감독 군집 분석 기법을 용하 다.

연구에서 하나의 개체는 반드시 하나의 군집에 속해야만 한다. 이러한

에서 비 계층 군집화 기법을 선택 하 다. 계층 군집화를 용한 후 가

장 하 계층을 사용할 수도 있다. 하지만 계층 군집화는 군집의 심과

- 31 -

개체와의 거리를 이용하는 비 계층 방법과는 달리 개별 개체들 사이의 거

리를 선정된 거리 계산법에 의하여 모두 계산하여 거리 행렬을 작성해야 하

므로 연산 시간이 길어지는 문제 이 있다.

두 번째 선정 이유로는 재까지 개발된 군집화 기법 연산이 가장 간

단하면서 성능이 우수하기 때문이다. 임의로 주어지는 기 K개의 군집

심이 잘못 선정되어 개체가 잘못된 군집에 속하게 되더라도 반복 연산을 통

하여 타당한 군집으로 재 할당 하는 과정을 거치게 된다. 한 이러한 반복

된 계산 과정을 통하여 각 군집의 심 값 역시 자신의 군집 내에 할당된

개체들을 잘 표할 수 있도록 재계산 된다.

세 번째는 군집의 결과에 한 해석이 필요 없기 때문이다. K평균 군집화

기법의 단 은 해석의 어려움이다. 하지만 연구에서는 최종의 군집 결과를

이용하여 결과를 해석하는 과정이 생략된다. 연구에서 군집화 기법은 개체

들을 군집화하여 의미 있는 정보를 추출하기 함이 아니고, 물리 으로 가

까운 거리에 있는 개체들을 하나로 묶어 다른 군집과 구분을 지어주는 분할

(partition)의 역할을 수행한다.

하지만 K평균 군집화 기법의 단 으로는 기 값 K를 입력해 주어야 한

다는 것이 있다. 군집 수를 결정하는 K의 경우에는 무 을 경우 상 개

체를 정확히 반 할 수 없고, 무 많을 경우 연구 목 인 압축률을 높이는

데 걸림돌이 된다.

3.4.2 사 제작

군집화는 디퍼런셜 벡터의 길이와 각도에 하여 K평균 군집화 기법을

이용하여 수행된다. 제안된 방법에서는 2차원의 디퍼런셜 벡터를 1차원의

길이와 각도로 분리하 으므로 각각의 평균값을 이용하여 심을 계산한

다. 이 게 계산된 군집내의 표값을 엔트리로 하는 사 을 제작한다. 사

- 32 -

을 이용하여 각 개체를 개체가 속하는 군집의 표값을 가리키는 포인터

로 바꾸어 다.

이러한 일련의 과정을 통하여 압축된 데이터로는 공간 객체의 인

치를 표 하는 개체의 시작 집합, 시작 을 기 으로 상 인 치를

표 하는 디퍼런셜 벡터의 길이와 각도의 사 , 이를 가리키고 있는 두

개의 포인터 배열 집합이 있다.

3.5 근사화 요소의 결정

기존 연구에서 값의 근사화는 원본 데이터에 가장 가까운 사 값으로 부

여함으로써 수행하 다. 이러한 경우 표 이 가능한 값은 사 값의 가지

수로 제한되며 복원되는 값은 사 에 존재하는 값으로 한정된다. 기존 연구

의 근사화 방법을 사용하면 데이터 갱신시에 능동 으로 응하지 못하는

단 이 있다. 본 연구에서는 가장 가까운 값을 부여하는 근사화 신에 근

사화 함수와 소속함수를 통해서 사 값에 얼마만큼 근사한지를 정의하고,

정의된 근사화 요소의 배열을 장하는 방법 택하 다. 제안된 근사화 방법

으로 결국 사 값에 포함되지 않은 값들을 복원시에 표 할 수 있으며, 표

가능한 값의 가지수는 사 엔트리의 가지 수에 근사화 요소의 가지 수

를 곱한 수 만큼에 해당한다.

[그림 3-7]은 기존 연구의 단순화와 제안된 방법에 의한 근사화의 그림이

다. 그림에서 근사화 값이란 결국 복원되었을 때의 값을 의미한다. 기존 연

구의 경우 사 값으로의 근사화가 이루어지지만, 근사화 함수를 사용하면

사 값을 이용하여 원본 값에 가깝도록 근사화가 이루어져 더 좋은 정확도

의 복원데이터를 얻을 수 있다. 한, 갱신 데이터에 해서 기 구축된 사

을 이용하여 압축 복원할 수 있게 된다.

- 33 -

[그림 3-7] 두가지 근사화

기존 연구 근사화 본 연구 근사화

사 값

원본 값

근사화 값

3.5.1 근사화 함수

퍼지 집합 이론의 소속함수에 의해 얻어진 귀속도를 근사화 함수를 이용

해 정수의 형태로 장하여야 한다. 본 실험에서 귀속도는 양의방향과 음의

방향을 구별하여야 하므로 다음과 같이 사 엔트리 값을 기 으로 좌우로

50%의 범 를 갖도록 하 다.

소속함수식 :

μ(x)=1S

×xD

수식에서 D는 사 의 엔트리 값, x는 원본 데이터, S는 스 일을 의미한

다. 실험에서 S는 2로 하 으며, x와 D는 해당 원본 데이터와 그에 할당된

사 엔트리 값으로 실험하 다. 소속함수의 결과는 0～1까지의 실수에 해

당하며 0.5일 때 원본 데이터와 사 값이 같음을 의미한다.

근사화 함수는 삼각형 모양과 종 모양 두 가지를 사용하여 수행하 다.

종곡선의 경우 심 값 주변(귀속도가 높은 값)을 많이 포함할 수 있고, 삼

- 34 -

각 곡선의 경우 역에 동일한 분포로 값을 갖게 된다.

[그림 3-8] 삼각곡선과 종곡선

54 6 73210 8

0

1

종곡선과 삼각곡선을 실제 알고리듬에 용시킬 때 심 값의 왼쪽에 있

는지 오른쪽에 있는지를 구분하기 해 본 연구에서는 다음과 같은 함수식

을 사용하 다.

삼각곡선식 :

nxxf =)(

곡선식의 n은 근사화 요소의 총 가지수에 해당하며, x는 0에서 n까지의

정수를 의미한다. f(x)는 0에서 1까지의 수를 포함하며 이 0에서 0.5까지

는 사 값이 가리키는 값보다 원본 값이 작은 수임을 의미하고 0.5에서 1

까지는 원본 값이 큰 값임을 의미한다.

종곡선식 :

}1)4590{tan(21)( +−××= oo

nxxf

곡선식의 n은 근사화 요소의 총 가지 수에 해당하며, x는 0에서 n까지의

- 35 -

정수를 의미한다. 탄젠트 함수에 입력되는 각도의 값의 범 가 90〫 로 제한

되어 있으므로 f(x)는 0에서 1까지의 수를 포함한다. 이 0에서 0.5까지의

수는 사 값보다 작은 수를 의미하고 0.5에서 1까지의 수는 사 값보다

큰 값임을 의미한다.

근사화 요소의 결정은 소속함수의 결과와 근사화 함수의 결과가 가장 유

사할 때의 근사화 요소로 한다.

3.5.2 근사화 과정

의 함수식에 의해 압축을 수행하는 과정은 다음과 같다. 제작된 사 과

포인터를 이용하여 원본 디퍼런셜 값과 함수식에 의해 계산된 디퍼련셜 값

과의 차이가 최소가 되는 x 값을 구하여 그 값을 근사화 요소 배열에 장

한다. 근사화 요소의 장은 기존 방법에 비해 압축률 면에서 비효율 이지

만, 같은 수의 사 을 사용했을 경우 정확도와 갱신에 효율 이라는 장 이

있다.

디퍼런셜 벡터의 거리에 한 근사화과정의 를 들면 [그림 3-9]과 같

다. 먼 기존 연구의 근사화 방법을 이용해 압축되는 값과 가장 가까운 사

값을 찾아 해당 사 값의 포인터를 장한다. 장된 사 값과 원본값과

의 차이를 정의하기 해 두 사 값에 한 원본값의 귀속도를 계산한다.

계산된 귀속도와 가장 가까운 값을 나타내는 근사화 요소의 값 x를 찾아

장한다.

근사화 과정을 통해 사 과 사 을 가리키는 포인터, 근사화 요소를 장

하며, 복원시에는 이 세 개의 값으로 디퍼런셜 벡터의 길이와 각도를 재구

성한다.

- 36 -

[그림 3-9] 근사화 함수를 통한 압축

사 : ( 1, 10, 20, 30, 50, 70 )

근사화 함수 : 삼각 곡선식

근사화 요소의 총 가지 수 : 20

압축되는 값 : 13

가장 가까운 사 값 장 포인터 2 장

귀속도와 근사화 요소 계산 (스 일 2)

%6565.02013

2===

×사전값

원본값

에서20

)( xxf =

x는 13일 때 사 값 10의 130%에 해당

근사화 요소 13 장

갱신 과정은 새롭게 추가되는 데이터의 디퍼런셜 벡터를 추출하고, 추출

된 디퍼런셜 벡터의 길이와 각도와 가장 가까운 사 값을 찾은 후에 근사

화 요소를 결정하여 장하게 된다.

복원과정은 포인터가 가리키는 사 값에 장된 근사화 요소 x값을 복

원 식에 입하여 복원 디퍼런셜 벡터의 길이나 각도의 값을 구하게 된다.

복원식

)( xfSD ××=복원값

[그림 3-9]의 를 복원하면 [그림 3-10]와 같다. 장된 포인터로 사 값

을 추출하고 추출된 사 값과 근사화 요소 값을 복원식에 입하여 복원된

디퍼런셜 벡터의 길이 값을 재구성 할 수 있다.

- 37 -

[그림 3-10] 근사화 함수를 통한 복원

포인터 2 = 사 값 10 복원식 계산

13)13(2 10 =×× f복원값 : 13근사화 요소 13

3.6 벡터 데이터 압축 알고리듬

연구에서 제안된 압축 과정에 한 알고리듬은 [그림 3-11]과 같다.

[그림 3-11] 제안된 압축 알고리듬

첫 번째 단계는 각 공간 객체를 시작 좌표와 디퍼런셜 벡터의 나열로

분리하는 과정이다. 두 번째 단계는 디퍼런셜 벡터를 길이와 각도로 분리해

내는 과정이다. 세 번째 단계는 분리된 길이와 각도에 하여 각각 K평균

- 38 -

군집화를 수행하여 군집의 평균값을 엔트리로 갖는 사 을 제작한다. 마지

막으로 각각의 길이와 각도에 하여 근사화 함수를 통한 근사화를 수행하

여 사 의 엔트리를 가리키는 포인터로 변환하는 과정이다.

이러한 일련의 과정을 통하여 원래 하나의 이 16바이트로 장 되었던

것을 그 보다 작아진 두 개의 포인터와 두 개의 근사화 요소의 배열로 표

함으로서 체 데이터의 량이 어들게 된다.

3.7 압축 데이터 재구성

압축이 완료된 데이터를 압축의 역 과정을 통하여 원 데이터로 재구성할

수 있다. 각각의 길이와 각도 사 을 가리키고 있는 포인터를 실제 길이와

각도를 갖도록 엔트리를 가져온다. 엔트리를 가져오면서 압축시 용 던

근사화 요소를 이용한 근사화 복원식을 통해 각도와 길이의 디퍼런셜 값을

재구성 한다. 이 과정을 거치면 포인터의 배열 집합이 아닌 실제 길이와 각

도의 배열 집합을 얻을 수 있다. 이 게 얻어진 길이와 각도를 이용하여 계

산하면 의 상 인 치 좌표를 가지고 있는 디퍼런셜 벡터의 집합으로

재구성이 된다. 이 게 만들어진 디퍼런셜 벡터와 공간 객체의 인

치 좌표를 갖는 객체의 시작 을 이용하여 원래의 공간 객체로의 재구성이

가능하다.

- 39 -

제 4 장 실험 분석

4.1 실험

4.1.1 실험 방법

제시된 압축 방법의 성능을 정량 으로 평가하고, 기존 연구와의 비교를

통하여 타당성과 용 가능성을 단하고자 다음과 같은 실험을 하 다. 첫

번째 단계는 실험에 합한 데이터를 선정하는 단계이다. 실험에 사용된 데

이터는 서로 다른 특성을 가지는 두 개의 데이터이다. 하나는 치의 변이

폭이 크지 않은 데이터이고, 다른 하나는 치의 변이 폭이 커 갱신시에

새로운 값이 들어갈 가능성이 큰 데이터이다. 두 번째 단계는 제시된 압축

알고리듬을 실험 데이터에 용하는 단계이다. 이 과정에서는 선정된 두 종

류의 데이터를 기존 단순 근사화 하는 방법과 본 연구에서 제시된 방법을

용하여 결과를 도출하 다. 마지막 단계는 결과물을 분석하여 연구의 타

당성과 실제 데이터에 용 가능성을 부여하는 단계이다. 이 과정에서는 선

정된 두 데이터에 용된 두 개의 압축 방법에 한 압축률, 정보의 손실

정도, 최 오차를 비교 분석 한다.

갱신이라 함은 데이터의 수정, 추가를 의미하나 수정은 삭제 후에 다시

추가하는 작업으로 이루어진다. 따라서 본 연구에서는 갱신 작업을 추가의

작업으로만 수행하 다.

4.1.2 실험 데이터

- 40 -

제안된 벡터 데이터 압축 방법에 한 성능 평가를 해 길이와 각도로

분리해 군집화 기법을 용했던 사 기반의 압축 방법과 비교하 다. 갱신

되는 데이터를 기존 사 에 단순히 근사화 시키는 방법과 제안된 방법으로

각각 두 번의 실험을 하 다. 첫 번째 데이터로는 서울시 강서구, 양천구의

1:1,000 수치지도에서 면으로 표 되는 지형, 지물 , 건물을 나타내는

이어를 추출하여 실험에 용하 다. 실험에 사용된 지형지물은 [표 4-1]에

서 명시한 이어 분류코드를 이용하여 추출하 다.

[표 4-1] 실험에 사용된 수치지도 이어(국토지리정보원)

이어 분류 지형지물명

AAA001

AAA002

AAA003

AAA004

AAA005

AAA006

AAA007

AAA008

일반 주택

연립 주택

아 트

무벽 건물

온실

공사 건물

가건물

빌딩

이 게 추출된 데이터는 72016개의 폴리곤 형태를 가지며, 개별 인 치

를 나타내는 의 수는 모두 566607개 이다. [그림 4-1]은 서울시 강서구와

양천구 일 의 수치지도에서 추출한 건물 이어를 폴리곤 형태로 구성한

그림이다.

- 41 -

[그림 4-1] 첫 번째 실험 상 지역

두 번째 실험에는 서울시 양천구의 필지 데이터를 사용하 다. 서울 지역

의 편집지 도에서 양천구 지역을 추출하여 실험에 용하 다. 체 데이

터는 228,722개의 으로 구성된 25,914개의 폴리곤 데이터이다.

- 42 -

[그림 4-2] 두 번째 실험 상 지역

와 같이 두 개의 다른 데이터에 하여 두 가지 방법을 각각 용해 보

았다. 이 게 두 개의 데이터로 실험한 것은 데이터의 크기에 따른 결과를

비교해 보고, 특히 데이터의 값의 분포가 상이함에 따른 갱신에 한 오차

를 비교하기 함이다. 건물 데이터의 경우 건물 모양에 따라 디퍼런셜 벡

터의 각도와 길이의 값이 일정 역 내에 고르게 분포되어 있으나 필지 데

이터의 경우 분포된 값들의 변이가 크고 고르지 않다. 갱신 실험을 체 데

이터에서 일부분을 추출하여 갱신되는 데이터로 사용할 경우 디퍼런셜 벡

터의 분포는 갱신시에 추가되는 데이터의 값이 사 에 존재할 가능성을 의

미하는 것으로서 분포가 고른 건물 이어의 경우 사 에 없는 새로운 값이

들어올 가능성이 필지에 비해 다고 할 수 있다.

- 43 -

[표 4-2] 실험 데이터 특징

수치지형도 건물 데이터 편집지 도 필지 데이터

폴리곤 수

체 포인트수

상 지역

72016

566607

서울시 2개구

25914

228722

서울시 1개구

[그림 4-3] 확 된 건물 데이터

[그림 4-4] 확 된 필지 데이터

- 44 -

4.1.3 기존 연구 압축 방법 실험

기존 연구의 압축 방법은 공간 객체의 인 치를 가지고 있는 시작

을 제외하고 나머지 의 디퍼런셜 벡터의 길이와 각도에 K평균 군집화

를 용한다. 공간 객체의 좌표를 나타내는 , 즉 시작 을 따로 장

하고 나머지 을 이 에 장되는 과의 차이를 계산하여 길이와 각도의

디퍼런셜 벡터를 구하게 된다. 갱신을 고려해 건물과 필지 두 가지의 원본

데이터를 약 10% 씩 임의로 분리해 갱신을 한 데이터로 제작하 다. 새

롭게 제작된 원본과 갱신데이터는 [그림 4-6], [그림 4-7], [그림 4-9], [그림

4-10]과 같다. 압축 의 원 데이터에서 시작 을 분리해 내고 길이와 각도

의 인자에 해 디퍼런셜 벡터를 계산하는 과정의 결과물은 본 연구에서 제

시하는 압축 방법의 처리 과정에서 동일하게 사용된다.

갱신이 발생하면 갱신되는 데이터의 디퍼런셜 벡터를 길이, 각도 요소로

분리하고, 사 엔트리에 존재하는 값과 비교하여 가장 가까운 값을 가리키

는 포인터로 장하는 압축 과정을 거치게 된다.

복원시에는 디퍼런셜 벡터를 길이와 각도의 포인터가 가리키는 사 값

을 복원 값으로 표한다. 복원된 디퍼런셜 벡터는 시작 을 이용해 상

치를 계산함으로써 원 데이터로 복원된다.

- 45 -

[그림 4-5] 건물 원본 데이터

[그림 4-6] 갱신을 한 Target 데이터

[그림 4-7] 갱신 데이터

- 46 -

[그림 4-8] 필지 원본 데이터

[그림 4-9] 필지 Target 데이터

[그림 4-10] 필지 갱신 데이터

- 47 -

의 데이터에서 갱신이 발생하면 Target 데이터(갱신이 용되는 데이

터)의 사 을 이용해서 갱신되는 데이터를 표 하게 된다. 사 의 엔트리의

가지 수를 128, 256, 512, 1024 개로 제작하 을 때, Target 데이터의 길이와

각도 사 의 엔트리로 조합 가능한 디퍼런셜 벡터는 다음 그림과 같다.

[그림 4-11] 건물 디퍼런셜 엔트리

분포(128×128)


분포(256×256)


분포(512×512)


분포(1024×1024)

- 48 -

[그림 4-15] 필지 디퍼런셜 엔트

리 분포(128×128)


리 분포(256×256)


리 분포(512×512)


리 분포(1024×1024)

필지와 건물 데이터의 디퍼런셜 벡터의 분포 그림에서 확인할 수 있듯이

건물 데이터는 필지 데이터에 비해 디퍼런셜 벡터의 분포가 고르다. 이는

갱신되는 데이터가 사 에 있는 값일 가능성이 크다는 의미이며 실험을 통

한 결과에서도 건물과 필지 데이터의 갱신의 최 오차의 크기가 한 차

이를 보 다.

- 49 -

4.1.4 제안된 압축 방법 실험

연구에서 제시한 압축 방법은 기존 연구의 압축 과정에 근사화 함수를 이

용한 근사화 과정을 추가하 다. 기존 연구 압축 방법에서 객체의 시작 과

디퍼런셜 벡터의 길이와 각도를 추출하고 군집화 하는 과정은 동일하다. 기

존 연구 압축 방법과 동일한 두 데이터에 하여 길이와 각도가 각각 128,

256, 512, 1024 개의 엔트리를 갖는 사 을 제작하고 장되는 근사화 요소

를 16, 32, 64, 128, 256, 512 가지로 실험을 수행하 다. 삼각곡선형 함수와

종곡선형 함수식이 각기 다른 데이터에 어떤 향을 미치는지 확인하기

해서 실험에 사용되는 근사화 함수는 앞 에 설명 던 두 가지를 사용하

다.

근사화는 먼 기존 연구에서 수행되었던 단순 근사화를 수행하여 포인

터 배열에 장을 하고, 장된 포인터가 가리키는 사 값에 갱신되는 값이

얼마나 가까운지를 평가하는 근사화 함수를 용하 다.

다음 그림은 건물과 필지 데이터에서 각각 추출된 디퍼런셜 벡터를 길이

와 각도에 하여 K값을 128개로 놓고 근사화 요소의 가지 수를 16과 32개

로 변화시키면서 압축과 복원을 용한 결과이다. 를 들어서 근사화 값을

16개로 압축할 경우 디퍼런셜 벡터의 길이와 각도의 표 에 있어서 각각 16

× 128의 가지 수를 표 할 수 있게 된다.

기존 연구의 디퍼런셜 벡터는 사 제작에 쓰이는 데이터를 가장 잘 표

할 수 있는 벡터들로 구성되나, 제안된 방법에서는 갱신을 고려하여 사 에

쓰이는 벡터들을 심으로 그 주변 벡터들을 포함하게 구성된다. 근사화

스 일은 종곡선, 삼각곡선 모두 200%로 실험하 다.

- 50 -


분포 (삼각곡선 : 16가지 근사화)


분포 (종곡선 : 16가지 근사화)


분포 (삼각곡선 : 32가지 근사화)



- 51 -

[그림 4-23] 필지 디퍼런셜 엔트리 분포

(삼각곡선 : 16가지 근사화)

[그림 4-24] 필지 디퍼런셜 엔트리


[그림 4-25] 필지 디퍼런셜 엔트리 분포

(삼각곡선 : 32가지 근사화)

[그림 4-26] 필지 디퍼런셜 엔트리


동일한 군집수를 기 으로 분포 그림을 기존 연구와 비교하면 스 일이

200%이므로 기존 분포 그림의 2배에 해당하는 크기의 분포 원을 갖게 되

며, 사 값으로 표 할 수 있는 디퍼런셜 벡터를 심으로 좀 더 다양한 값

- 52 -

들을 표 할 수 있음을 확인할 수 있다.

데이터의 복원 과정은 기존 연구에서는 포인터가 가리키는 사 값을 해

당 디퍼런셜 벡터의 값으로 취하 으나, 제안된 방법에서는 포인터가 가리

키는 사 값과 근사화 요소 값을 복원식을 용하여 계산되는 값을 해당 디

퍼런셜 벡터 길이와 각도의 값으로 취하 다. 그 후에 일어나는 복원과정은

기존 연구의 방법과 동일하다.

4.2 결과 분석

두 가지 다른 특성을 지닌 데이터에 하여 각각 기존 연구 방법과 본 연

구에서 제안하는 방법을 용하여 다음과 같은 엔트리와 근사화 요소 가지

수에 따라 압축률, 치오차를 계산해 보았다.

4.2.1 기존 연구결과

[표 4-3]과 [표 4-4]를 확인하면 건물과 필지데이터의 최 오차는 많은

차이가 난다. 건물 데이터의 갱신 후 최 오차가 작은 이유는 건물데이터의

디퍼런셜 엔트리가 고르게 분포되어 있고, 갱신된 데이터의 디퍼런셜 벡터

값이 참고하는 사 의 값에 포함이 되어 있기 때문이다. 반면에 필지 데이

터의 최 오차가 사 수를 크게 해도 어들지 않는다. 왜냐하면 건물 데

이터의 디퍼런셜 엔트리의 분포가 고르지 않고, 갱신된 데이터의 디퍼런셜

벡터 값이 사 에 존재하지 않기 때문이다. 필지 데이터의 결과에서 최 오

차가 큼에도 불구하고 체 RMSE가 작은 이유는 약 10%의 은 양의 갱

신이 이루어 졌으며, 이 에서 사 에 존재하지 않는 값들이 기 때문이

다.

- 53 -

[표 4-3] 건물데이터에 기존 연구 방법 용 결과

군집수 압축률(%) RMSE(m) 최 오차(m)

128 79.09 0.3299 6.6606

256 77.88 0.1548 2.3161

512 76.62 0.0724 1.7548

1024 75.28 0.0342 1.5384

[표 4-4] 필지데이터 기존 연구 방법 용 결과

군집수 압축률(%) RMSE(m) 최 오차(m)

128 80.01 1.2131 492.9530

256 78.78 0.5355 489.0379

512 77.35 0.2480 489.4244

1024 75.69 0.1182 489.7993

4.2.2 제안된 방법의 결과

[표 4-5]는 제안된 방법 종형 근사화 함수를 건물데이터에 용하여

갱신을 한 결과이다. 여러 가지 사 의 엔트리 수와 근사화 가지 수를 실험

한 결과, 같은 압축률을 기 으로 사 수가 크고 근사화 가지 수가 작은 데

이터는 RMSE와 최 오차가 좋음을 확인할 수 있다. 건물 데이터의 갱신이

사 엔트리의 범 에 존재하는 값이었으므로 기존 연구와 제안된 연구에

서의 최 오차 크기의 차이가 작게 나타난다. 같은 RMSE를 기 으로 기

존 연구방법과 비교하면 압축률 면에선 약 5%～10% 떨어진다.

[표 4-5]의 결과를 확인하면 같은 압축률을 기 으로 군집수가 크며 근사

화 가지 수가 작을수록 더 좋은 RMSE를 나타내고 일반 으로 최 오차는

비슷하게 나타남을 확인할 수 있다. 따라서 근사화 가지 수는 군집수가 커

질수록 작게 선정하는 것이 압축률 면에서 좋다.

- 54 -

[표 4-5] 건물 데이터 제안된 방법 용 결과 (종곡선)

군집수근사화 가지

수압축률(%) RMSE(m) 최 오차(m)

128

16 74.43 0.2556 5.1004

32 73.26 0.1893 5.0066

64 72.10 0.1304 3.4817

128 70.93 0.0800 3.0845

256 69.77 0.0391 1.9277

512 68.60 0.0212 2.0434

256

16 73.22 0.1367 2.1070

32 72.05 0.1197 2.3505

64 70.89 0.0941 2.2287

128 69.72 0.0645 1.3663

256 68.55 0.0393 1.0032

512 67.39 0.0187 0.7650

512

16 71.96 0.0688 1.7548

32 70.79 0.0652 1.7548

64 69.63 0.0592 1.4754

128 68.46 0.0477 0.9930

256 67.30 0.0326 0.9390

512 66.13 0.0197 0.6008

1024

16 70.61 0.0336 1.5384

32 69.45 0.0324 1.5384

64 68.28 0.0308 1.4279

128 67.12 0.0281 0.5267

256 65.95 0.0231 0.5085

512 64.79 0.0165 0.3808

[표 4-6]는 삼각 근사화 함수를 사용한 결과이다. 건물데이터의 디퍼런셜

벡터가 고르게 분포되어있어 두 근사화 함수의 결과는 비슷하게 나왔다. 작

은 차이지만 같은 압축률과 같은 최 오차를 기 으로 종형 곡선의 근사화

함수를 용한 결과와 삼각 곡선의 근사화 함수를 용한 결과를 비교하면

종형 근사화 함수를 용한 결과의 RMSE 가 좋음을 알 수 있다. 이는 종형

근사화 함수의 특성상 기 값에 가까운 값을 선형 곡선 함수식에 비해 많이

- 55 -

표 할 수 있기 때문이다.

[표 4-6] 건물 데이터 제안된 방법 용 결과 (삼각곡선)



128

16 74.43 0.2774 5.0306

32 73.26 0.2118 5.1143

64 72.10 0.1484 5.3201

128 70.93 0.0985 3.1025

256 69.77 0.0492 2.9183

512 68.60 0.0261 1.8307

256

16 73.22 0.1410 2.1070

32 72.05 0.1269 2.4167

64 70.89 0.1042 2.2619

128 69.72 0.0734 2.2619

256 68.55 0.0490 1.3422

512 67.39 0.0236 0.8846

512

16 71.96 0.0697 1.7548

32 70.79 0.0666 1.7548

64 69.63 0.0618 1.6655

128 68.46 0.0527 0.9798

256 67.30 0.0373 0.9049

512 66.13 0.0246 0.6717

1024

16 70.61 0.0339 1.5384

32 69.45 0.0329 1.5384

64 68.28 0.0314 1.5384

128 67.12 0.0291 0.5267

256 65.95 0.0253 0.5052

512 64.79 0.0188 0.4124

[표 4-7]과 [표 4-8]은 필지 데이터에 근사화 함수를 사용한 결과이다. 기

존 연구와 비교하 을 때 같은 RMSE를 기 으로 압축률은 약 5%～10%

떨어지나 최 오차는 많이 좋아짐을 확인하 다. 종형 곡선의 근사식과 삼

각곡선의 근사식을 비교하면 근사요소의 가지 수가 작아도 최 오차의 크

- 56 -

기가 삼각 곡선보다 작음을 확인할 수 있다. 압축률과 같은 최 오차를 기

으로 종형 곡선의 근사화 함수를 용한 결과와 삼각 곡선의 근사화 함수

를 용한 결과를 비교하면 종형 근사화 함수를 용한 결과의 RMSE 가

좋음을 알 수 있다.

[표 4-7] 필지 데이터 제안된 방법 용 결과 (종곡선)



128

16 75.27 0.8231 28.7880

32 74.06 0.5581 27.2361

64 72.85 0.4080 13.9061

128 71.64 0.2461 8.8368

256 70.43 0.1138 7.4065

512 69.22 0.0566 6.6930

256

16 73.94 0.4566 28.8415

32 72.74 0.3860 26.3760

64 71.53 0.2811 8.2633

128 70.32 0.2038 6.6930

256 69.11 0.1150 7.1274

512 67.90 0.0549 6.6930

512

16 72.51 0.2259 29.1832

32 71.30 0.2072 26.7134

64 70.10 0.1768 6.6930

128 68.89 0.1353 6.6930

256 67.68 0.0975 6.6930

512 66.47 0.0558 6.6930

1024

16 70.86 0.1011 29.7758

32 69.65 0.0924 26.6126

64 68.44 0.0876 6.6930

128 67.23 0.0802 6.6930

256 66.02 0.0651 6.6930

512 64.81 0.0481 6.6930

- 57 -

[표 4-8] 필지 데이터 제안된 방법 용 결과 (삼각곡선)



128

16 75.27 0.9214 47.7828

32 74.06 0.6366 23.3201

64 72.85 0.4612 12.8082

128 71.64 0.3026 10.7850

256 70.43 0.1460 8.4512

512 69.22 0.0745 6.6930

256

16 73.94 0.4786 49.1842

32 72.74 0.4168 21.6203

64 71.53 0.3116 9.3713

128 70.32 0.2326 6.7297

256 69.11 0.1497 7.9913

512 67.90 0.0709 6.6930

512

16 72.51 0.2323 48.7672

32 71.30 0.2193 21.4190

64 70.10 0.1914 7.9816

128 68.89 0.1495 6.6930

256 67.68 0.1122 6.6930

512 66.47 0.0707 6.6930

1024

16 70.86 0.1058 48.5483

32 69.65 0.0989 20.7640

64 68.44 0.0904 7.6971

128 67.23 0.0826 6.6930

256 66.02 0.0709 6.6930

512 64.81 0.0525 6.6930

사 의 엔트리 값에 존재하지 않는 값이 갱신되었을 경우인 필지 데이터

의 실험 결과에서 체 인 RMSE는 사 의 엔트리 수와 근사화 요소의 가

지 수에 반비례 한다. 하지만 최 오차는 엔트리 수 보다 근사화 요소의 가

지 수에 향을 많이 받음을 알 수 있다.

종형 곡선 함수를 사용하는 것과 삼각곡선 함수를 사용하는 것에는 큰 차

- 58 -

이가 없기 때문에 삼각 곡선 함수의 결과와 기존 연구와의 결과를 분석하고

후에 삼각 곡선과 종곡선의 비교분석 하 다.

4.2.3 두 방식 간의 비교

압축률, RMSE, 최 오차량을 기 으로 기존 연구의 방법과 제안된 연구

의 방법을 비교 분석 하 다.

[그림 4-27]은 필지 데이터에 해 16, 32, 64, 128, 256, 512 가지로 근사

화 요소를 변화시키면서 삼각근사화 함수를 사용한 결과와 기존 연구의 결

과에 해 군집수와 최 오차량의 계를 나타낸다. 군집화를 수행하 던

사 에 갱신되는 값이 없게 되는 경우이므로, 아무리 군집수를 증가시켜도

최 오차는 어들지 않는다. 즉, 갱신되는 값의 정확도는 근사화 요소의

가지 수에 큰 향을 받게 된다.

[그림 4-27] 군집수와 최 오차의 계 (필지 데이터)

0.000000

100.000000

200.000000

300.000000

400.000000

500.000000

128 256 512 1,024

군집수

최대

오차

선행연구

16개 근사요소

32개 근사요소

64개 근사요소

128개 근사요소

256개 근사요소

512개 근사요소

- 59 -

[그림 4-28]은 기존 연구 방법과 제안된 방법의 군집수와 RMSE의 계

를 나타낸다. 동일한 군집수를 기 으로 기존 연구 방법이 압축률 면에서

좋지만 같은 수의 군집수로 제작된 사 에서 근사화 요소를 사용하면

RMSE가 향상되는 것을 볼 수 있다. 즉, 갱신을 고려해 근사화 함수를 통한

근사화를 수행했을 경우 기존 방법을 RMSE측면에서도 보완하는 것을 확

인할 수 있다.

[그림 4-28] 군집수와 RMSE의 계 (필지 데이터)

0.000000

0.200000

0.400000

0.600000

0.800000

1.000000

1.200000

1.400000

128 256 512 1,024

군집수

RM

SE

선행연구

16개 근사요소

32개 근사요소

64개 근사요소

128개 근사요소

256개 근사요소

512개 근사요소

[그림 4-29]는 기존 연구와 제안된 연구의 압축률에 한 RMSE 계이

다. 같은 RMSE를 기 으로 제안된 연구 방법이 기존 연구방법에 비해 약

5%～10% 압축률이 떨어짐을 확인할 수 있다.

- 60 -

[그림 4-29] 압축률과 RMSE의 계 (필지 데이터)

0.000000

0.200000

0.400000

0.600000

0.800000

1.000000

1.200000

1.400000

60.00 65.00 70.00 75.00 80.00 85.00

압축률 (%)

RM

SE

선행연구

16개 근사요소

32개 근사요소

64개 근사요소

128개 근사요소

256개 근사요소

512개 근사요소

다음 세 개의 그림은 건물 데이터에 한 계를 표시한 것이다. 건물 데

이터는 사 값의 범 내에 존재하는 값이 갱신되었으므로 군집수와 최

오차의 계와 군집수와 RMSE의 계 도표가 유사한 모양을 띠게 되었다.

군집수와 최 오차의 계에서 군집수를 증가시켜서 최 오차를 여서 수

렴되는 값보다 근사화 요소를 사용하며 군집수를 증가시켜서 수렴되는 최

오차가 더 작음을 확인할 수 있다.

- 61 -

[그림 4-30] 군집수와 최 오차의 계 (건물 데이터)

0.000000

1.000000

2.000000

3.000000

4.000000

5.000000

6.000000

7.000000

128 256 512 1,024

군집수

최대

오차

선행연구

16개 근사요소

32개 근사요소

64개 근사요소

128개 근사요소

256개 근사요소

512개 근사요소

건물의 체 RMSE는 필지 데이터의 RMSE와 거의 유사한 패턴을 나타

냈다.

[그림 4-31] 군집수와 RMSE의 계 (건물 데이터)

0.000000

0.050000

0.100000

0.150000

0.200000

0.250000

0.300000

0.350000

128 256 512 1,024

군집수

RM

SE

선행연구

16개 근사요소

32개 근사요소

64개 근사요소

128개 근사요소

256개 근사요소

512개 근사요소

- 62 -

[그림 4-32]는 압축률에 따른 건물데이터의 RMSE를 나타낸다. 데이터의

분포가 고르고 갱신되는 데이터가 사 값 범 내에 존재하므로 필지 데이

터에 비해 좋은 RMSE를 보여 다.

[그림 4-32] 압축률과 RMSE의 계 (건물 데이터)

0.000000

0.200000

0.400000

0.600000

0.800000

1.000000

1.200000

1.400000

60.0000 65.0000 70.0000 75.0000 80.0000 85.0000

압축률 (%)

RM

SE

선행연구

16개 근사요소

32개 근사요소

64개 근사요소

128개 근사요소

256개 근사요소

512개 근사요소

4.2.4 종형 곡선 근사화 식과 삼각 곡선 근사화 식의 비교

두 가지 근사함수를 비교하기 해 필지와 건물 데이터에 해 압축률,

RMSE, 최 오차에 해 분석하 다. 필지와 건물 모두 RMSE는 종형 근

사화 함수를 사용하 을 경우 모든 근사화 요소의 가지 수에서 삼각 근사화

함수를 사용한 경우보다 좋은 결과를 나타냈다. 최 오차는 두가지 함수의

용 결과에서 유사하게 나타났다. 이는 갱신되는 데이터와 사 구축에 사

용된 부분의 데이터가 사 값에 매우 가깝게 분포되어있으며, 근사화 함

수의 특성상 종형 근사화 함수가 삼각형 근사화 함수보다 사 값에 가까운

값들을 많이 표 할 수 있기 때문이다.

- 63 -

[그림 4-33] 압축률에 한 RMSE (필지 데이터)

16개 근사화 요소

0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

75.27 73.94 72.51 70.86

압축률 (%)

RM

SE


0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

74.06 72.74 71.30 69.65

압축률 (%)

RM

SE

삼각 근사화함수

종형 근사화함수


0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

72.85 71.53 70.10 68.44

압축률 (%)

RM

SE


0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

71.64 70.32 68.89 67.23

압축률 (%)

RM

SE




0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

70.43 69.11 67.68 66.02

압축률 (%)

RM

SE


0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

69.22 67.90 66.47 64.81

압축률 (%)

RM

SE



- 64 -

[그림 4-34] 압축률에 한 최 오차 (필지 데이터)


0.0000

10.0000

20.0000

30.0000

40.0000

50.0000

60.0000

75.27 73.94 72.51 70.86

압축률 (%)

최대

오차


0.0000

10.0000

20.0000

30.0000

40.0000

50.0000

60.0000

74.06 72.74 71.30 69.65

압축률 (%)

최대

오차




0.0000

10.0000

20.0000

30.0000

40.0000

50.0000

60.0000

72.85 71.53 70.10 68.44

압축률 (%)

최대

오차


0.0000

10.0000

20.0000

30.0000

40.0000

50.0000

60.0000

71.64 70.32 68.89 67.23

압축률 (%)

최대

오차




0.0000

10.0000

20.0000

30.0000

40.0000

50.0000

60.0000

69.22 67.90 66.47 64.81

압축률 (%)

최대

오차



256개 근사요소

0.0000

10.0000

20.0000

30.0000

40.0000

50.0000

60.0000

70.43 69.11 67.68 66.02

압축률 (%)

최대

오차

- 65 -

[그림 4-35] 압축률에 한 RMSE (건물 데이터)


0.000000

0.050000

0.100000

0.150000

0.200000

0.250000

0.300000

74.4264 73.2159 71.9602 70.6142

압축률 (%)

RM

SE


0.000000

0.050000

0.100000

0.150000

0.200000

0.250000

0.300000

73.2610 72.0505 70.7949 69.4488

압축률 (%)

RM

SE




0.000000

0.050000

0.100000

0.150000

0.200000

0.250000

0.300000

72.0957 70.8852 69.6296 68.2835

압축률 (%)

RM

SE


0.000000

0.050000

0.100000

0.150000

0.200000

0.250000

0.300000

70.9304 69.7199 68.4643 67.1182

압축률 (%)

RM

SE




0.000000

0.050000

0.100000

0.150000

0.200000

0.250000

0.300000

69.7651 68.5546 67.2989 65.9529

압축률 (%)

RM

SE


0.000000

0.050000

0.100000

0.150000

0.200000

0.250000

0.300000

68.5998 67.3893 66.1336 64.7876

압축률 (%)

RM

SE



- 66 -

[그림 4-36] 압축률에 한 최 오차 (건물 데이터)


0.0000

1.0000

2.0000

3.0000

4.0000

5.0000

6.0000

74.4264 73.2159 71.9602 70.6142

압축률 (%)

최대

오차


0.0000

1.0000

2.0000

3.0000

4.0000

5.0000

6.0000

73.2610 72.0505 70.7949 69.4488

압축률 (%)

최대

오차




0.0000

1.0000

2.0000

3.0000

4.0000

5.0000

6.0000

72.0957 70.8852 69.6296 68.2835

압축률 (%)

최대

오차


0.0000

1.0000

2.0000

3.0000

4.0000

5.0000

6.0000

70.9304 69.7199 68.4643 67.1182

압축률 (%)

최대

오차




0.0000

1.0000

2.0000

3.0000

4.0000

5.0000

6.0000

69.7651 68.5546 67.2989 65.9529

압축률 (%)

최대

오차


0.0000

1.0000

2.0000

3.0000

4.0000

5.0000

6.0000

68.5998 67.3893 66.1336 64.7876

압축률 (%)

최대

오차



- 67 -

4.2.5 근사화 스 일 결정

연구에서는 근사화 과정의 스 일을 200%로 실험하 다. 즉, 기존 제작된

사 엔트리 값의 0～2배의 크기까지 근사화 시킬 수 있다. 이는 갱신되는

데이터가 제작된 사 엔트리의 최 값의 두 배가 넘게 되면 히 표 하

지 못하는 상이 발생한다.

본 연구의 근사화 스 일 변화에 따른 RMSE와 최 오차를 평가하기

해 삼각 근사화 함수를 필지 데이터에 용하여 256개의 군집수를 기 으

로 150%, 200%, 400%, 600%의 스 일로 실험하 다.

[표 4-9]의 결과를 확인하면 같은 근사화 가지 수를 기 으로 스 일이

작은 경우 더 좋은 체 RMSE를 구할 수 있다. 이는 사 엔트리에 근사한

좌표들이 많고 더 촘촘히 표 할 수 있기 때문이다. 그러나 표의 150%의

에서 볼 수 있듯이 해당 스 일 이상의 값이 들어오면 최 오차가 어

들지 않음을 확인할 수 있다. 200%, 400%, 600%의 결과를 확인하면 큰 스

일에서 동일한 최 오차를 얻으려면 근사화 요소의 가지 수를 증가시켜

야 한다. 이는 곧 압축률이 감소함을 뜻하기 때문에 근사화 스 일 결정시

에 상되는 갱신 데이터의 크기를 고려해야 한다. 즉, 벡터 데이터의 활용

용도에 따라 각기 다른 주제와 특성을 띠게 되는데, 그 특성에 맞는 스 일

이 필요하다고 할 수 있다.

[그림 4-37] 필지 원본 [그림 4-38] 스 일 150% [그림 4-39] 스 일 200%

- 68 -

[그림 4-40] 스 일 400% [그림 4-41] 스 일 600%

[표 4-9] 스 일에 따른 실험 결과 (삼각곡선, 필지 데이터, 256군집수)

스 일근사화 가지


150 %

16 73.94 0.4179 113.1209

32 72.74 0.3136 85.9183

64 71.53 0.2347 72.4532

128 70.32 0.1520 65.4185

256 69.11 0.0744 62.7295

512 67.90 0.0403 61.1548

200 %

16 73.94 0.4786 49.1842

32 72.74 0.4168 21.6203

64 71.53 0.3116 9.3713

128 70.32 0.2326 6.7297

256 69.11 0.1497 7.9913

512 67.90 0.0709 6.6930

400 %

16 73.94 0.4703 9.2787

32 72.74 0.4399 9.9755

64 71.53 0.3858 9.6024

128 70.32 0.2855 8.9218

256 69.11 0.2125 6.6930

512 67.90 0.1366 8.0112

600 %

16 73.94 16.7949 442.7307

32 72.74 7.9578 236.5820

64 71.53 3.9811 112.1099

128 70.32 1.8575 61.7888

256 69.11 0.6889 22.0243

512 67.90 0.2318 11.3152

- 69 -

제 5 장 결론 고찰

본 연구에서는 모바일 환경에서 데이터의 갱신에 합한 벡터 데이터 손

실 압축 기법을 제시하고자 한다. 그리고 연구에서 제시한 압축 기법의 정

확도와 효율성을 확인하고자 기존 연구에서 제시된 방법과의 비교 분석을

시행하 다. 이러한 연구를 통하여 얻어진 구체 인 결론은 다음과 같다.

먼 본 연구에서는 기 제시된 군집화를 이용한 사 기반의 벡터 데이터

압축 방법이 갱신되는 데이터에도 효율 으로 용되는지 분석하고자 기존

연구의 방법을 용하여 실험하 다. 그 결과 데이터의 분포가 고르고 갱신

되는 데이터가 기존 제작된 사 엔트리의 범 에 존재하면 압축률 면에서

좋은 성능을 보 다. 그러나 데이터의 분포가 고르지 못하고 갱신된 데이터

가 사 엔트리 값의 범 를 벗어나면 체 RMSE는 변화는 작으나 큰 최

오차를 나타내는 문제 이 있는 것으로 분석되었다. 이러한 문제는 압축

된 데이터가 복원시에 부분 으로 상치 못하는 과 오차를 포함하는 것

을 의미하며, 결국 압축 데이터에 한 신뢰도를 하시키는 결과를 래한

다.

이러한 기존 연구의 문제 을 개선하고자 본 연구에서 설계한 압축 방법

을 용한 결과, 압축률 면에서는 5%～10% 정도 기존 연구 방법에 비해 낮

은 것으로 분석되었다. 그러나 갱신된 데이터에 해서는 향상된 정확도를

보여주었다. 즉, 같은 군집수를 기 으로 기존 연구와 비교하면 압축률 희

생이 5%일 경우 RMSE의 감소율은 8.91%～32.15%, 최 오차의 감소율은

93.92%～94.16%로 나타났다. 그리고 10%일 경우 RMSE의 감소율은

59.31%～95.33%, 최 오차의 감소율은 98.63%～98.64%로 나타나 기존 연

구에 비해, 부분 으로 나타날 수 있는 과 오차를 일 수 있어 압축 정확

도를 높일 수 있었다.

- 70 -

본 연구에서 제시된 압축방법은 재건축이 진행되거나 계획 인 건물데

이터나 도로 확장 공사가 일어나는 도로 경계면 데이터와 같이 부분 인 갱

신이 발생하는 지역에 효과 으로 활용될 수 있을 것으로 기 된다.

본 연구의 한계성을 토 로 향후 연구 과제를 고찰해 보면 다음과 같다.

첫째, 군집의 수와 근사화 요소의 가지 수 결정에 있어서 다양한 데이터에

한 실험이 필요하다. 본 연구에서 두 가지의 서로 다른 특성을 지닌 데이

터를 실험하 지만 객 인 군집의 수와 근사화 요소의 가지 수를 결정하

기는 어려웠다. 군집의 수와 근사화 요소의 가지 수는 서로 보완 인 계

를 지니고 있지만 압축되는 데이터의 종류와 양에 따라 한 군집과 근사

화 요소의 가지 수도 다를 것으로 상되므로, 여러 종류의 데이터에 한

실험을 통해 GIS에서 사용되는 벡터 데이터의 종류별로 한 군집수의

결정 기 에 한 연구가 필요하다. 둘째, 근사화 스 일의 결정은 상되

는 갱신데이터의 최 값에 따라 다르게 용되어야 한다. 이에 한 보완을

해서는 향후 실험 방법에 의해 압축되는 데이터의 활용, 주제, 지역에

따라 상 가능한 최 값을 결정하는 연구가 필요하다.

- 71 -

참고문헌

김미란, 최진오, 2002, “모바일 벡터지도 서비스를 한 클라이언트/서버 시

스템의 설계 구 “, 정보처리학회논문지 9-D 제5호

이동헌, 2005, “군집화 기법을 이용한 벡터데이터 압축 방법”, 인하 학교

지리정보공학과

Clarke, K. C., 1990, "Analytical and computer Cartography," Practice-Hall

Cox E., 박승렬 역, 1995, "Fuzzy Systems Handbook", 삼각형

Douglas, D. H., Peucker, T. K., 1973, "Algorithms for the reduction of the

number of points requred to represent a digitized line or its caricature,"

Canadian Cartographer, vol. 10, pp. 110-122

Freeman, H., 1961, "On the Encoding of Arbitrary Geometric

Configurations," IRE Trans. Electronic Computers, Vol. EC-10, pp.

260-268

Hair, J. F., Anderson, R. E., Thatham, R. L., and Black, W. C., 1992,

"Multivariate Data Analysis(3rd ed.), New York: Macmillan Publishing

Co.

Jain, A. K., Murty, M. N. and Flynn PJ., 1999, "Data Clustering: A

Review", ACM Computing Surveys, Volume 31, Issue 3, pp. 264 - 323

- 72 -

Jan, J., Kanber, M., 2000, “Datamining comcepts and Techniques",

Morgan Kaufmann

Lee, J., Wong, D. W. S., 2000,"Statistical analysis with Arcview GIS",

John Wiley & Sons Inc.

Lu, C. C., Dunham, J. G., 1991, “Highly Efficient Coding Schemes for

Contour Lines Based on Chain Code Representations,” IEEE

Transactions on Communications, 39(10):1511-1514

Macqueen, J., 1967, "Some methods for classification and analysis of

multivariate observations.", In Proceedings of the Fifth Berkeley

Symposium on Mathematical Statistics and Probability, 281–297

OGIS, 1999, Open GIS Consortium : Open GIS simple features

specification for SQL (Revision 1.1)

Sayood, K., 2000, "Introduction to Data Compression", Morgan KaufMann

Publishers

Shekhar, S., Huang, Y., Djugash, J. and Zhou, C., 2002, “Vector Map

Compression: A Clustering Approach”, Proceedings of the tenth ACM

international symposium on Advances in geographic information

systems, pp. 74 - 80

Weibel, R., 1987, "An adaptive methodology for automated relief

generalization ," Proceedings, AUTOCARTO 8, Eighth International

Symposium on Computer-Assisted Cartography, Baltimore, MD, pp.

42-49

감사의

석사 졸업논문을 작성하고 졸업을 하는 것이 까마득하게 느껴진 것이 엊

그제 같은데 벌써 2년이라는 시간이 흘러 졸업을 하게 되었습니다. 학부 졸

업 후 KCC에 입사하여 좋은 사회 경험을 익힌 후 다시 학교 품으로 돌아와

시작한 석사과정은 에게 다른 모습을 볼 수 있는 다른 을 주었습니

다. 더 깊게 사고하고, 더 넓게 볼 수 있는 방법을 배울 수 있었습니다. 2년

간의 석사 과정을 무사히 마칠 수 있게 도와 주 분들께 감사드립니다.

제가 다시 공부를 시작하는 데 있어 항상 심을 기울여 주시고, 제 논문

이 나오기까지 물심양면으로 도와주신 박수홍 교수님께 진심으로 감사드립

니다. 그리고, 그 구보다 지리정보공학에 해서 잘 가르쳐주신 이규성

교수님, 김계 교수님, 김병국 교수님, 조우석 교수님, 임삼성 교수님, 김태

정 교수님, 조동행 교수님께 감사드립니다. 언제나 열정을 가지시고 학생들

을 가르치시는 교수님이 계셔서 의 논문이 나올 수 있었습니다. 다시 한

번 감사드립니다.

처음 연구실에 왔을 때, 제가 다시 학교생활에 응할 수 있도록 도와

성언이형, 항상 연구실을 활기차게 해 용진이형, 윤호형, 석이형, 종윤

이에게 감사를 합니다. 그리고, 항상 와 함께 같이 생활을 하 던 호

이와 홍식이, 더 나은 연구실을 만들기 해 노력을 한 성휘형, 정엽, 성규,

동헌, 진희, 경기, 용익 에게도 고마움을 표합니다.

끝으로, 제가 다시 공부할 수 있도록 해주시고, 학업에 념할 수 있도록

항상 건강하시고, 에게 가장 큼 힘을 주셨던 부모님께 감사드리며, 기쁨

과 슬픔을 함께 했던 지 이에게 이 논문을 바칩니다.

a gis vector data compression method considering dynamic ... · 제공되는 공간데이터는...

Documents