(privacy-preserving time-series data mining) · 아니라 시계열 마이닝 과정에서의...

10
124 정보과학회논문지 : 데이타베이스 제 40 권 제 2 (2013.4) 본 연구는 방위사업청과 국방과학연구소의 지원으로 수행되었습니다. †† ††† 학생회원 종신회원 학생회원 논문접수 심사완료 : : : : : 강원대학교 컴퓨터과학과 [email protected] 강원대학교 컴퓨터과학과 교수 [email protected] (Corresponding author) 강원대학교 컴퓨터과학과 박사후연구원 [email protected] 20129102012116Copyright2013 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작 물의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처 를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회논문지: 데이타베이스 제40권 제2(2013.4) 프라이버시 보호 시계열 데이터 마이닝 (Privacy-Preserving Time-Series Data Mining) 홍선경 문양세 †† 김혜숙 ††† (Sun-Kyong Hong) (Yang-Sae Moon) (Hea-Suk Kim) 최근, 금융, 의료, 날씨 등 다양한 분야에서 광범위하게 사용되고 있는 시계열 데이터에 대한 프라이버시 보호 이슈가 활발히 연구되고 있다. 본 논문에서는 시계열 데이터를 대상으로 하는 프라이버시 보호 데이터 마이닝(privacy-preserving data mining: PPDM)의 기존 연구를 조사하고 분석한다. 이를 위해, 먼저 시계열 데이터에서 프라이버시가 무엇인지 살펴본다. 다음으로, 중앙집중형 환경에서의 시계열 데이터 교란 기법을 조사한다. 마지막으로, 분산 컴퓨팅 환경에서의 안전한 다자간 계산(secure multiparty computation: SMC) 및 암호화 기법들을 살펴본다. 최근, 소셜 네트워크, 클라우드 컴퓨팅 등에서 민감한 대용량 데이터가 많이 발생하는 추세로, 이들 데이터 대상의 프라이버시 보호 기법이 더욱 중요해지고 있 . 따라서 본 논문의 서베이 결과는 새로운 컴퓨팅 환경에 효율적으로 적용될 수 있는 시계열 데이터 대 상의 PPDM 기법 제안에 활용될 수 있다. 키워드: 프라이버시 보호, 시계열 데이터, 데이터 교란, 안전한 다자간 계산 Abstract Recently, privacy preserving issues have been actively studied on the time-series data that are widely used in a variety of application such as financial, medical, and weather analysis. In this paper, we survey and analyze the recent works of privacy-preserving data mining on time-series data. For this, first we investigate what is the privacy in time-series data. We then survey various perturbation techniques on time-series data in the centralized computing environment. We next investigate SMC(secure multiparty computation) and encryption techniques in the distributed computing environment. Social network and cloud computing applications incur a large volume of sensitive data, and thus, privacy preserving techniques for exploiting these sensitive data have become much more substantial in many research areas. Our survey results can be used for developing efficient and robust time-series based PPDM techniques that can be applied in the new computing environment. Keywords: privacy preserving, time-series data, data perturbation, secure multiparty computation 1. 서 론 최근, 모바일 및 인터넷을 통해 수집되는 데이터의 양 이 급증함에 따라, 정보 누출의 위험 또한 크게 증가하 고 있다. 이에 따라, 프라이버시를 보호하면서도 대용량 데이터를 어떻게 저장하고 관리 및 분석할 것인가에 대 한 관심이 높아지고 있다. 프라이버시 보호 데이터 마이 (PPDM)은 데이터의 프라이버시를 보호함과 동시에 대용량 데이터로부터 의미있는 지식을 추출하는 것을 목적으로 하는 것으로서, 2000년대 초반 처음 제안된 후 다양한 분야에서의 프라이버시 보호 기법이 활발하게 연구되고 있다[1,2]. 금융, 의료, 날씨, 프로세스 모니터링 등 다양한 분야 에서 사용되고 있는 시계열 데이터에 대해서도 프라이 버시 보호가 요구되고 있다. 시계열 데이터 마이닝 (time-series data mining)은 시계열 데이터로부터 숨 겨진 정보나 지식을 발견하는 것으로서, 패턴 발견 (pattern discovery), 클러스터링(clustering), 분류(classi- fication), 규칙 발견(rule discovery) 등이 있다. 일반적

Upload: others

Post on 19-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

  • 124 정보과학회논문지 : 데이타베이스 제 40 권 제 2 호(2013.4)

    ․본 연구는 방위사업청과 국방과학연구소의 지원으로 수행되었습니다.

    ††

    †††

    학생회원

    종신회원

    학생회원

    논문접수

    심사완료

    :

    :

    :

    :

    :

    강원대학교 컴퓨터과학과

    [email protected]

    강원대학교 컴퓨터과학과 교수

    [email protected]

    (Corresponding author임)

    강원대학교 컴퓨터과학과 박사후연구원

    [email protected]

    2012년 9월 10일

    2012년 11월 6일

    CopyrightⒸ2013 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작

    물의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다.

    이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처

    를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든

    유형의 사용행위를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야

    합니다.

    정보과학회논문지: 데이타베이스 제40권 제2호(2013.4)

    프라이버시 보호 시계열 데이터 마이닝(Privacy-Preserving Time-Series Data Mining)

    홍 선 경† 문 양 세

    †† 김 혜 숙

    †††

    (Sun-Kyong Hong) (Yang-Sae Moon) (Hea-Suk Kim)

    요 약 최근, 금융, 의료, 날씨 등 다양한 분야에서 광범위하게 사용되고 있는 시계열 데이터에 대한

    프라이버시 보호 이슈가 활발히 연구되고 있다. 본 논문에서는 시계열 데이터를 대상으로 하는 프라이버시

    보호 데이터 마이닝(privacy-preserving data mining: PPDM)의 기존 연구를 조사하고 분석한다. 이를

    위해, 먼저 시계열 데이터에서 프라이버시가 무엇인지 살펴본다. 다음으로, 중앙집중형 환경에서의 시계열

    데이터 교란 기법을 조사한다. 마지막으로, 분산 컴퓨팅 환경에서의 안전한 다자간 계산(secure multiparty

    computation: SMC) 및 암호화 기법들을 살펴본다. 최근, 소셜 네트워크, 클라우드 컴퓨팅 등에서 민감한

    대용량 데이터가 많이 발생하는 추세로, 이들 데이터 대상의 프라이버시 보호 기법이 더욱 중요해지고 있

    다. 따라서 본 논문의 서베이 결과는 새로운 컴퓨팅 환경에 효율적으로 적용될 수 있는 시계열 데이터 대

    상의 PPDM 기법 제안에 활용될 수 있다.

    키워드: 프라이버시 보호, 시계열 데이터, 데이터 교란, 안전한 다자간 계산

    Abstract Recently, privacy preserving issues have been actively studied on the time-series data

    that are widely used in a variety of application such as financial, medical, and weather analysis. In

    this paper, we survey and analyze the recent works of privacy-preserving data mining on time-series

    data. For this, first we investigate what is the privacy in time-series data. We then survey various

    perturbation techniques on time-series data in the centralized computing environment. We next

    investigate SMC(secure multiparty computation) and encryption techniques in the distributed

    computing environment. Social network and cloud computing applications incur a large volume of

    sensitive data, and thus, privacy preserving techniques for exploiting these sensitive data have become

    much more substantial in many research areas. Our survey results can be used for developing efficient

    and robust time-series based PPDM techniques that can be applied in the new computing environment.

    Keywords: privacy preserving, time-series data, data perturbation, secure multiparty computation

    1. 서 론

    최근, 모바일 및 인터넷을 통해 수집되는 데이터의 양

    이 급증함에 따라, 정보 누출의 위험 또한 크게 증가하

    고 있다. 이에 따라, 프라이버시를 보호하면서도 대용량

    데이터를 어떻게 저장하고 관리 및 분석할 것인가에 대

    한 관심이 높아지고 있다. 프라이버시 보호 데이터 마이

    닝(PPDM)은 데이터의 프라이버시를 보호함과 동시에

    대용량 데이터로부터 의미있는 지식을 추출하는 것을

    목적으로 하는 것으로서, 2000년대 초반 처음 제안된 후

    다양한 분야에서의 프라이버시 보호 기법이 활발하게

    연구되고 있다[1,2].

    금융, 의료, 날씨, 프로세스 모니터링 등 다양한 분야

    에서 사용되고 있는 시계열 데이터에 대해서도 프라이

    버시 보호가 요구되고 있다. 시계열 데이터 마이닝

    (time-series data mining)은 시계열 데이터로부터 숨

    겨진 정보나 지식을 발견하는 것으로서, 패턴 발견

    (pattern discovery), 클러스터링(clustering), 분류(classi-

    fication), 규칙 발견(rule discovery) 등이 있다. 일반적

  • 프라이버시 보호 시계열 데이터 마이닝 125

    그림 1 프라이버시 보호 시계열 데이터 마이닝

    으로 시계열 데이터 마이닝을 수행하기 위해서는 원본

    시계열을 데이터 마이너(주로 제3자)에게 제공해야 한

    다. 그러나, 시계열 데이터는 지문, 음성, 심전도 데이터

    등과 같이 개인을 식별할 수 있는 민감한 정보를 포함

    하는 경우가 많고, 데이터 제공자(소유자)는 프라이버시

    보호를 이유로 정확한 값을 제공하기를 원하지 않는다.

    따라서, 그림 1에서와 같이 프라이버시는 보호하면서 동

    시에 원본 시계열을 사용한 마이닝 결과와 동일한 (또

    는 유사한) 마이닝 결과를 얻기 위한 기법들이 연구되

    고 있다.

    본 논문은 시계열 데이터를 대상으로 하는 프라이버

    시 보호 기법을 데이터 교란 기법과 분산 프라이버시

    보호 기법으로 구분하여 조사한 서베이 논문이다. 데이

    터 교란 기법은 프라이버시에 민감한 원본 시계열을 감

    추기 위해 원본 시계열 대신 교란된 시계열만을 공개하

    는 기법이다. 이러한 교란 기법으로는 노이즈 추가, 압

    축 기반 교란, 기하학적 변환 교란 등이 있으며, 최근

    k-익명화(k-anonymity) 및 차등적 프라이버시(differen-

    tial privacy)에 대한 연구도 활발히 이루어지고 있다.

    분산 프라이버시 보호 기법은 분산 환경의 여러 데이터

    제공자들이 각자 자신이 소유한 데이터의 프라이버시는

    보호하면서도 공통된 마이닝 결과를 얻는 방법으로, 이

    분야에서의 대다수의 연구는 주로 SMC와 암호화(encryp-

    tion) 기법을 사용한다.

    본 논문의 구성은 다음과 같다. 제2절에서는 프라이버

    시에 민감한 시계열 데이터의 속성을 설명한다. 제3절에

    서는 기존 시계열 데이터의 교란 기법들을 조사하고 분

    석한다. 제4절에서는 분산 환경에서의 프라이버시 보호

    기법들을 조사하고 분석한다. 마지막으로 제5절에서 결

    론을 맺는다.

    2. 시계열 데이터의 프라이버시

    시계열 데이터는 각 시간 별로 측정한 (혹은 고정된

    구간 별로 계산된) 실수 값의 시퀀스로, 대표적인 예로

    주식 및 환율 데이터, 의료 데이터, 날씨 데이터, 음성

    및 지문 데이터 등이 있다[3]. 또한, 시계열 데이터는 일

    반적으로 고차원이라는 특성을 가지며, 시간이 지나는

    동안 데이터의 변화, 즉 진폭, 최고점, 최저점, 트렌드,

    주기와 같은 속성이 포함된다. 이러한 속성들은 다음과

    같이 데이터 제공자의 민감한 정보로 간주될 수 있기

    때문에, 데이터 마이닝 과정에서 비공개를 유지할 필요

    가 있다[4,5].

    ∙진폭은 신호의 강도를 나타낸다.

    ∙최고점과 최저점은 극단적인 상태를 나타내는 값들

    로, 극단적인 변화를 노출할 수 있다.

    ∙시계열 데이터의 트렌드를 관찰함으로써, 시계열 데

    이터의 미래 변화를 예측할 수 있다.

    ∙주기성은 시계열 데이터에서의 주기적 요소의 변화

    를 나타낸다.

    따라서, 시계열 데이터의 프라이버시에 민감한 속성을

    감추면서 동시에 동일한(혹은 유사한) 마이닝 결과를 얻

    기 위한 교란 기법들이 많이 연구되고 있다[6-9]. 시계

    열 데이터는 숫자로 구성되는 데이터의 특성상 교란을

    통해 쉽게 다른 다른 형태의 데이터로 변환할 수 있고,

    또한 교란된 데이터로부터 원본 데이터의 복원도 쉽게

    이뤄질 수 있다. 시계열 데이터 자체의 프라이버시뿐만

    아니라 시계열 마이닝 과정에서의 프라이버시를 보호하

    기 위한 기법들이 연구되고 있다[10,11].

    3. 시계열 데이터 교란 기법

    데이터 교란은 프라이버시 누출 방지를 위해 가장 많

  • 126 정보과학회논문지 : 데이타베이스 제 40 권 제 2 호(2013.4)

    그림 2 시계열 데이터 교란을 이용한 프라이버시 보호 데이터 마이닝 [16]

    (a) 원본 시계열 (b) 노이즈 시계열 (c) 노이즈가 추가된 시계열

    그림 3 랜덤 노이즈 추가에 따른 시계열 데이터 왜곡 예제

    이 사용되는 기법으로, 민감한 원본 시계열을 감추기 위

    해 원본 대신 교란된 시계열만을 공개하는 기법[12]이

    다. 데이터 제공자는 원본 시계열의 민감한 정보를 보호

    하기 위해 원본을 왜곡(distortion)[12,13], 변환(trans-

    formation)[14,15] 등의 전처리 과정을 수행한 후 데이

    터를 제공한다. 즉, 그림 2에서와 같이 데이터 제공자는

    교란된 (즉, 프라이버시 보호된) 데이터만을 제공하고,

    데이터 마이너는 교란된 데이터로부터 마이닝 결과를

    얻는다. 그런데, 데이터를 교란한 경우라도 마이닝 결과

    를 분석하여 원본의 프라이버시가 누출될 수 있다. 이를

    방지하기 위해서는 데이터의 교란 정도를 강하게 하여

    야 하는데, 그렇게 되면 프라이버시는 보호되더라도 마

    이닝 결과의 정확도가 떨어지는 문제가 있다[16]. 일반

    적으로 교란의 정도와 방법에 따라 마이닝 결과의 정확

    도와 프라이버시 보호 정도를 제어할 수 있다. 따라서,

    교란 기법은 두 가지 척도, 즉 프라이버시 보호 정도와

    정보의 손실 정도에 의해 평가된다[6].

    3.1 노이즈 추가

    노이즈 추가는 원본 시계열에 랜덤 노이즈를 추가하

    여 민감한 데이터를 숨기고자 하는 기법[12]으로, SAN

    (simple additive noise)과 MN(multiplicative noise)으

    로 구분한다. 원본 시계열을 X라 했을 때, SAN은 Y =

    X + E, MN은 Y = X * E를 적용하여 교란된 시계열 Y를

    만든 후, Y만을 데이터 마이너에게 제공한다. Agrawal

    과 Srikant[12]는 특정 분포로부터 생성되어 동일하게

    분산된 랜덤 노이즈를 사용하였다. 즉, 구간 [-, ]의

    정규 분포(uniform distribution)와 평균은 0, 표준편차

    는 인 가우시안 분포로부터 생성된 랜덤 노이즈를 사

    용하였다. 그림 3은 랜덤 노이즈 추가를 통한 데이터 교

    란의 예를 나타낸다. 그림 3(c)는 원본 시계열(그림

    3(a))에 랜덤 노이즈 시계열(그림 3(b))을 추가한 후의

    시계열이다. 이 예에서는 그림 3(a) 대신 그림 3(c)를

    제공하여 원본 시계열의 프라이버시를 보호한다. 그러나

    랜덤 노이즈는 예측 가능한 구조를 가지기 때문에, 노이

    즈 필터링 공격을 당할 수 있다. Kargupta 등[13]은 추

    가되는 랜덤 노이즈의 분산이 충분히 크지 않으면, 해당

    노이즈의 많은 부분은 제거되어 프라이버시를 거의 보

    호하지 못함을 실험으로 보였다.

    필터링 공격을 피하는 방법으로 노이즈 생성에 데이

    터의 상관관계를 이용하는 방법이 연구되었다[7,8]. Huang

    등[7]은 데이터 상관관계에 기반한 데이터 복원 및 노이

    즈 생성 방법으로, 주성분 분석(principle component ana-

    lysis: PCA) 기법과 베이즈 추정(Bayes estimate) 기법

    을 사용하였다. 이들은 원본 데이터 대부분의 에너지는

    주성분에 집중되는 반면, 노이즈는 주성분과 비-주성분

    모두에 고르게 분산됨을 지적하고, 상관된 랜덤 노이즈

    (correlated random noises) 개념을 제안하였다. 이는

    랜덤 노이즈가 주성분에 집중되면, 원본 데이터로부터

    랜덤 노이즈를 분리하기 어려워진다는 아이디어에 기반

    한다. 이에 기반하여 이들은 랜덤 노이즈의 상관관계를

    원본 데이터의 상관관계와 유사하게 만들어, 노이즈가

    주성분에 집중되도록 강제하였다. Mukherjee 등[9]은

    직교 변환과 랜덤 노이즈 왜곡의 좋은 특성들을 결합하

    는 거리 기반 프라이버시 보호 분류 기법을 제안하였다.

    이들은 PCA를 사용하여 원본 데이터 X를 Xp 로 변환

    한 후, Xp 에 라플라스 노이즈를 추가한다. 원본 시계열

    의 상관관계가 제거된 Xp 를 사용함으로써 상관관계에

    기반한 공격으로부터 원본의 프라이버시를 보호한다. 또

    한, 라플라스 노이즈를 추가함으로써 PCA 기반 공격으

    로부터 프라이버시를 보호한다. 이와 유사한 연구로, Li

  • 프라이버시 보호 시계열 데이터 마이닝 127

    등[8]은 상관관계의 보호를 위해 공개되는 시계열의 주

    성분을 따라 노이즈를 분배하는 기법을 제안하였다.

    기존 랜덤 데이터 교란 기법은 시계열 간의 거리-순

    서가 잘 보존되지 않아 마이닝 결과의 정확도가 떨어지

    는 문제점이 있다[15]. Moon 등[16]은 거리-순서를 보

    존하는 교란 기법을 제안하였다. 시계열 간의 거리-순서

    를 보존하기 위해 이들은 노이즈 평준화 개념을 제안하

    였는데, 노이즈 평준화는 백색 노이즈의 평균이 0이기

    때문에 노이즈의 합이 0에 가까워진다는 특성을 의미한

    다. 이들은 교란된 (프라이버시 보호된) 시계열 간의 거

    리 계산 시, 엔트리 각각의 거리를 계산하는 대신 엔트

    리들의 묶음의 평균에 대한 거리를 계산함으로써 노이

    즈 평준화 효과를 발휘하고, 이를 통해 클러스터링의 정

    확도를 높이고자 하였다.

    다음으로, Jin 등[17]은 영역에 따라 노이즈 정도를

    달리하는 영역 기반 교란 기법을 제안하였다. 기존 가우

    시안 백색 노이즈 추가는 각 시계열의 모든 단일 차원

    에 동일한 양의 노이즈를 분배한다. 그러나, 각 시계열

    의 분류 성능에 미치는 정도가 다를 수 있으므로, 각 시

    계열마다 추가되는 노이즈 정도를 달리할 필요가 있다.

    이 같은 직관에 기반하여, 이들은 시계열 전체의 분류

    패턴 분석을 통해, 시계열들을 일치 영역(accord region)

    과 불일치 영역(discord region)으로 구분하고, 일치 영

    역은 불일치 영역보다 더 많은 노이즈를 추가함으로써

    불일치 영역의 주요 패턴을 보호하면서 동시에 분류 성

    능을 향상시켰다.

    3.2 압축 기반 교란

    변환(transformation)은 시계열을 좀 더 낮은 차원의

    새로운 특성(feature) 공간으로 매핑시키는 것으로, 차원

    수가 낮은 특성 벡터를 얻기 위해 시계열에 적용된다.

    이렇게 특성 벡터로 변환된 시계열은 빠른 검색을 위해

    R-트리와 같은 다차원 트리로 인덱스 될 수 있다. 이러

    한 변환 방법으로, 이산 푸리에 변환(discrete Fourier

    transform: DFT), 이산 웨이블릿 변환(discrete Wavelet

    transform: DWT), 특이값 분해(singular value decom-

    position: SVD) 등이 있다. 특히, DFT와 DWT 기법은

    높은 정확도로 유클리디안 거리를 보존한다는 특성이

    있어 시계열 데이터의 프라이버시 보호에 자주 사용되

    고 있다[14,15,18].

    Mukherjee 등[15]은 프라이버시 보호 기법에 푸리에

    변환 기법을 처음 적용하였다. 분류 과정에서 원본 시계

    열 자체를 사용하는 것이 아니라, 이의 특성을 반영하는

    몇 개의 푸리에 계수만을 사용함으로써 원본 시계열을

    보호하였다. Kim 등[18]은 DFT의 경우 역변환을 통해

    원본과 유사한 시계열이 복원될 수 있다는 문제점을 지

    적하고, DFT 변환 후 위상을 제외한 진폭만을 마이닝

    에 사용하는 DFT 진폭 기반의 프라이버시 보호 클러스

    터링 기법을 제안하였다. 또한, Xu 등[19]은 고속 푸리

    에 변환(fast Fourier transform)에 기반한 데이터 왜곡

    방법을 제안하고, 실험을 통해 SVD 기반 기법과 비교

    하여 그 우수성을 입증하였다.

    최근 웨이블릿을 사용한 프라이버시 보호 기법이 제

    시되고 있다[14,20-22]. Papadimitriou 등[14]은 DFT와

    DWT에 기반한 프라이버시 보호 기법을 제안하였다.

    이들은 변환 계수는 에너지가 몇 개의 계수에만 집중되

    는 반면, 모든 계수에 동일하게 노이즈를 부여한다는 것

    을 지적하고, 정해진 임계치 보다 큰 진폭을 가지는 “중

    요한” 계수만을 교란하는 기법을 제안하였다. Bapna 등

    [20]은 주요한 수치적 속성 값을 보호하면서 동시에 차

    원 축소를 목적으로 Haar웨이블릿과 Duab-4 변환을

    사용한 프라이버시 보호 기법을 제안하였다.

    Liu등[22]은 원본의 통계적 속성을 유지하기 위해 웨

    이블릿 변환과 정규화에 기반한 전략을 사용한다. 다자

    간 협력적인 분석 상황에서 다른 웨이블릿 기저(basis)

    를 적용하는 다중 기저 웨이블릿 기반 교란 기법을 제

    안하고, 실험을 통해 SVD 기반 기법과 비교하여 효율

    성 및 정확성을 보였다. 이외에도, Hajian 등[21]은 Haar

    웨이블릿 변환과 스케일링 데이터 교란(scaling data

    perturbation)을 결합하는 프라이버시 보호 클러스터링

    기법을 제안하였다. 이들은 이산 코사인 변환(discrete

    cosine transform) 기법 등과 비교하여 높은 프라이버

    시 보호 정도를 제공할 수 있음을 실험으로 보였다.

    3.3 기하학적 변환 교란과 응축 기반 교란

    교란 기법은 마이닝 결과에 영향을 주는 데이터의 주

    요 속성(차원)은 물론 속성 간의 상관관계를 변화시킬

    수 있다. 즉, 랜덤 노이즈 왜곡 기법은 각 차원을 독립

    적으로 처리하여 차원 간 상관관계가 무시된다는 문제

    점이 있으며, DFT와 DWT 변환 기반 프라이버시 보호

    기법은 주로 데이터 압축이나 거리-순서 보존에 초점을

    맞출 뿐 상관관계는 고려하지 않는다는 문제점이 있다.

    데이터 간 상관관계 및 민감한 속성을 보호하기 위한

    프라이버시 보호 기법으로 기하학적 데이터 변환(geo-

    metric data transformation)[23,24]과 응축 기반 교란

    (condensation based perturbation)[25]이 제안되었다.

    기하학적 교란 기법은 이미지 처리에서 주로 사용되

    는 회전, 평행 이동(translation), 스케일링을 데이터 교

    란에 이용하는 것으로서, Chen 등[24]은 회전 교란 기

    법을 제안하였다. 이 기법은 원본 데이터 집합을 X =

    [x1 ... xm] (이 때, xi 는 벡터로 표시된다), Rd×d 를 회전

    행렬이라 했을 때, X의 기하학적 회전 g(X) = RX를 통

    해 데이터를 교란한다. 특히, 이 기법은 모든 차원을 전

    체적으로 같이 교란한다는 특징이 있다. 이들은 회전 교

  • 128 정보과학회논문지 : 데이타베이스 제 40 권 제 2 호(2013.4)

    (a) 회전 중심 근처의 문제점 (b) 회전 행렬 추론의 문제점

    그림 4 회전 교란 기법과 취약점[26]

    란의 프라이버시 정도를 평가하기 위해, 기존 단일 차원

    의 분산 기반 프라이버시 척도[12]를 다차원을 위한 척

    도로 확장하였다. 또한, Oliveira 등[23]은 노이즈 추가

    와 회전, 평행 이동, 스케일링 교란의 결합을 고려하여,

    프라이버시 보호 정도 및 클러스터링 결과의 정확성을

    높였다.

    Chen 등[24,26], Mohaisen 등[27]은 기하학적 교란에

    가능한 공격, 즉 ICA 기반 공격, 회전 중심에 대한 공

    격, 거리-추론 공격을 논의하였다. 회전 교란은 기본적

    으로 원점을 중심으로 데이터들을 회전시켜 교란한다.

    그런데 그림 4(a)에서 볼 수 있듯이 원점 근처의 점들

    은 교란 후에도 여전히 원본과 유사하기 때문에, ICA

    기반 공격으로부터 취약한 문제점이 있다. 또한, 몇 개

    의 점들이 노출된다면 그림 4(b)에서와 같이 점과 거리

    관계를 사용하여 원본 데이터를 복원하는 것이 가능한

    문제점이 있다.

    회전 교란의 단점을 보완하기 위한 기법들이 Chen 등

    [26], Mohaisen 등[27]에 의해 제안되었다. Chen 등[26]

    은 노이즈 추가와 거리 보존 데이터 교란을 결합하여 회

    전 교란의 단점을 보완하였다. 다음으로, Mohaisen 등

    [27]은 다중 회전 기반 변환 기법을 제안하였다. 즉, 데

    이터 제공자는 원본 X를 정규화한 후, 데이터를 n 개의

    동일 부분, 즉 X' = { ′ || ′ ||…|| ′}으로 나눈다. 다음으로, n 개의 다른 랜덤 시드를 생성한 후, 각 시드 i

    를 사용하여 X의 대응 부분을 회전시키기 위한 직교 행

    렬(orthogonal matrix) R를 만든다. 마지막으로, R를 이용하여 원본 데이터를 회전된 데이터 Y' = { ′ || ′ ||…|| ′} = { ′ ||…|| ′}로 만든 후, Y'만을 공개함으로써 프라이버시를 보호한다. 이 기법은 변환된 데

    이터에 대해 스칼라 곱과 거리를 부분적으로 보호하는

    특징이 있다. 이후 회전 교란은 제4절에서 소개하는 분

    산 프라이버시 보호 기법에서도 사용되었다[28,29].

    응축 기반 교란 기법은 Aggarwal 등[25]에 의해 제

    안된 새로운 분할 기반 접근법으로, 교란된 데이터의 차

    원 간 상관관계를 원본 데이터와 근접하게 매치시키는

    방법이다. 먼저 원본 데이터는 최소 k개의 객체를 가지

    는 응축 그룹 G = { }로 나눈다. 이 때 각 G

    는 독립적으로 교란되는데, 각 그룹 중심의 객체 하나를

    선택한 후 나머지 (k-1)개의 객체들은 원본 데이터의

    분포와 공분산이 유사한 다른 객체로 다시 만들어진다.

    이렇게 만들어진 익명 데이터 집합은 원본 데이터 집합

    의 차원 간 상관관계를 포함하여, 원본 데이터의 분포와

    공분산을 근접하게 보호하여 마이닝의 정확도를 높이게

    된다. 하지만, 이 같은 응축 교란 기법은 각 그룹의 지

    역성이 작을수록 높은 신뢰도로 원본 데이터가 추정될

    수 있다는 문제점이 있다[6].

    3.4 k-익명화

    기존 k-익명화는 동일한 속성 값을 가지는 데이터를

    k개 이상으로 유지하여 데이터를 공개하는 방법이다

    [30]. 즉, 지정된 속성이 가질 수 있는 값을 k개 이상으

    로 유지하여 프라이버시 누출을 방지한다. k-익명화는

    한정된 수의 속성으로 구성된 테이블 형태 데이터의 프

    라이버시 보호에 효과적이며, 민감한 데이터를 숨기기

    위한 원리로 일반화(generalization), 은폐(suppression),

    분해(anatomization), 치환(permutation) 등을 사용한다

    [30]. 이 같은 k-익명화는 많은 연구를 거쳐 l-diversity,

    t-closeness, -differential privacy 등으로 여러 개념

    이 추가되어 확장되고 있다.

    기존 몇몇 연구들에서 스트리밍 데이터 또는 궤적

    (trajectory) 데이터를 익명화하기 위한 기법들이 제안

    되었다[31-33]. 궤적 데이터는 주어진 객체가 이동하는

    장소들의 시퀀스로, {(x1, y1, t1), (x2, y2, t2), …, (xn, yn, tn)}

    과 같이 시계열과 유사하게 정의될 수 있다[33]. Li 등

    [31]은 데이터 스트림의 k-익명화를 지속적으로 유지하

    기 위한 SKY(Stream K-anonYmity)라 부르는 새로운

    기법을 제안하였다. Pensa 등[32]은 k-익명화와 시퀀스

    를 숨기는 접근법을 결합하였는데, 이 기법은 빈번하지

    않은 k 개의 패턴 시퀀스들을 숨김으로써 k-익명화를

    유지한다.

    기존 k-익명화를 시계열에 그대로 적용할 경우, 시계

  • 프라이버시 보호 시계열 데이터 마이닝 129

    열의 심각한 패턴 손실을 초래한다[34]. 따라서, 시계열

    의 패턴을 보호하는 익명화 기법으로 (k, P)-익명화 기

    법이 제안되었는데[34,35], Shang 등[35]과 Shou 등[34]

    은 범위 질의뿐만 아니라 패턴 유사 질의(패턴 매칭)를

    유지하면서 시계열 데이터를 익명화하는 문제를 고려하

    였다. (k, P)-익명화는 집합을 k개의 서브그룹으로 나누

    는데(k 요구조건), 이때 각 그룹은 동일한 QI(quasi-

    identifier) 패턴 표현을 가지는 P개의 객체를 가진다(P

    요구조건). 이를 통해 k와 P의 두 수준에서 익명화를

    보장하면서, SAX[3] 등으로 표현된 패턴을 추가적으로

    제공하여 각 시계열의 패턴 정보를 보호한다. 기존 기법

    들은 개인의 데이터 익명화를 제공하는 반면, Chertov

    등[36]은 그룹 익명화(group anonymity)를 제공하기 위해

    웨이블릿 변환을 사용하는 새로운 기법을 제안하였다.

    3.5 기존 데이터 교란 기법의 비교

    표 1은 지금까지 소개한 기존 데이터 교란 기법들의

    특징을 요약한 표이다. 표에서 보듯이, 기존 기법들을

    랜덤 노이즈, 상관관계 기반 노이즈, 차원 축소, 거리 보

    존, 사용된 마이닝 애플리케이션에 따라 분류하였다. 참

    고문헌 [12,16]은 차원간 추가되는 노이즈의 양을 동일

    하게 하는 반면, [7,8,17]은 상관관계 기반 노이즈를 사

    용하여 차원(또는 계수)에 추가하는 노이즈의 양을 다르

    게 하였다. 특히, [16]은 노이즈 평준화 효과를 활용하여

    교란된 시계열 간 상대적인 거리를 보존한다. 참고문헌

    [15,18]은 원본 시계열 대신 푸리에 계수(또는 진폭)를

    마이닝에 사용함으로써 프라이버시를 보호하였고, [24,27]

    은 회전을 데이터 교란에 이용하였다. 특히, [27]은 다중

    회전을 통해 ICA 공격에 취약한 회전 교란의 단점을

    보완하면서 스칼라 곱과 거리를 부분적으로 보호하였다.

    노이즈를 추가하는 데이터 교란 기법들은 기존 마이닝

    표 1 기존 시계열 교란 기법의 비교

    기존

    기법

    랜덤

    노이즈

    상관관계

    기반 노이즈

    차원

    축소

    거리

    보존

    마이닝

    애플리케이션

    [12] ○ X X X ∙

    [16] ○ X X △ 클러스터링

    [7, 8] X ○ X X ∙

    [17] X ○ X X 분류

    [15] X X ○ ○ 분류

    [18] X X ○ ○ 클러스터링

    [24] X X X ○ 분류

    [27] X X X △ 클러스터링

    [23] ○ X X △ 클러스터링

    [14] X ○ ○ ○ ∙

    [21] X X ○ ○ 클러스터링

    [26] ○ X X △ 분류

    (○: positive, X: negative, △: semi-positive)

    알고리즘에 적용이 간단하고, 추가되는 노이즈의 양에

    따라 마이닝 결과의 정확도와 프라이버시 보호 정도를

    제어할 수 있어서, 다른 프라이버시 보호 기법과 결합되

    어 사용되기도 한다. 참고문헌 [23,26]은 기하학적 변환

    교란과 노이즈 추가를, [14]는 압축 기반 교란과 노이즈

    추가를 각각 결합하였다. 또한 [21]은 압축 기반 교란과

    스케일링 교란 기법을 결합하여 시계열의 프라이버시를

    보호하였다.

    4. 분산 프라이버시 보호 기법

    분산 프라이버시 보호 기법은 마이닝 대상 데이터들

    이 분산되어 있을 때 사용하는 기법으로, 데이터 제공

    자(노드)들이 직접 마이닝 과정에 참여한다. 그림 5에서

    와 같이 각 노드별로 마이닝을 수행한 후 그 결과를 다

    른 노드와 공유하거나 최종 노드에 전송하고, 최종 노

    드에서는 개별 노드의 중간 결과를 집계하여 최종 마이

    닝 결과를 도출한다. 이 같은 마이닝 과정에서 시계열

    데이터의 프라이버시 보호를 위해 주로 안전한 다자간

    계산(SMC)을 사용한다. SMC는 분산된 여러 노드가

    자신의 (시계열) 데이터 원본은 공개하지 않으면서도

    합계, 평균, 거리 등의 집계 값을 계산하는 기법으로,

    A. C. Yao[37]가 비교(comparison)의 SMC를 제안한

    후, 여러 연산들에 대한 SMC가 제안되었다[38-40]. 이

    같은 SMC 프로토콜의 기본 연산을 사용하여 클러스터

    링, 분류, 규칙 발견 등을 처리하는 안전한 해결책이 제

    시되었다.

    4.1 안전한 스칼라 곱과 안전한 유클리디안 거리

    클러스터링, 분류, 유사 검색 등과 같은 마이닝 기법

    에서 두 시계열 간 유사 정도를 판단하기 위해 유클리

    디안, DTW(dynamic time warping) 등 여러 가지 거

    리 함수가 사용될 수 있다. 이 중 스칼라 곱을 안전하게

    그림 5 분산 환경의 프라이버시 보호

  • 130 정보과학회논문지 : 데이타베이스 제 40 권 제 2 호(2013.4)

    계산한다면 유클리디안 거리, 코사인 유사도 또한 안전

    하게 계산할 수 있다. 따라서 이를 응용하는 많은 분야

    에서 시계열의 프라이버시 보호가 가능하여, 스칼라 곱

    에 대한 안전한 계산이 많이 연구되었다[41-43].

    프라이버시가 보호된 상태에서 두 벡터의 스칼라 곱을

    계산하기 위해, 준동형 암호화(homomorphic encryption)

    [38], 랜덤 행렬(random matrix)[39], 안전한 교집합[41]

    등을 사용하는 기법들이 제안되었다. Du 등[38]은 준동

    형 암호화에 기반한 프로토콜을 제안하였다. 또한, 원본

    데이터를 숨기기 위해 원본 데이터에 랜덤 값(random

    number)을 추가하는 교란 기법을 사용하였다. Vaidya

    등[39]은 두 주체간 데이터가 수직적으로 분산되어 있을

    때, 데이터 X를 보내는 대신 랜덤 값 R1, ..., Rn에 의해

    생성된 X' = x1 + c1,1 * R1 + c1,2 * R2 + … + c1,n * Rn 을 전

    송함으로써 프라이버시를 보호하고자 하였다. 하지만,

    Goethals 등[44]은 [38,39]의 프로토콜이 안전하지 않음

    을 지적하였다. 즉, 0과 1의 값만을 가지는 n-차원 데이

    터를 고려하는 Vaidya 등[39]의 스칼라 곱 계산은 안전

    하지 않으며, Du 등[38]의 기법은 이진 벡터를 처리할

    수 없다는 것이다. 또한, Goethals 등은 준동형 암호화에

    기반한 새로운 스칼라 곱 프로토콜을 제안하고, [38,39]

    의 기법에 비해 안전하고 통신 비용을 줄일 수 있음을

    증명하였다.

    이외에도 Wong 등[45]은 거리 복원(distance-reco-

    verable)이 불가능한 비대칭 스칼라 곱 보존 암호화를

    제안하였다. 이 기법을 사용한다면, 질의 시계열과 데이

    터 시계열이 같더라도 질의와 데이터 시계열을 다르게

    암호화하여 프라이버시를 보호하는 것이 가능하다.

    Ravikumar 등[41]은 안전한 스칼라 곱 계산을 이용하

    여, TFIDF, SoftTFIDF, 유클리디언 거리 측정과 같은

    표준 거리 측정의 안전한 계산에 사용하였다.

    4.2 프라이버시 보호 질의 처리

    분산 프라이버시 보호 데이터 마이닝에서는 데이터

    시계열의 프라이버시뿐 아니라 질의 시계열의 프라이버

    시도 중요한 이슈이다. 프라이버시 보호 질의 처리는 질

    의 및 데이터 시계열의 어떠한 정보도 누출하지 않으면

    서 범위 질의 또는 k-NN 질의를 안전하게 처리하는 것

    을 목적으로 한다. 이를 위해, 그림 6에서와 같이 암호

    화된 데이터베이스에 직접 질의를 수행하거나, SMC 프

    로토콜을 사용하는 기법들이 제안되고 있다. Agrawal

    등[46]은 순서-보존 암호화 기법을 제안하였는데, 이 기

    법은 특별한 해독 과정없이 암호화된 데이터베이스에

    직접 범위 질의를 수행한다.

    다차원 데이터의 안전한 범위 질의 처리를 위해 Chen

    등[29]은 RASP(RAndom SPace Encryption) 접근법을

    제안하였는데, RASP는 차원의 순서를 보존하지 않으며

    그림 6 암호화된 데이터베이스에서의 질의 처리

    볼록성질(convexity)을 보존한다는 특징이 있다. 또한,

    안전하게 질의를 처리하기 위한 SMC 프로토콜로, Hu

    등[47]은 클라우드 컴퓨팅 환경에서 준동형 암호화에 기

    반하여, R-트리에 대한 k-NN을 처리하는 안전한 프로

    토콜을 제안하였다. 또한, Shaneck 등[48] 안전한 k-NN

    검색이 이상치 탐지(outlier detection), SNN(shared

    nearest neighbor) 클러스터링, k-NN 분류에 어떻게

    사용될 수 있는지를 보였다.

    4.3 프라이버시 보호 집계

    Dwork 등에 의해 처음 제안된 차등적 프라이버시는

    민감한 개인 정보를 포함하는 데이터 집합이 주어졌을

    때, 합계, 빈도 등과 같은 집계 질의(aggregate query)

    의 반복 수행으로 발생하는 프라이버시 누출 위험을 줄

    이고자 하였다. 이를 위해, 단순히 질의를 거절하는 것이

    아니라, 각 질의 결과에 노이즈를 추가함으로써 프라이

    버시를 보호하면서 동시에 유용하면서도 크게 왜곡되지

    않는 질의 결과를 제공하는 기법들이 제안되었다[49].

    분산 시계열의 차등적 프라이버시를 보장하기 위한

    연구로, Rastogi 등[10]은 PASTE라 부르는 프레임워크를

    제안하였다. PASTE는 n개의 질의 시퀀스 Q= {Q1, …, Qn}

    에 응답하기 위해 두 개의 프로토콜, 즉 푸리에 교란 알

    고리즘(Fourier perturbation algorithm: FPAk)과 분산

    라플라스 교란 알고리즘(distributed Laplace perturba-

    tion algorithm: DLPA)을 결합한다. 이를 간략히 설명

    하면 다음과 같다. 먼저, FPAk 는 질의 시퀀스 Q를 k-

    길이 압축 질의 시퀀스 F k로 만든다. 여기서, k는 DFT

    계수의 개수이다. 이후, Q 대신 Fk를 이용하여 질의하

    는데, 이에 대한 응답 F k (I)는 대략적으로 Q(I)를 계

    산하는데 사용될 수 있다. 다음으로, DLPA는 질의 시

    퀀스 F k의 응답을 교란하기 위해 분산 방식으로 노이

    즈를 추가함으로써 차등적 프라이버시를 보장한다.

    다음으로, Shi 등[11]은 비공개 스트림 집계(private

    stream aggregation) 알고리즘을 제안하였다. 이들은

    다수의 데이터 제공자들이 암호화된 시계열을 집계기

    (aggregator)에 주기적으로 업로드 하는 구조를 고려한

    다. 특히, 이 기법에서는 시계열을 암호화하기 전에 노

    이즈를 추가한다. 즉, 데이터 제공자는 노이즈 ri 가 추

    가된 시계열 Xi 를 암호화한 값 ci = E(ski, Xi + ri)를 집

    계기에 제공한다. 이때, ski 는 각 데이터 제공자의 비밀

  • 프라이버시 보호 시계열 데이터 마이닝 131

    키이다. 집계기는 다수의 암호문(ciphertext)으로부터 합

    계 결과를 복호화 하는데, 복호화한 결과에 노이즈가 통

    합되어 있기 때문에 차등적 프라이버시를 보장한다.

    5. 결 론

    본 논문에서는 시계열 데이터를 대상으로 하는 프라

    이버시 보호 데이터 마이닝(PPDM)을 조사하고 분석하

    였다. 기존 PPDM 기법은 시계열의 독특한 특성 때문

    에 시계열 데이터에 효율적인 적용이 어렵다. 즉, 기존

    PPDM 기법들은 시계열의 고차원이라는 특성을 고려하

    지 않으며, 교란된 데이터는 객체간 거리를 보장하지 못

    한다는 단점이 있어 유클리디안 거리 등의 메트릭(metric)

    기반 마이닝에 직접적으로 사용하기 어렵다. 따라서, 본

    논문에서는 시계열 데이터를 대상으로 하는 프라이버시

    보호 기법을 중앙집중형 환경에서 데이터 교란 기법과

    분산 프라이버시 보호 기법으로 구분하여 조사하고, 각

    기법의 특징들을 살펴보았다. 향후 연구로는 시계열 데

    이터 대상의 프라이버시 보호 기법을 데이터 마이닝 애

    플리케이션 관점에서 분류하고 분석할 계획이다. 또한,

    최근 소셜 네트워크 및 클라우드 컴퓨팅 등 대용량 데

    이터가 분산되어 저장 및 관리되는 추세로 프라이버시

    보호 기법이 더욱 중요해짐에 따라, 이 같은 서베이 결

    과를 새로운 컴퓨팅 환경에 효율적으로 적용할 수 있는

    PPDM 기법 제안에 활용할 예정이다.

    참 고 문 헌

    [ 1 ] E. Bertino, D. Lin, and W. Jiang, "A Survey of

    Quantification of Privacy Preserving Data Mining

    Algorithms," In Privacy-Preserving Data Mining:

    Models and Algorithms, vol.34, pp.183-205, Kluwer

    Academic Publishers, Jun. 2008.

    [ 2 ] C. C. Aggarwal and P. S. Yu, "Privacy-Preser-

    ving Data Mining: A Survey," Handbook of Data-

    base Security : Application and Trends, Gertz, M.

    and Jajodia, S. (Eds.), pp.431-460, Springer, 2008.

    [ 3 ] T.-C. Fu, "A Review on Time Series Data

    Mining," Engineering Application of Artificial Intel-

    ligence, vol.24, no.1, pp.164-181, Feb. 2011.

    [ 4 ] Y. Zhu, Y. Fu, and H. Fu, "On Privacy in Time

    Series Data Mining," In Proc. of the 12th Pacific-

    Asia Conf. on Advances in Knowledge Discovery

    and Data Mining, Osaka, Japan, pp.479-493, May

    2008.

    [ 5 ] Y. Zhu, Y. Fu, and H. Fu, "A New Class of

    Attacks on Time Series Data Mining," Intelligent

    Data Analysis, vol.14, no.3, pp.405-418, 2010.

    [ 6 ] K. Chen and L. Liu, "Privacy Preserving Data

    Classification with Rotation Perturbation," In Proc.

    of the 5th IEEE Int’l Conf. on Data Minig, Atlanta,

    GA, pp.589-592, Nov. 2005.

    [ 7 ] Z. Huang, W. Du, and B. Chen, "Deriving Private

    Information from Randomized Data," In Proc. of

    Int’l Conf. on Management of Data, ACM SIG-

    MOD, New York, NY, pp.37-48, Jun. 2005.

    [ 8 ] F. Li, J. Sun, S. Papadimitriou, G. A. Mihaila, and

    I. Stanoi, "Hiding in the Crowd: Privacy Preser-

    vation on Evolving Streams through Correlation

    Tracking," In Proc. of the 23rd IEEE Int’l Conf.

    on Data Engineering, Los Alamitos, CA, pp.686-

    695, Apr. 2007.

    [ 9 ] S. Mukherjee, M. Banerjee, Z. Chen, and A. Gan-

    gopadhyay," A Privacy Preserving Technique for

    Distance-based Classification with Worst Case

    Privacy Gaurantees," Data and Knowledge Engi-

    neering, vol.66, no.2, pp.264-288, Aug. 2008.

    [10] V. Rastogi and S. Nath, "Differentially Private

    Aggregation of Distributed Time-Series with Trans-

    formation and Encryption," In Proc. of Int’l Conf.

    on Management of Data, ACM SIGMOD, Indi-

    anapolis, Indiana, pp.735-746, Jun. 2010.

    [11] E. Shi, T-H. H. Chan, and E. Rieffel, "Privacy-

    Preserving Aggregation of Time-Series Data," In

    Proc. of the Network and Distributed System

    Security Symposium, San Diego, California, Feb. 2011.

    [12] R. Agrawal and R. Srikant, "Privacy-Preserving

    Data Mining," In Proc. of Conf. on Management

    of Data, ACM SIGMOD, Dallas, TX, pp.439-450, 2000.

    [13] H. Kargupta, S. Datta, Q. Wang, and K. Siva-

    kumar, "Random-Data Perturbation Techniques

    and Privacy-Preserving Data Mining," Knowledge

    and Information Systems, vol.7, no.4, pp.387-414,

    2005.

    [14] S. Papadimitriou, F. Li, G. Kollios, and P. S. Yu,

    "Time Series Compressibility and Privacy," In

    Proc. of the 33rd int’l conf. on Very Large Data

    Bases, University of Vienna, Austria, pp.459-470,

    Sept. 2007.

    [15] S. Mukherjee, Z. Chen, and A. Gangopadhyay, "A

    Privacy-Preserving Technique for Euclidean Dis-

    tance-based Mining Algorithms Using Fourier-

    Related Transforms," The VLDB Journal, vol.15,

    no.4, pp.293-315, Nov. 2006.

    [16] Y.-S. Moon, H.-S. Kim, S.-P. Kim, and E.

    Bertino, "Publishing Time-Series Data under Pre-

    servation of Privacy and Distance Orders," In Proc.

    of the 21st Int’l Conf. on Database and Expert

    Systems Application, Bilbao, Spain, pp.17-31, Aug.

    2010.

    [17] S. Jin, Y. Liu, and Z. Li, "Discord Region Based

    Analysis to Improve Data Utility of Privately

    Published Time Series," In Proc. of the 6th Int’l

    Conf. on Advanced Data Mining and Applications,

    Chongqing, China, pp.226-237, Nov. 2010.

    [18] H.-S. Kim and Y.-S. Moon, "Fourier Magnitude-

    Based Privacy-Preserving Clustering on Time-

  • 132 정보과학회논문지 : 데이타베이스 제 40 권 제 2 호(2013.4)

    Series Data," IEICE Trans. on Information and

    Systems, vol.93, no.6, pp.1648-1651, Jun. 2010.

    [19] S. Xu and S. Lai, "Fast Fourier Transform Based

    Data Perturbation Method for Privacy Protection,"

    In Proc. of IEEE Int’l Conf. on Intelligence and

    Security Informatics, New Brunswick, NJ, pp.221-

    224, May 2007.

    [20] S. Bapna and A. Gangopadhyay, "A Wavelet-Based

    Approach to Preserve Privacy for Classification

    Mining," Decision Sciences Journal, vol.37, no.4,

    pp.623-642, Nov. 2006.

    [21] S. Hajian and M. A. Azgomi, "A Privacy Preser-

    ving Clustering Technique Using Haar Wavelet

    Transform and Scaling Data Perturbation," In Proc.

    of the 5th Conf. on Innovations in Information

    Technology, Al Ain, United Arab Emirates, pp.218-

    222, Dec. 2008.

    [22] L. Liu, J. Wang, and J. Zhang, "Wavelet-based

    Data Perturbation for Simultaneous Privacy-

    Preserving Statistics-Preserving," In Proc. of the

    8th IEEE Int’l Conf. on Data Mining Workshop,

    Pisa, Italy, pp.27-35, Dec. 2008.

    [23] S. R. M. Oliveira and O. R. Zaïane, "Privacy

    Preserving Clustering By Data Transformation,"

    In Proc. of the 18th Brazilian Symp. on Data-

    bases, Brasil Edmonton, Canada, pp.304-318, Oct.

    2003.

    [24] K. Chen and L. Liu, "Privacy Preserving Data

    Classification with Rotation Perturbation," In Proc.

    of the 5th IEEE Int’l Conf. on Data Mining,

    Houston, Texas, pp.589-592, Nov. 2005.

    [25] C. C. Aggarwal and P. S. Yu, "A Condensation

    Approach to Privacy Preserving Data Mining," In

    Proc. of Int’l Conf. on Extending Database Tech-

    nology, Heraklion, Crete, Greece, pp.183-199, Mar.

    2004.

    [26] K. Chen, G. Sun, and L. Liu, "Towards Attack-

    Resilient Geometric Data Perturbation," In Proc. of

    SIAM Int’l Conf. on Data Mining, Minneapolis,

    Minnesota, pp.78-89, Apr. 2007.

    [27] A. Mohaisen and D. Hong, "Mitigating the ICA

    Attack against Rotation Based Transformation for

    Privacy Preserving Clustering," ETRI Journal,

    vol.30, no.6, pp.868-870, Dec. 2008.

    [28] K. Chen and L. Liu, "Privacy-Preserving Multi-

    party Collaborative Mining with Geometric Data

    Perturbation," IEEE Trans. on Parallel and

    Distributed Systems, vol.20, no.12, pp.1764-1776,

    Dec. 2009.

    [29] K. Chen, R. Kavuluru, and S. Guo, "RASP: Effi-

    cient Multidimensional Range Query on Attack-

    Resilient Encrypted Databases," In Proc. of the

    1st ACM Conf. on Data and Application Security

    and Privacy, San Antonio, TX, pp. 249-260, Feb.

    2011.

    [30] B. C. M. Fung, K. Wang, R. Chen, and P. S. Yu,

    "Privacy-Preserving Data Publishing: A Survey of

    Recent Developments," ACM Computing Surveys,

    vol.42, no.4, pp.14-53, Jun. 2010.

    [31] J. Li, B. C. Ooi, and W. Wang, "Anonymizing

    Streaming Data for Privacy Protection," In Proc.

    of the 8th IEEE Int’l Conf. on Data Engineering,

    Cancun, Mexico, pp.1367-1369, Apr. 2008.

    [32] R. G. Pensa, A. Monreale, F. Pinelli, and D.

    Pedreschi, "Pattern-Preserving k-Anonymization

    of Sequences and Its Application to Mobility Data

    Mining," In Proc. of the 1st Int’l Workshop on

    Privacy in Location-Based Applications, Malaga,

    Spain, pp.44-60, Oct. 2008.

    [33] S. Martinez-Bea and V. Torra, "Trajectory Anony-

    mization from a Time Series Perspective," In Proc.

    of IEEE Int’l Conf. on Fuzzy Systems, Taipei,

    Taiwan, pp.401-408, Jun. 2011.

    [34] L. Shou, X. Shang, K. Chen, G. Chen, and C.

    Zhang, "Supporting Pattern-Preserving Anonymi-

    zation For Time-Series Data," IEEE Trans. on

    Knowledge and Data Engineering, online publica-

    tion, http://doi.ieeecomputersociety.org/10.1109/TKDE.

    2011.249, Dec. 2011.

    [35] X. Shang, K. Chen, L. Shou, G. Chen, and T. Hu,

    "(k, P)-Anonymity: Towards Pattern-Preserving

    Anonymity of Time-Series Data," In Proc. of the

    19th ACM Int’l Conf. on Information and Know-

    ledge Management, Toronto, Canada, pp.1333-1336,

    Oct. 2010.

    [36] O. Chertov and D. Tavrov, "Providing Group

    Anonymity Using Wavelet Transform," In Proc.

    of the 27th British National Conf. on Database,

    Dundee, UK, pp.25-36, 2010.

    [37] A. C. Yao, "Protocols for Secure Computations,"

    In Proc. of the 23th IEEE Symp. on Foundations

    of Computer Science, Chicago, Illinois, pp.160-164,

    Nov. 1982.

    [38] W. Du and M. J. Atallah, "Privacy-Preserving

    Cooperative Statistical Analysis," In Proc. of the

    17th Conf. on Annual Computer Security Appli-

    cations, New Orleans, Louisiana, pp.102-110, Dec.

    2001.

    [39] J. Vaidya and C. Clifton, "Privacy Preserving

    Association Rule Mining in Vertically Partitioned

    Data," In Proc. of the 8th ACM Int'l Conf. on

    Knowledge Discovery and Data Mining, Alberta,

    Canada, pp.639-644, Jul. 2002.

    [40] J. Vaidya and C. Clifton, "Secure Set Intersection

    Cardinality with Application to Association Rule

    Mining," Journal of Computer Security, vol.13, no.4,

    pp.593-622, 2005.

    [41] P. Ravikumar, W. W. Cohen, and S. E. Fienberg,

    "A Secure Protocol for Computing String Distance

    Metrics," In Proc. of Workshop on Privacy and

    Security Aspects of Data Mining at the Int’l Conf.

    on Data Mining, Brighton, UK, pp.40-46, Nov.

  • 프라이버시 보호 시계열 데이터 마이닝 133

    2004.

    [42] K. Liu, H. Kargupta, and J. Ryan, "Random

    Projection-based Multiplicative Data Perturbation

    for Privacy Preserving Distributed Data Mining,"

    IEEE Trans. on Knowledge and Data Engineering,

    vol.18, no.1, pp.92-106, Jan. 2006.

    [43] W. Jiang, M. Murugesan, C. Clifton, and L. Si,

    "Similar Document Detection with Limited Infor-

    mation Disclosure," In Proc. of the 24th IEEE

    Int’l Conf. on Data Engineering, Cancun, Maxico,

    pp.735-743, Apr. 2008.

    [44] B. Goethals, S. Laur, H. Lipmaa, and T. Mieli-

    käinen, "On Private Scalar Product Computation

    for Privacy-Preserving Data Mining," In Proc. of

    the 7th Int’l Conf. on Information Security and

    Cryptology, Seoul, Korea, pp.104-120, Dec. 2004.

    [45] W. K. Wong, D. W. Cheung, B. Kao, and N.

    Mamoulis, "Secure kNN Computation on Encrypted

    Databases," In Proc. of Int’l Conf. on Management

    of Data, ACM SIGMOD, Providence, Rhode Island,

    pp. 139-152, Jun. 2009.

    [46] R. Agrawal, J. Kiernan, R. Srikant, and Y. Xu,

    "Order Preserving Encryption for Numeric Data,"

    In Proc. of Int’l Conf. on Management of Data,

    ACM SIGMOD, Paris, France, pp.563-574, Jun. 2004.

    [47] H. Hu, J. Xu, C. Ren, and B. Choi, "Processing

    Private Queries over Untrusted Data Cloud

    through Privacy Homomorphism," In Proc. of the

    8th IEEE Int’l Conf. on Data Engineering, Han-

    nover, Germany, pp.601-612, Apr. 2011.

    [48] M. Shaneck, Y.-D. Kim, and V. Kumar, "Privacy

    Preserving Nearest Neighbor Search," In Proc. of

    the 6th IEEE Int’l Conf. on Data Mining, Hong

    Kong, China, pp.541-545, Dec. 2006.

    [49] A. Friedman and A. Schuster, "Data Mining with

    Differential Privacy," In Proc. of the 16th ACM

    Int’l Conf. on Knowledge Discovery and Data

    Mining, Washington, DC, pp.493-502, Jul. 2010.

    홍 선 경

    1994년 2월 강원대학교 전산학과 학사.

    2004년 2월 강원대학교 컴퓨터교육전공

    석사. 2010년~현재 강원대학교 컴퓨터

    과학과 박사과정. 1994년 7월~1999년 6

    월 한국정보문화센터 정보화교육지원본

    부 근무. 2001년 10월~2006년 5월 한국

    정보통신대학원대학교 부설 정보통신교육원(춘천분원) 강사

    관심분야는 Data Mining & Knowledge Discovery, Privacy-

    Preserving Data Miing, Computer Education

    문 양 세

    1991년 2월 한국과학기술원 과학기술대

    학 전산학과 학사. 1993년 2월 한국과학

    기술원 전산학과 석사. 2001년 8월 한국

    과학기술원 전자전산학과 전산학전공 박

    사. 1993년 2월~1997년 2월 현대전자산

    업(주) 주임연구원. 2001년 9월~2002년

    2월 ㈜현대시스콤 선임연구원. 2002년 2월~2005년 2월

    (주)인프라밸리 기술위원(이사). 2005년 3월~2008년 2월

    한국과학기술원 첨단정보기술연구센터 연구원. 2008년 7월~

    2009년 8월 미국 퍼듀대학교 방문연구원. 2005년 3월~현재

    강원대학교 컴퓨터과학과 부교수. 관심분야는 Data Mining,

    Knowledge Discovery, Stream Data, Storage System,

    Database Applications, Mobile/Wireless Communication

    Services & Systems

    김 혜 숙

    2003년 2월 강원대학교 컴퓨터정보통신

    공학부 학사. 2006년 2월 강원대학교 컴

    퓨터교육전공 석사. 2011년 2월 강원대

    학교 컴퓨터과학과 전산학전공 박사. 2011

    년 9월~현재 강원대학교 컴퓨터과학과

    박사후연구원. 2006년 9월~현재 강원대

    학교 IT대학 시간강사. 관심분야는 Data Mining & Know-

    ledge Discovery, Privacy-Preserving Data Mining