클라우드 환경에서 그리드기반 생성기법 및 암호화 질의처리 알고리즘

클라우드 환경에서 그리드기반 생성기법 및 암호화 질의처리 알고리즘

김태훈 * 장미영 장재우전북대학교 데이터베이스 연구실

2014.5.30

2014 한국 멀티미디어학회 춘계 학술대회


목 차

서론

관련 연구

연구 동기

클라우드 환경에서 그리드 기반 색인 키 생성기법 및 암호화 알고리즘

성능 평가

결론 및 향후 연구

2/20


서 론 데이터베이스 아웃소싱의 관심 고조

개인 및 소규모의 데이터 소유자가 증가하는 사용자 및 데이터를 효율적으로 관리하고 , 사용자에게 개선된 질의 처리 환경을 제공

사용자 개인 정보 , 이동 궤적 , 증권 , 또는 의료 정보 등 민감한 정보를 포함

데이터베이스 아웃소싱의 장점1. 서비스 요청자 ( 업체 , 개인 ) 의 서버관리 비용 절감

2. 전문가에 의한 데이터베이스 관리

3. 핵심역량 재투자가 가능

아웃소싱된 데이터베이스의 악용 데이터 암호화 없이 아웃소싱할 경우 , 제 3 자에게 매도 , 다른 용도로 악용될

가능성 존재 대용량 센시티브 데이터에 대한 아웃소싱 수행 시 , 원본 데이터 유출 방지를

위한 효율적인 데이터 보호기법 요구

3/20


서 론 기존 클라우드 컴퓨팅 환경의 데이터 보호 기법

데이터 보호 기법을 통해 대용량 데이터를 암호화 서비스 제공자에게 아웃소싱 질의 처리시 , 데이터 복호화로 인해 서비스 제공자에게 원본 데이터가 노출되는

문제점 전체 데이터베이스를 복호화 하기 때문에 질의 수행비용이 증가

데이터 보호를 지원하는 질의 처리 기법 데이터 복호화 없이 정확 매칭 , 범위 질의 처리 수행 보안 취약점 문제 해결

문제점 암호화된 데이터 상에서 다중 컬럼 미지원 데이터 분석 및 마이닝 수행이 불가

다중 컬럼을 지원하여 데이터 분석 및 마이닝을 수행할 수 있는 암호화 기법이 필요

4/20


관련 연구 Order-Preserving Encryption Scheme(OPE)

타깃 분포를 미리 임의로 정하고 , 원본 데이터의 분포를 타깃 분포로 변환하여 실제 값을 변형시키는 기법

Step1 Model 단계 타깃 데이터를 버킷팅하여 각각 버킷 분포를 piece wise linear splines 로

모델화 Step2 Flatten 단계

각각 모델링한 버킷 내의 값을 균일한 분포가 되도록 변환 Step3 Transform 단계

원본 데이터 분포화 타깃 분포로부터 flatten 한 결과의 스케일을 같게 하여 변환함으로써 , 원본 데이터 분포의 데이터가 타깃 분포를 따르는 데이터로 변환

장점 암호화된 상태에서 검색이 용이하며 원본 데이터 유추가 어려워 안정성이 높음

단점 숫자데이터만 적용 가능하며 , 순서 통계량에 의해 원본 데이터 정보 노출 위험이

존재5/20


관련 연구 CryptDB

암호화된 데이터 상에서 SQL-Like 질의 처리를 수행하는 대표적인 기법 컬럼별로 독립적으로 암호화 수행

col1/rank col2/name

table1 (emp)SELECT * FROM emp WHERE salary = 100

SELECT * FROM table1 WHERE col3 = x5a8c34

Proxy

60100800100

col3/salary

Application

x4be219

x95c623

x2ea887

x2ea887

x934bc1x5a8c34x84cec1

x17cea7x5a8c34

?x5a8c34x5a8c34

6/20


관련 연구 CryptDB 에 적용된 암호화 기법 및 지원 질의 유형

Deterministic 기법 : 입력 값 x 에 대해 하나의 암호화 값 Encx 생성• 처리 가능한 질의 : GROUP BY, COUNT, DISTINCT

Order-Preserving 기법 : 암호화 데이터가 원본 데이터의 순서 및 빈도 유지• 처리 가능한 질의 : ORDER BY, MIN, MAX, SORT

Homomorphic 기법 : 지수 / 로그 등의 함수를 이용하여 평문 공간과 암호문 공간에 정의된 연산을 보존

• ADD

7/20


연구 동기

기존 연구의 문제점 1. 대용량의 데이터를 단일 서버에서 처리하기 때문에 , 질의 처리 효율이

떨어지는 단점 존재

2. 암호화된 데이터 상의 다중 컬럼 질의 미지원• 데이터 분석 및 마이닝 질의처리 불가

암호화된 데이터에 대해 다중 컬럼을 지원하는 암호화 질의처리 알고리즘에 대한 연구가 필수적

8/20


연구 동기

9/20

그리드 기반 다중컬럼 질의 색인키 생성힐버트 커브 적용데이터 보호

Prefix-Tree,Hash를 적용한 데이터 검색 속도 향상

다중 컬럼 질의 지원을 위한 인덱스 설계 정보 보호를 위한 암호화 인덱스 질의 처리 성능 보장

클라우드 환경에서 암호화 질의처리를 위한 그리드 기반 색인키 생성 기법


제안 기법 질의 처리 시나리오

10/20

데이터 소유자부동산데이터베이스

데이터 아웃소싱 서비스 제공자아웃소싱된데이터베이스

2 색인키 생성

6 데이터 반환

원본 데이터베이스

암호화 데이터베이스

1 질의 요청자

5 질의 요청

3

Hash, Prefix데이터 저장4


그리드기반 생성기법 및 암호화 질의처리 알고리즘

11/20

Step 1. Customizing the sensed data from the source nodes creation

Step1• 컬럼 유사도 측정을 통한 그리드 조합 선정

Step2• 힐버트 커브 기반 그리드 매칭 및 색인 키 생성

Step3• 암호화 색인키 기반 인덱스 생성


그리드기반 생성기법 및 암호화 질의처리 알고리즘 Step1 컬럼 유사도 측정을 통한 그리드 조합 선정

1. 각 컬럼을 OPE 로 암호화 수행

2. 각 컬럼 간 상관 분석을 수행 하여 연관성이 낮은 컬럼 조합 선정• 상관계수 측정 기법인 피어슨 상관 계수 (Pearson Correlation coeffecient) 이용

3. 센시티브 데이터에서 모집단을 통해 상관계수 측정 시 매우 높은 비용 요구• 식 (1) 을 통해 표본 집단을 통해 모집단의 상관계수 측정

12/20

(1)


그리드기반 생성기법 및 암호화 질의처리 알고리즘 Step2 힐버트 커브 기반 그리드 매칭 및 색인키 생성

1. Step1 에서 선정된 컬럼 조합에 대해 k 개의 그리드 인덱스 생성 2. 힐버트 커브 (Hilbert curve) 를 이용하여 그리드 id 변환 3. 변환된 id 를 조합하여 색인 키 생성

13/20

그림 1

OPE 를 적용한 암호화 데이터베이스

그림 2

2 번 레코드 데이터 삽입 및 색인키 생성0011 1110 0011 색인키 생성

컬럼조합 컬럼조합 컬럼조합 {0, 3} {1, 3} {3, 5}컬럼 0 컬럼 1 컬럼 3 컬럼 5

1 1 4 1 1

2 3 8 3 3

3 5 12 5 5

4 7 16 7 7

5 10 20 10 10

143 13

1 2 15 16

12

7 11

4

5 9

6 10

8

143 13

1 2 15 16

12

7 11

4

5 9

6 10

8

143 13

1 2 15 16

12

7 11

4

5 9

6 10

8


그리드기반 생성기법 및 암호화 질의처리 알고리즘 Step3 암호화 색인키 기반 인덱스 생성

1. 색인키의 비트열 길이 및 트리의 깊이 (depth = 4) 를 고려하여 Prefix-Tree생성

2. 질의 수행 시1. Prefix-Tree 의 범위 시작점 선정

2. 연결 리스트를 이용한 최종점까지의 데이터 탐색

14/20

001111100011 색인키 탐색 예000 001 010 011 100 101 110 111

111

100

011

Data


성능 평가 성능평가 환경

Intel®Core i3-2100 CPU 3.10Ghz Memory 2GB Windows 7 64bit Visual Studio 2010 C++

비교 대상 CryptDB 제안하는 기법

평가 항목 정확 매칭 질의 범위 매칭 질의

15/20


성능 평가 실험 데이터

UC Irvine 대학의 US Census Database• 이름 , 결혼여부 , 자녀수 , 성별 , 나이 학력 , 직업 및 전문분야 , 직업별 소득 , 재산

및 지출

4 개의 컬럼을 이용 , 100 회의 질의 수행 결과 평균 측정

파라메터 데이터 크기 : 0.5G, 1G, 1.5G 2G 범위 질의 영역 : 0.0001, 0.0002, 0.0005, 0.0007, 0.001

16/20


성능 평가 정확 매칭

데이터 크기가 2G 인 경우 CryptDB 는 약 0.4 초의 정확 매칭 질의 처리 시간 소요

제안 기법의 경우 약 0.12 초로 약 4 배 향상된 질의 처리 성능 지원 제안하는 기법은 분산 암호화 색인 키를 이용하여 복호화 없이 Prefix-Tree

탐색을 통해 빠르게 접근하여 데이터를 반환하기 때문

17/20

0.5 1G 1.5G 2G0

0.10.20.30.40.50.60.70.80.9

1

CryptDB

제안기법

데이터 크기

질의 처리

시간 (초

)


성능 평가 범위 매칭

0.001% 의 질의 영역에 대한 데이터 탐색의 경우 제안하는 기법의 질의 처리 시간은 약 0.02 초로 기존 기법에 비해 성능이 약 15 배 향상됨

18/20

0.0001 0.0002 0.0005 0.0007 0.0010.001

0.01

0.1

1

질의 처리

시간 (초

)

질의 영역 크기 (% of the whole area)


결 론 클라우드 환경에서 데이터 보호 및 분석 질의를 위한 그리드 기반 색인 키

생성 기법 및 암호화 알고리즘 다중 컬럼 질의를 위해 그리드 기반 다중 컬럼 질의 색인키 생성 색인 키 정보 보호를 위해 힐버트 커브 적용 , 전송 오버헤드 및 데이터 유출

위험을 감소 분산된 환경에서 질의 처리 성능 보장을 위해 Prefix-Tree 사용

성능평가 기존기법 대비 제안 기법 정확 매칭 약 4 배 향상 범위 매칭은 약 15 배 향상되어 기존 기법에 비해 제안 기법이 우수함을 검증

향후 연구 제안 기법을 top-k 및 집계 질의를 지원하는 알고리즘으로 확장하여 연구

19/20

감사합니다 .Q&A


참고문헌 [1]Digital Signature Standard(DSS): NIST-Federal Information Pro-

cessing Standards Publication 186-3, 2009. [2]Advanced Encryption Standard(AES) : NISTFederal Information

Processing Standards Publication 197, 2001. [3]RSA Laboratories, “RSAREF: A Cryptographic Toolkit,” Version

2.0, 1994, available via FTP from rsa.com. [4]A. Desai., “New paradigms for constructing symmetric encryp-

tion schemes secure against chosen-ciphertext attack”, 2000. [5]O. Goldreich., “Foundations of Cryptography: Volume I Basic

Tools”, 2003 [6]T. Ge and S. Zdonik, “Answering Aggregation Queries in a Se-

cure System Model”, VLDB, 2007. [7]A. Boldyreva et al., “Order-Preserving Encryption Revisited: Im-

proved Security Analysis and Alternative Solutions“, 2010. [8]R. A. Popa, C. M. S. Redfield, N. Zeldovich, and H. Balakrish-nan.

"CryptDB: Protecting confidentiality with encrypted query process-ing" InProc. of the ACM Symposium on Operating Systems Princi-ples (SOSP), 2011

.

21/20


Piecewise linear splines Piecewise linear splines( 조각 별 선형 자유 곡선 ) 로 모델화의 예

22/20


OPES flatten, Tranform 단계

23/20

• Step1 Model 단계• 타깃 데이터를 버킷팅하여 각각 버킷 분포를 piece wise linear

splines 로 모델화• Step2 Flatten 단계

• 각각 모델링한 버킷 내의 값을 균일한 분포가 되도록 변환• Step3 Transform 단계

• 원본 데이터 분포화 타깃 분포로부터 flatten 한 결과의 스케일을 같게 하여 변환함으로써 , 원본 데이터 분포의 데이터가 타깃 분포를 따르는 데이터로 변환


피어슨 표본 상관 계수 계산 예 질의에 사용되는 센시티브 컬럼이 {0, 1, 3, 5} 이라 가정했을 때 , 해당

컬럼들의 모든 조합에 따른 피어슨 상관 계수 측정한 결과 가장 작은 값을 지니는 컬럼 조합을 결과로 선정

계산된 피어슨 상관 계수는 선정된 컬럼 조합이 가지는 모든 데이터에 대해 샘플링 하여 계산된 값

24/20

컬럼 조합 피어슨 상관계수

0 3 0.6638431 3 0.6663273 5 0.677279

클라우드 환경에서 그리드기반 생성기법 및 암호화 질의처리 알고리즘

Documents