프라이버시보존기계학습 · bkav사가3d 프린트 ... 국제게놈분석경진대회...

35
프라이버시 보존 기계학습 1

Upload: others

Post on 06-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

프라이버시 보존 기계학습

1

Page 2: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

기계 학습(Machine Learning, ML)

2

Learning: the process of acquiring new or modifying exiting, knowledge, behaviors, skills, values, or preferences

-Wikipedia

Machine Learning: an algorithm which automatically learns and improves from experience without being explicitly programmed

-www.expertsystem.com

오늘날 기계학습의 모습:

Page 3: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

A Whole New World (of Data)

3

“Without big data, you are blind and deaf in the middle of a free way”

– Geoffrey Moore, management consultant & theorist, 2014

“Data will become a currency” – David Kenny, IBM Watson, 2016

“Data is the new oil” – Clive Humby, Mathematician, 2006

Page 4: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

4- https://breachlevelindex.com- Sensitive data breaches

- 2014 : 뉴스피드 조작, 감정실험- 2015 : Cambridge Analytica에 데이터 판매- 2016 : 미국 대선 경선 과정에 개인정보 사용

하지만, 누군가 당신의 정보를 유출하고 있다면?

Page 5: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

기계 학습을 신뢰할 수 있는가?

5스카이넷(터미네이터) : 기계에 대한 지나친 믿음이 가져올 미래?

[Su et al, 2017] 딥 러닝을 속이는 1픽셀 공격

Bkav사가 3D 프린트마스크로아이폰 X 얼굴인식 통과(200달러 비용)

Page 6: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

Safe Machine Learning (Safe ML)

6

Safe Machine Learning (Safe ML)

Data Privacy Correctness of Computation

Data Breaches Faithless model

Page 7: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

Bliss for Crypto = Nightmare for ML?Inspired by Shafi Goldwasser’s distinguished talk in Crypto’18

7

Shafi GoldwasserProfessor of MIT, Berkeley, Weizmann InstituteTuring Award (2013)Gödel prize (1993, 2001)

Page 8: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

암호와 기계학습의 발전

8

Theory & Practice of cryptography are coming closer together

Theory of ML alive and well, but the excitement in ML is in practice (DNN) lacking theory

By Shafi Goldwasser

Page 9: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

기계학습

9

훈련데이터

𝒙𝟏,𝒚𝟏⁞

(𝒙𝒏,𝒚𝒏)

기계학습

Models.t. 𝑓 𝑥𝑖 ≈ 𝒚𝒊

Prediction

개인데이터 𝒙

𝒇 𝒙

Inference

Learning

𝑓

Page 10: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

암호

10

공격자

(𝒄𝟏 = 𝑬𝒏𝒄𝑲 𝒎𝟏 ,𝒎𝟏)⁞

(𝒄𝒏 = 𝑬𝒏𝒄𝑲 𝒎𝒏 ,𝒎𝒏)

Adversary

복호화

암호문 𝑬𝒏𝒄𝑲(𝒎)

𝒎

평문 (메시지)

𝐷𝑒𝑐𝐾 ⋅

Decryption Circuit

Crypto Theory: Existence of a secure 𝐸𝑛𝑐𝐾(⋅) (under 𝑃 ≠ 𝑁𝑃)= Non-existence of a poly-time Adversary for ∀𝑛

Page 11: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

기계학습 암호

데이터분석을 통한모델 예측

해독불가능한암호스킴

생성

기계학습과 암호의 지향점 – 반대?

Page 12: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

However, ML on Enc data is possible if Enc is “homomorphic”

12

𝑓훈련데이터

𝒙𝟏,𝒚𝟏 , 𝒙𝟐 ,𝒚𝟐 …(𝒙𝒏,𝒚𝒏)

(𝑬𝒏𝒄𝑲 𝒎𝟏 , 𝒎𝟏)⁞

(𝑬𝒏𝒄𝑲 𝒎𝒏 , 𝒎𝒏)

𝐸𝑛𝑐𝐾(⋅) 𝐷𝑒𝑐𝐾(⋅)

Enc is “homomorphic” w. r. t. operators in Alg

ALG

기계학습

ALG

동형기계학습

ҧ𝑓

Page 13: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

동형암호(Homomorphic Encryption)

17

Page 14: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

암호기술의 분류

15

Page 15: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

What is Homomorphic Encryption (HE)?

Homomorphic encryption is a method of performing calculations on

Encrypted data without decryption.

Slide Courtesy of RationalMind

The Future of Encryption by National Science Foundation (https://youtu.be/BylWT5gsgfM)(한글자막: http://www.math.snu.ac.kr/~jhcheon/[HD%20MP4]The%20future%20of%20encryption )

16

동형암호 (HE : Homomorphic Encryption)

Page 16: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

장점

❖튜링 완전성: 컴퓨터로 하는 모든 연산 가능

❖통계처리/검색/기계학습

❖해커의 데이터 유출 원천봉쇄

❖암/복호화 속도: 수십 ms

c.f. AES 1us, RSA 1ms

단점

동형암호의 장단점

17

❖ 암호문 확장: 수십 배 (평문 대비)

❖ 암호문 연산: 수백 배 (평문 대비)

❖ 응용에 따른 속도의 차이 ➔

최적 알고리즘과 구현기술 필요

❖ 비다항식 연산이 어려움

Page 17: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

2011 2013 2014 2015 2016 2018

1-bit Amortized

1bit, 1800s

1bit, 0.7s1bit, 0.052s

120s, 250K bit

172s, 531bit

320s, 16K bit

18

재부팅 속도로 보는 동형암호의 발전

[GH11] Implementing Gentry’s Fully-Homomorphic Encryption Scheme, Eurocrypt 2011.

[CCK+13] Batch Fully Homomorphic Encryption over the Integers, Eurocrypt 2013.

[CLT14] Scale-Invariant Fully Homomorphic Encryption over the Integers, PKC 2014.

[HS15] Bootstrapping for Helib, Eurocrypt 2015

[DM15] FHEW: Boostrapping Homomorpic Encryption in Less Than a Second, Eurocrypt 2015.

[CGGI16] Faster Fully Homomorphic Encryption: Bootstrapping in less than 0.1 Seconds, Asiacrypt 2016.[CHH18] Faster Homomorphic Discrete Fourier Transforms and Improved FHE Bootstrapping, IEEE ACCESS, 2019

HEAAN

Page 18: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

2011 2013 2014 2015 2016 2018

1-bit Amortized

1bit, 1800s

1bit, 0.7s1bit, 0.052s

120s, 250K bit

172s, 531bit

320s, 16K bit

19

재부팅 속도로 보는 동형암호의 발전

[GH11] Implementing Gentry’s Fully-Homomorphic Encryption Scheme, Eurocrypt 2011.

[CCK+13] Batch Fully Homomorphic Encryption over the Integers, Eurocrypt 2013.

[CLT14] Scale-Invariant Fully Homomorphic Encryption over the Integers, PKC 2014.

[HS15] Bootstrapping for Helib, Eurocrypt 2015

[DM15] FHEW: Boostrapping Homomorpic Encryption in Less Than a Second, Eurocrypt 2015.

[CGGI16] Faster Fully Homomorphic Encryption: Bootstrapping in less than 0.1 Seconds, Asiacrypt 2016.[CHH18] Faster Homomorphic Discrete Fourier Transforms and Improved FHE Bootstrapping, IEEE ACCESS, 2019

✓ 1800s → 0.05s (1bit)✓ 1800s → 0.00046s (Amortized)3만 – 300백만배

HEAAN

Page 19: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

동형 기계학습(Homomorphic Machine Learning)

20

Page 20: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

국제 게놈분석 경진대회 (Genome Analysis Competition)

주최 후원 목표

정보유출 없이클라우드 컴퓨팅으로

유전정보를 분석UCSD Medical School 미국 국립보건원

21

Page 21: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

Slide Courtesy of Xiaoqian Jiang (△ = too small iteration → hard to adapt for other data)22

Rank

1

3

2

X

X

2017 Track 3 - Winner

Page 22: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

Team Submission Schemes

End to End Performan

ceEvaluation result ( F1- Score ) at different cutoffs

Running

time

(mins)

Peak

Memory (M

)

0.01 0.001 0.0001 0.00001

Gold Semi Gold Semi Gold Semi Gold Semi

A*FHE

A*FHE -1 +

HEAAN

922.48 3,777 0.977 0.999 0.986 0.999 0.985 0.999 0.966 0.998

A*FHE -2 1,632.97 4,093 0.882 0.905 0.863 0.877 0.827 0.843 0.792 0.826

ChimeraVersion 1 + TFHE & HEAAN

(Chimera)

201.73 10,375 0.979 0.993 0.987 0.991 0.988 0.989 0.982 0.974

Version 2 215.95 15,166 0.339 0.35 0.305 0.309 0.271 0.276 0.239 0.253

Delft Blue Delft Blue HEAAN 1,844.82 10,814 0.965 0.969 0.956 0.944 0.951 0.935 0.884 0.849

UC San

Diego

Logistic Regr + HEAAN 1.66 14,901 0.983 0.993 0.993 0.987 0.991 0.989 0.995 0.967

Linear Regr 0.42 3,387 0.982 0.989 0.980 0.971 0.982 0.968 0.925 0.89

Duality In

c

Logistic Regr + CKKS (Aka HEAAN),

pkg: PALISADE

3.8 10,230 0.982 0.993 0.991 0.993 0.993 0.991 0.990 0.973

Chi2 test 0.09 1,512 0.968 0.983 0.981 0.985 0.980 0.985 0.939 0.962

Seoul

National

University

SNU-1 HEAAN

52.49 15,204 0.975 0.984 0.976 0.973 0.975 0.969 0.932 0.905

SNU-2 52.37 15,177 0.976 0.988 0.979 0.975 0.974 0.969 0.939 0.909

IBMIBM-Complex CKKS (Aka HEAAN),

pkg: HElIb

23.35 8,651 0.913 0.911 0.169 0.188 0.067 0.077 0.053 0.06

IBM- Real 52.65 15,613 0.542 0.526 0.279 0.28 0.241 0.255 0.218 0.229

Slide Courtesy of Xiaoqian Jiang 23

2018 Track 2 : Secure Genome Wide Association Studies based on HE

Page 23: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

KeyValue

고객의 데이터는 고객의 손을 떠난 시점부터 분석 결과가 되어

다시 고객 손에 돌아올 때까지 어떤 순간에도 복호화되지 않는다

❖ 고객은 데이터 프라이버시 유출의 어떠한 위협 없이 클라우드 분석서비스 이용 가능

Slide Courtesy of Samsung SDS

삼성SDS 클라우드 기반 데이터 분석

47

Page 24: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

MS사 AI 보호를 위해 동형암호 채택(Fortune magazine, May 2018)

Slide Courtesy of Kristin Lauter25

Page 25: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

Intel사 AI 보호를 위해 동형암호 채택

26https://github.com/NervanaSystems/he-transformer

Page 26: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

동형 기계학습 연구 현황

27

+ DCOSS

ML Type Task Name Publication HE Remarks

Supervised Learning

Neural Network

(Prediction)

CryptoNets ICML’16 SEAL- First Privacy-Preserving ML based on HE

- CNN on MNIST (99.0% accuracy) / 570 sec

Gazelle USENIX’18Additive

HE- Hybrid of Additive HE & MPC

- Fast but Requires Communication

[BMMP18] CRYPTO’18 TFHE- DiNN on MNIST : Deep Discretized Neural Network

- 96.3% accuracy / 1.6 sec

[JKLS18] CCS’18 HEAAN- CNN on MNIST (98.1% accuracy)

- 30 sec (Amortized : 0.45 sec)

Logistic Regression(Training)

[KSK+18]BMC

JournalHEAAN

- iDASH’17 Winner, Genomic data

- 1579 samples / 18 features / 7 min

[HHCP19] IAAI’19 HEAAN- Large-scale Financial data with Bootstrapping

- 422108 samples / 200 features / 18 hours

Unsupervised Learning

Clustering[JA18] SAC’18 TFHE - K-means Algorithm

[CKP19] SAC’19 HEAAN - Mean-Shift Algorithm (400 times faster than the above)

Page 27: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

28

다양한 동형암호 응용분야

질병진단 분석(Disease Diagnosis)

헬스 케어(Health Care)

게놈 분석(Genome Analysis)

신용 분석(Credit Score Analysis)

클라우드 서비스(Cloud Service)

More and More!

추천 시스템(Recommendation System)

Page 28: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

기계 학습의 신뢰성 확보

29

-(근사) 계산 검증 기술-

Page 29: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

Threats on Machine Learning (데이터 / 모델 변조)

출입 통제를 위한 얼굴인식모델

학습 과정

얼굴인식출입 통제

모델 생성

Page 30: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

Threats on Machine Learning (데이터 / 모델 변조)

출입 통제를 위한 얼굴인식모델

학습 과정

데이터 추가

얼굴인식출입 통제

모델 생성

Page 31: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

Threats on Machine Learning (데이터 / 모델 변조)

32

출입 통제를 위한 얼굴인식모델

학습 과정

데이터 추가

얼굴인식출입 통제

판결문 기반 형량 결정모델

모델 생성

형량 판단 모델

Page 32: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

Threats on Machine Learning (데이터 / 모델 변조)

33

출입 통제를 위한 얼굴인식모델

학습 과정

데이터 추가

얼굴인식출입 통제

판결문 기반 형량 결정모델

모델 생성

"인공지능(AI)판사, 실제 재판 판결 80% 예측“ -2016.10http://biz.chosun.com/site/data/html_dir/2016/10/25/2016102501432.html

대법원, 판결문 작성 때 AI 활용방안 검토 착수 -2019.09http://www.segye.com/newsView/20190916508413?OutUrl=naver

형량 판단 모델형량 판단 모델

변형

Page 33: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

Verifiable Computing & zk-SNARKs

특정한 계산에 대해 그 결과를 효율적으로 검증할 수 있는가?

• Yes, 검증이 쉬운 암호학 문제들 (이산로그, 소인수분해, 해쉬 충돌쌍 찾기 등)

55

Page 34: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

Verifiable Computing & zk-SNARKs

특정한 계산에 대해 그 결과를 효율적으로 검증할 수 있는가?

• Yes, 검증이 쉬운 암호학 문제들 (이산로그, 소인수분해, 해쉬 충돌쌍 찾기 등)

일반적인 계산에 대해 그 결과를 효율적으로 검증할 수 있는가?

• Yes! Probabilistically Checkable Proof (PCP) [Babai et al.’91, Arora & Safra’92]

• How? 계산을 수행한 사람이 증명을 제공 -> 증명을 보고 확률적인 검증!

• Idea: Sampling 검증 -> 대수적, 확률론적 확장

55

Gödel Prize (93)

동형암호 + 계산검증 = 완벽한 하인

Page 35: 프라이버시보존기계학습 · Bkav사가3D 프린트 ... 국제게놈분석경진대회 (Genome Analysis Competition) 주최 후원 목표 정보유출없이 클라우드컴퓨팅으로

36

Thank you!